Commit1018933

committed

Improve logging in scripts/es-sarif/index-sarif-*

1 parent42e6b4a commit1018933Copy full SHA for 1018933

File tree

1 file changed

+39

-15

lines changed

scripts/es-sarif
- index-sarif-results-in-elasticsearch.py

1 file changed

+39

-15

lines changed

`‎scripts/es-sarif/index-sarif-results-in-elasticsearch.py‎`

Lines changed: 39 additions & 15 deletions

Original file line number	Diff line number	Diff line change
`@@ -11,9 +11,12 @@`
`11`	`11`	`results into a single Elasticsearch index. Each result document includes:`
`12`	`12`	`- All original SARIF result fields (ruleId, message, locations, etc.)`
`13`	`13`	`- Derived fields (ruleGroup, ruleLanguage) parsed from ruleId`
`14`		`--Run-level metadata (tool info, version control provenance)`
	`14`	`+-ONLY versionControlProvenance from run (minimal enrichment)`
`15`	`15`	`- Source file tracking metadata`
`16`	`16`
	`17`	`+This approach keeps documents minimal by indexing ONLY the result objects to avoid`
	`18`	`+Elasticsearch size limits. Tool info and automation details are NOT included.`
	`19`	`+`
`17`	`20`	`Usage:`
`18`	`21`	`python index-sarif-results-in-elasticsearch.py <sarif_files_list.txt> <elasticsearch_index_name>`
`19`	`22`
`@@ -398,7 +401,7 @@ def sarif_results_generator(sarif_files, index_name):`
`398`	`401`
`399`	`402`	`defindex_sarif_files(sarif_files,index_name,host,api_key=None,username=None,password=None):`
`400`	`403`	`"""`
`401`		`- Connect to Elasticsearch and bulk index all SARIF results.`
	`404`	`+ Connect to Elasticsearch and bulk index all SARIF results with progress logging.`
`402`	`405`	`"""`
`403`	`406`	`es_client=create_elasticsearch_client(host,api_key,username,password)`
`404`	`407`
`@@ -415,37 +418,58 @@ def index_sarif_files(sarif_files, index_name, host, api_key=None, username=None`
`415`	`418`	`returnFalse`
`416`	`419`
`417`	`420`	`print(f"Indexing results from{len(sarif_files)} SARIF files...")`
	`421`	`+print()`
`418`	`422`
`419`	`423`	`try:`
`420`		`-# Use bulk helper to index all documents`
`421`		`-success_count,failed_docs=helpers.bulk(`
	`424`	`+# Track progress during bulk indexing`
	`425`	`+documents_indexed=0`
	`426`	`+last_progress_update=0`
	`427`	`+progress_interval=100# Update every 100 documents`
	`428`	`+`
	`429`	`+defprogress_callback(success,info):`
	`430`	`+"""Callback to track progress during bulk indexing."""`
	`431`	`+nonlocaldocuments_indexed,last_progress_update`
	`432`	`+documents_indexed+=1`
	`433`	`+`
	`434`	`+# Print progress updates periodically`
	`435`	`+ifdocuments_indexed-last_progress_update>=progress_interval:`
	`436`	`+print(f" → Indexed{documents_indexed} documents so far...")`
	`437`	`+last_progress_update=documents_indexed`
	`438`	`+`
	`439`	`+ifnotsuccess:`
	`440`	`+print(f" ✗ Failed to index document:{info}")`
	`441`	`+`
	`442`	`+# Use bulk helper to index all documents with progress tracking`
	`443`	`+print("Starting bulk indexing...")`
	`444`	`+forsuccess,infoinhelpers.streaming_bulk(`
`422`	`445`	`es_client,`
`423`	`446`	`sarif_results_generator(sarif_files,index_name),`
`424`	`447`	`chunk_size=500,`
`425`	`448`	`request_timeout=60,`
`426`		`- )`
	`449`	`+raise_on_error=False,`
	`450`	`+ ):`
	`451`	`+progress_callback(success,info)`
`427`	`452`
	`453`	`+print(f" → Indexed{documents_indexed} documents (final)")`
	`454`	`+print()`
`428`	`455`	`print("-"*50)`
`429`	`456`	`print(f"✓ Bulk indexing complete")`
`430`		`-print(f"✓ Successfully indexed:{success_count} documents")`
`431`		`-print(f"✗ Failed to index:{len(failed_docs)} documents")`
`432`		`-`
`433`		`-iffailed_docs:`
`434`		`-print("\nFailed documents:")`
`435`		`-fordocinfailed_docs[:5]:# Show first 5 failures`
`436`		`-print(f" -{doc}")`
`437`		`-iflen(failed_docs)>5:`
`438`		`-print(f" ... and{len(failed_docs)-5} more")`
	`457`	`+print(f"✓ Total documents indexed:{documents_indexed}")`
`439`	`458`
`440`		`-# Get final index stats`
	`459`	`+# Get final index stats to verify`
`441`	`460`	`stats=es_client.indices.stats(index=index_name)`
`442`	`461`	`doc_count=stats["indices"][index_name]["total"]["docs"]["count"]`
`443`	`462`	`print(f"✓ Final document count in index:{doc_count}")`
	`463`	`+`
	`464`	`+ifdoc_count!=documents_indexed:`
	`465`	`+print(f"⚠ Warning: Document count mismatch (indexed:{documents_indexed}, in index:{doc_count})")`
`444`	`466`
`445`	`467`	`returnTrue`
`446`	`468`
`447`	`469`	`exceptExceptionase:`
`448`	`470`	`print(f"Error during bulk indexing:{e}")`
	`471`	`+importtraceback`
	`472`	`+traceback.print_exc()`
`449`	`473`	`returnFalse`
`450`	`474`
`451`	`475`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commit1018933

File tree

1 file changed

1 file changed

`‎scripts/es-sarif/index-sarif-results-in-elasticsearch.py‎`

0 commit comments