NotificationsYou must be signed in to change notification settings
Fork352
Star6.6k

Commit873ca9b

authored

metadata and generic filters in vector search (#689)

1 parent96dd570 commit873ca9bCopy full SHA for 873ca9b

File tree

3 files changed

+125

-43

lines changed

pgml-sdks/python/pgml
- examples
  - question_answering.py
- pgml
  - collection.py
- tests
  - test_collection.py

3 files changed

+125

-43

lines changed

`‎pgml-sdks/python/pgml/examples/question_answering.py‎`

Lines changed: 2 additions & 2 deletions

Original file line number	Diff line number	Diff line change
`@@ -33,10 +33,10 @@`
`33`	`33`
`34`	`34`	`start=time()`
`35`	`35`	`query="Who won 20 grammy awards?"`
`36`		`-results=collection.vector_search(query,top_k=5,title="Beyoncé")`
	`36`	`+results=collection.vector_search(query,top_k=5,metadata_filter={"title" :"Beyoncé"})`
`37`	`37`	`_end=time()`
`38`	`38`	`console.print("\nResults for '%s'"% (query),style="bold")`
`39`	`39`	`console.print(results)`
`40`	`40`	`console.print("Query time = %0.3f"% (_end-start))`
`41`	`41`
`42`		`-db.archive_collection(collection_name)`
	`42`	`+#db.archive_collection(collection_name)`

`‎pgml-sdks/python/pgml/pgml/collection.py‎`

Lines changed: 23 additions & 16 deletions

Original file line number	Diff line number	Diff line change
`@@ -298,18 +298,23 @@ def upsert_documents(`
`298`	`298`	`)`
`299`	`299`	`continue`
`300`	`300`
	`301`	`+metadata=document`
	`302`	`+`
`301`	`303`	`_uuid=""`
`302`	`304`	`ifid_keynotinlist(document.keys()):`
`303`	`305`	`log.info("id key is not present.. hashing")`
`304`		`-source_uuid=hashlib.md5(text.encode("utf-8")).hexdigest()`
	`306`	`+source_uuid=hashlib.md5(`
	`307`	`+ (text+" "+json.dumps(document)).encode("utf-8")`
	`308`	`+ ).hexdigest()`
`305`	`309`	`else:`
`306`	`310`	`_uuid=document.pop(id_key)`
`307`	`311`	`try:`
`308`	`312`	`source_uuid=str(uuid.UUID(_uuid))`
`309`	`313`	`exceptException:`
`310`		`-source_uuid=hashlib.md5(text.encode("utf-8")).hexdigest()`
	`314`	`+source_uuid=hashlib.md5(str(_uuid).encode("utf-8")).hexdigest()`
`311`	`315`
`312`		`-metadata=document`
	`316`	`+if_uuid:`
	`317`	`+document[id_key]=source_uuid`
`313`	`318`
`314`	`319`	`upsert_statement="INSERT INTO {documents_table} (text, source_uuid, metadata) VALUES ({text}, {source_uuid}, {metadata})\`
`315`	`320`	`ON CONFLICT (source_uuid)\`
`@@ -323,9 +328,6 @@ def upsert_documents(`
`323`	`328`
`324`	`329`	`# put the text and id back in document`
`325`	`330`	`document[text_key]=text`
`326`		`-if_uuid:`
`327`		`-document[id_key]=source_uuid`
`328`		`-`
`329`	`331`	`self.pool.putconn(conn)`
`330`	`332`
`331`	`333`	`defregister_text_splitter(`
`@@ -683,7 +685,8 @@ def vector_search(`
`683`	`685`	`top_k:int=5,`
`684`	`686`	`model_id:int=1,`
`685`	`687`	`splitter_id:int=1,`
`686`		`-**kwargs:Any,`
	`688`	`+metadata_filter:Optional[Dict[str,Any]]= {},`
	`689`	`+generic_filter:Optional[str]="",`
`687`	`690`	`)->List[Dict[str,Any]]:`
`688`	`691`	`"""`
`689`	`692`	`This function performs a vector search on a database using a query and returns the top matching`
`@@ -753,13 +756,6 @@ def vector_search(`
`753`	`756`	`% (model_id,splitter_id,model_id,splitter_id)`
`754`	`757`	`)`
`755`	`758`	`return []`
`756`		`-`
`757`		`-ifkwargs:`
`758`		`-metadata_filter= [f"documents.metadata->>'{k}' = '{v}'"ifisinstance(v,str)elsef"documents.metadata->>'{k}' ={v}"fork,vinkwargs.items()]`
`759`		`-metadata_filter=" AND ".join(metadata_filter)`
`760`		`-metadata_filter=f"AND{metadata_filter}"`
`761`		`-else:`
`762`		`-metadata_filter=""`
`763`	`759`
`764`	`760`	`cte_select_statement="""`
`765`	`761`	`WITH query_cte AS (`
`@@ -775,7 +771,7 @@ def vector_search(`
`775`	`771`	`SELECT cte.score, chunks.chunk, documents.metadata`
`776`	`772`	`FROM cte`
`777`	`773`	`INNER JOIN {chunks_table} chunks ON chunks.id = cte.chunk_id`
`778`		`- INNER JOIN {documents_table} documents ON documents.id = chunks.document_id {metadata_filter}`
	`774`	`+ INNER JOIN {documents_table} documents ON documents.id = chunks.document_id`
`779`	`775`	`""".format(`
`780`	`776`	`model=sql.Literal(model).as_string(conn),`
`781`	`777`	`query_text=query,`
`@@ -784,9 +780,20 @@ def vector_search(`
`784`	`780`	`top_k=top_k,`
`785`	`781`	`chunks_table=self.chunks_table,`
`786`	`782`	`documents_table=self.documents_table,`
`787`		`-metadata_filter=metadata_filter,`
`788`	`783`	`)`
`789`	`784`
	`785`	`+ifmetadata_filter:`
	`786`	`+cte_select_statement+= (`
	`787`	`+" AND documents.metadata @> {metadata_filter}".format(`
	`788`	`+metadata_filter=sql.Literal(json.dumps(metadata_filter)).as_string(`
	`789`	`+conn`
	`790`	`+ )`
	`791`	`+ )`
	`792`	`+ )`
	`793`	`+`
	`794`	`+ifgeneric_filter:`
	`795`	`+cte_select_statement+=" AND "+generic_filter`
	`796`	`+`
`790`	`797`	`search_results=run_select_statement(`
`791`	`798`	`conn,cte_select_statement,order_by="score",ascending=False`
`792`	`799`	`)`

`‎pgml-sdks/python/pgml/tests/test_collection.py‎`

Lines changed: 100 additions & 25 deletions

Original file line number	Diff line number	Diff line change
`@@ -4,45 +4,86 @@`
`4`	`4`	`importhashlib`
`5`	`5`	`importos`
`6`	`6`
`7`		`-classTestCollection(unittest.TestCase):`
`8`	`7`
	`8`	`+classTestCollection(unittest.TestCase):`
`9`	`9`	`defsetUp(self)->None:`
`10`	`10`	`local_pgml="postgres://postgres@127.0.0.1:5433/pgml_development"`
`11`		`-conninfo=os.environ.get("PGML_CONNECTION",local_pgml)`
	`11`	`+conninfo=os.environ.get("PGML_CONNECTION",local_pgml)`
`12`	`12`	`self.db=Database(conninfo)`
`13`	`13`	`self.collection_name="test_collection_1"`
`14`	`14`	`self.documents= [`
`15`	`15`	`{`
`16`		`-"id":hashlib.md5(f"abcded-{i}".encode('utf-8')).hexdigest(),`
`17`		`-"text":f"Lorem ipsum{i}",`
`18`		`-"metadata": {"source":"test_suite"}`
	`16`	`+"id":hashlib.md5(f"abcded-{i}".encode("utf-8")).hexdigest(),`
	`17`	`+"text":f"Lorem ipsum{i}",`
	`18`	`+"source":"test_suite",`
`19`	`19`	`}`
`20`	`20`	`foriinrange(4,7)`
`21`	`21`	`]`
`22`	`22`	`self.documents_no_ids= [`
`23`	`23`	`{`
`24`		`-"text":f"Lorem ipsum{i}",`
`25`		`-"metadata": {"source":"test_suite_no_ids"}`
	`24`	`+"text":f"Lorem ipsum{i}",`
	`25`	`+"source":"test_suite_no_ids",`
`26`	`26`	`}`
`27`	`27`	`foriinrange(1,4)`
`28`	`28`	`]`
`29`		`-`
	`29`	`+`
	`30`	`+self.documents_with_metadata= [`
	`31`	`+ {`
	`32`	`+"text":f"Lorem ipsum metadata",`
	`33`	`+"source":f"url{i}",`
	`34`	`+"url":f"/home{i}",`
	`35`	`+"user":f"John Doe-{i+1}",`
	`36`	`+ }`
	`37`	`+foriinrange(8,12)`
	`38`	`+ ]`
	`39`	`+`
	`40`	`+self.documents_with_reviews= [`
	`41`	`+ {`
	`42`	`+"text":f"product is abc{i}",`
	`43`	`+"reviews":i*2,`
	`44`	`+ }`
	`45`	`+foriinrange(20,25)`
	`46`	`+ ]`
	`47`	`+`
	`48`	`+self.documents_with_reviews_metadata= [`
	`49`	`+ {`
	`50`	`+"text":f"product is abc{i}",`
	`51`	`+"reviews":i*2,`
	`52`	`+"source":"amazon",`
	`53`	`+"user":"John Doe",`
	`54`	`+ }`
	`55`	`+foriinrange(20,25)`
	`56`	`+ ]`
	`57`	`+`
	`58`	`+self.documents_with_reviews_metadata+= [`
	`59`	`+ {`
	`60`	`+"text":f"product is abc{i}",`
	`61`	`+"reviews":i*2,`
	`62`	`+"source":"ebay",`
	`63`	`+ }`
	`64`	`+foriinrange(20,25)`
	`65`	`+ ]`
	`66`	`+`
`30`	`67`	`self.collection=self.db.create_or_get_collection(self.collection_name)`
`31`		`-`
	`68`	`+`
`32`	`69`	`deftest_create_collection(self):`
`33`		`-assertisinstance(self.collection,Collection)`
`34`		`-`
	`70`	`+assertisinstance(self.collection,Collection)`
	`71`	`+`
`35`	`72`	`deftest_documents_upsert(self):`
`36`	`73`	`self.collection.upsert_documents(self.documents)`
`37`	`74`	`conn=self.db.pool.getconn()`
`38`		`-results=run_select_statement(conn,"SELECT id FROM %s"%self.collection.documents_table)`
	`75`	`+results=run_select_statement(`
	`76`	`+conn,"SELECT id FROM %s"%self.collection.documents_table`
	`77`	`+ )`
`39`	`78`	`self.db.pool.putconn(conn)`
`40`	`79`	`assertlen(results)>=len(self.documents)`
`41`		`-`
	`80`	`+`
`42`	`81`	`deftest_documents_upsert_no_ids(self):`
`43`	`82`	`self.collection.upsert_documents(self.documents_no_ids)`
`44`	`83`	`conn=self.db.pool.getconn()`
`45`		`-results=run_select_statement(conn,"SELECT id FROM %s"%self.collection.documents_table)`
	`84`	`+results=run_select_statement(`
	`85`	`+conn,"SELECT id FROM %s"%self.collection.documents_table`
	`86`	`+ )`
`46`	`87`	`self.db.pool.putconn(conn)`
`47`	`88`	`assertlen(results)>=len(self.documents_no_ids)`
`48`	`89`
`@@ -52,23 +93,25 @@ def test_default_text_splitter(self):`
`52`	`93`
`53`	`94`	`assertsplitter_id==1`
`54`	`95`	`assertsplitters[0]["name"]=="RecursiveCharacterTextSplitter"`
`55`		`-`
	`96`	`+`
`56`	`97`	`deftest_default_embeddings_model(self):`
`57`	`98`	`model_id=self.collection.register_model()`
`58`	`99`	`models=self.collection.get_models()`
`59`		`-`
	`100`	`+`
`60`	`101`	`assertmodel_id==1`
`61`	`102`	`assertmodels[0]["name"]=="intfloat/e5-small"`
`62`		`-`
	`103`	`+`
`63`	`104`	`deftest_generate_chunks(self):`
`64`	`105`	`self.collection.upsert_documents(self.documents)`
`65`	`106`	`self.collection.upsert_documents(self.documents_no_ids)`
`66`	`107`	`splitter_id=self.collection.register_text_splitter()`
`67`	`108`	`self.collection.generate_chunks(splitter_id=splitter_id)`
`68`		`-splitter_params= {"chunk_size":100,"chunk_overlap":20}`
`69`		`-splitter_id=self.collection.register_text_splitter(splitter_params=splitter_params)`
	`109`	`+splitter_params= {"chunk_size":100,"chunk_overlap":20}`
	`110`	`+splitter_id=self.collection.register_text_splitter(`
	`111`	`+splitter_params=splitter_params`
	`112`	`+ )`
`70`	`113`	`self.collection.generate_chunks(splitter_id=splitter_id)`
`71`		`-`
	`114`	`+`
`72`	`115`	`deftest_generate_embeddings(self):`
`73`	`116`	`self.collection.upsert_documents(self.documents)`
`74`	`117`	`self.collection.upsert_documents(self.documents_no_ids)`
`@@ -84,10 +127,42 @@ def test_vector_search(self):`
`84`	`127`	`self.collection.generate_embeddings()`
`85`	`128`	`results=self.collection.vector_search("Lorem ipsum 1",top_k=2)`
`86`	`129`	`assertresults[0]["score"]==1.0`
`87`		`-`
`88`		`-# def tearDown(self) -> None:`
`89`		`-# self.db.archive_collection(self.collection_name)`
`90`	`130`
	`131`	`+deftest_vector_search_metadata_filter(self):`
	`132`	`+self.collection.upsert_documents(self.documents)`
	`133`	`+self.collection.upsert_documents(self.documents_no_ids)`
	`134`	`+self.collection.upsert_documents(self.documents_with_metadata)`
	`135`	`+self.collection.generate_chunks()`
	`136`	`+self.collection.generate_embeddings()`
	`137`	`+results=self.collection.vector_search(`
	`138`	`+"Lorem ipsum metadata",`
	`139`	`+top_k=2,`
	`140`	`+metadata_filter={"url":"/home 8","source":"url 8"},`
	`141`	`+ )`
	`142`	`+assertresults[0]["metadata"]["user"]=="John Doe-9"`
	`143`	`+`
	`144`	`+deftest_vector_search_generic_filter(self):`
	`145`	`+self.collection.upsert_documents(self.documents_with_reviews)`
	`146`	`+self.collection.generate_chunks()`
	`147`	`+self.collection.generate_embeddings()`
	`148`	`+results=self.collection.vector_search(`
	`149`	`+"product is abc 21",`
	`150`	`+top_k=2,`
	`151`	`+generic_filter="(documents.metadata->>'reviews')::int < 45",`
	`152`	`+ )`
	`153`	`+assertresults[0]["metadata"]["reviews"]==42`
`91`	`154`
`92`		`-`
`93`		`-`
	`155`	`+deftest_vector_search_generic_and_metadata_filter(self):`
	`156`	`+self.collection.upsert_documents(self.documents_with_reviews_metadata)`
	`157`	`+self.collection.generate_chunks()`
	`158`	`+self.collection.generate_embeddings()`
	`159`	`+results=self.collection.vector_search(`
	`160`	`+"product is abc 21",`
	`161`	`+top_k=2,`
	`162`	`+generic_filter="(documents.metadata->>'reviews')::int < 45",`
	`163`	`+metadata_filter={"source":"amazon"},`
	`164`	`+ )`
	`165`	`+assertresults[0]["metadata"]["user"]=="John Doe"`
	`166`	`+`
	`167`	`+# def tearDown(self) -> None:`
	`168`	`+# self.db.archive_collection(self.collection_name)`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commit873ca9b

File tree

3 files changed

3 files changed

`‎pgml-sdks/python/pgml/examples/question_answering.py‎`

`‎pgml-sdks/python/pgml/pgml/collection.py‎`

`‎pgml-sdks/python/pgml/tests/test_collection.py‎`

0 commit comments