Movatterモバイル変換

© 2023 NTT DATA Group Corporation 4ChatGPTのデータソースにPostgreSQLを使うことができる！今年に入って、一気に活用の場が広がっているChatGPT。こんなことも知っているの？と感心する一方、しれ～っと嘘をつかれることも。通常、学習済みデータからしか回答しないので、学習していないこと・最新情報(2021年9月以降)は答えられない。⇒回答の精度を上げるために、RAGという手法が注目されている• RAG(Retrieval-Augmented Generation)• LLM（大規模言語モデル）が学習済みでない外部データをLLMに与えて、生成する回答の質を上げる方法外部データはベクトルデータベースで作成する必要がある。PostgreSQLもpgvectorを使えば、外部データとして使うことができる！

© 2023 NTT DATA Group Corporation 5RAGによって実現できることオリジナルデータは、常に更新でき、公開情報でなくても（OpenAIのサーバには送信が必要）、データソースにできる。• 社内のマニュアルをインプットして、チャットで回答する社内Botを作る• 企業の商品データをインプットして、似た商品をリコメンドするチャットを作る• 常に最新ニュースをインプットして、時事問題を作成する• ユーザのチャット履歴を随時記録して、以後の回答に利用する…などなど。

© 2023 NTT DATA Group Corporation 6ChatGPTのデータソースにPostgreSQLを使う方法1. chatgpt-retrieval-pluginを使う• OpenAIが公開しているプラグイン• 詳細は、以下スライド• https://www.slideshare.net/nttdata-tech/postgresql-chatgpt-odc2023-nttdata2. LangChainを使う• https://www.langchain.com/• 大規模言語モデル(LLM)を使ってアプリ開発を行うためのフレームワーク。• 今回はこちらを紹介

© 2023 NTT DATA Group Corporation 7LangChainの主なコンポーネント• Models• LLMs, Chat Models, Text Embedding Modelsから様々なモデルの切替、組み合わせが可能• Prompts• モデルに入力するプロンプトをテンプレート化して、生成できる• Indexes• ドキュメントローダ、テキストスプリッターなどを使って、外部データを使えるようにする★今回主に利用するのはこちら• Memory• 会話の履歴を保存・利用する• Chains• LLMにプロンプト・モデル等を渡して、回答を取得する• Agents• ユーザの入力に応じて、実行するアクションを分岐する• 例えば、最新情報の質問ならGoogle検索へ、プラグイン利用の場合はプラグインへ、など。詳細は公式ドキュメントhttps://docs.langchain.com/docs/

© 2023 NTT DATA Group GROUP Corporation 9今回のデモについて• ChatGPTも知らない「私の家族の好きな食べ物」を答えてくれるアプリ。• 事前準備として、好きな食べ物情報をベクトル化してPostgreSQLに入れておく。• ChatGPTに、PostgreSQLからとってきた情報を参照して回答を返してもらう。使用した主なコンポーネント• Python 3.10• PostgreSQL + pgvector• OpenAI API• LangChain

© 2023 NTT DATA Group Corporation 14全体像PostgreSQLpgvectorオリジナルデータ(TXT)LangChainOpenAIEmbeddingsAPI読み込み＆分割②・⑤ベクトル化③insert①④問い合わせ（自然言語）ChatGPTAPI⑥類似検索⑦検索結果をもとにprompt合成⑧prompt質問⑨回答① LangChainがテキストデータを読み込み、分割する

© 2023 NTT DATA Group Corporation 15全体像PostgreSQLpgvectorオリジナルデータ(TXT)LangChainOpenAIEmbeddingsAPI読み込み＆分割②・⑤ベクトル化③insert①④問い合わせ（自然言語）ChatGPTAPI⑥類似検索⑦検索結果をもとにprompt合成⑧prompt質問⑨回答②自然言語をベクトルに変換私はPostgreSQLが好きです Open AI Embeddings APItext-embedding-ada-002モデル[0.00058671045, -0.004581401, .......]文字数に関係なく1536次元のベクトルになる

© 2023 NTT DATA Group Corporation 16Embedding models2022年12月にリリースされた第二世代のtext-embedding-ada-002モデルをOpenAIも推奨。ほぼすべてのユースケースで、他モデルより品質が高く、安く、使いやすいため。LangChainの関数では、 text-embedding-ada-002が指定されている• トークナイザとは• 文章をトークンに分割するプログラムモデルトークナイザ最大入力トークン数出力するベクトルの次元知識の切れ目text-embedding-ada-002 cl100k_base 8191 1536 Sep 2021https://platform.openai.com/docs/guides/embeddings/what-are-embeddings

© 2023 NTT DATA Group Corporation 18全体像PostgreSQLpgvectorオリジナルデータ(TXT)LangChainOpenAIEmbeddingsAPI読み込み＆分割②・⑤ベクトル化③insert①④問い合わせ（自然言語）ChatGPTAPI⑥類似検索⑦検索結果をもとにprompt合成⑧prompt質問⑨回答③LangChainがベクトルデータをPostgreSQLにinsertするここまでで準備完了！

© 2023 NTT DATA Group Corporation 20from_documentsdb = PGVector.from_documents(embedding=embeddings, ←ベクトルデータdocuments=docs, ←原文collection_name=“test”, ←コレクション名connection_string=CONNECTION_STRING, ←接続文字列pre_delete_collection=False, ←データ挿入前に既存のデータを削除するか？distance_strategy=DistanceStrategy. COSINE ←距離の計算方法ids=None ←ユーザ独自のidを付けられる)

© 2023 NTT DATA Group Corporation 21実際に発行されるINSERTINSERT INTO langchain_pg_embedding(collection_id, embedding, document, cmetadata, custom_id, uuid)VALUES('0effcd46-bfac-4363-83ed-c5a447349a7e'::uuid::UUID,‘[-0.014597942336596845,0.0024809805856363864,(略)]’,'長女はブロッコリーが好きです。長男はチョコが好きです。’,{"source": "sample.txt"}’,'c87e1582-81d6-11ee-bc52-0a5ea04d8ddb’,'c7e45348-3d97-4024-a37d-13c27291ec25'::uuid::UUID)〇pre_delete_collection=Trueの場合DELETE FROM langchain_pg_collection WHERE langchain_pg_collection.uuid = '0a37f8bd-d054-44bf-b460-1248f7915ce9'::uuid::UUID

© 2023 NTT DATA Group Corporation 22PostgreSQLのテーブル• データを初期化するときに自動で作成される列名型説明collection_id uuid コレクションidembedding vector ベクトル化されたデータdocument varchar 元の自然言語データcmetadata json メタデータcustom_id varchar ユーザが好きに決められるiduuid uuid uuid列名型説明name varchar コレクション名。複数のデータセットを使い分けるときに使える。cmetadata json メタデータ{“source”: “sample.txt”} などuuid uuid uuidlangchain_pg_embeddinglangchain_pg_collection

© 2023 NTT DATA Group Corporation 25全体像PostgreSQLpgvectorオリジナルデータ(TXT)LangChainOpenAIEmbeddingsAPI読み込み＆分割②・⑤ベクトル化③insert①④問い合わせ（自然言語）ChatGPTAPI⑥類似検索⑦検索結果をもとにprompt合成⑧prompt質問⑨回答⑥PostgreSQLからユーザの問い合わせと類似しているドキュメントを検索する⇒pgvectorの関数を使ってベクトルの類似度を計算する。※詳細は後スライドで。

© 2023 NTT DATA Group Corporation 26全体像PostgreSQLpgvectorオリジナルデータ(TXT)LangChainOpenAIEmbeddingsAPI読み込み＆分割②・⑤ベクトル化③insert①④問い合わせ（自然言語）ChatGPTAPI⑥類似検索⑦検索結果をもとにprompt合成⑧prompt質問⑨回答⑦PostgreSQLから検索した、類似度の高いドキュメントと、ユーザの元の問い合わせを合成して、プロンプト（質問文）を作成する

© 2023 NTT DATA Group Corporation 27プロンプトの作成Use the following pieces of context to answer the question atthe end. If you don't know the answer, just say that you don'tknow, don't try to make up an answer.{context}Question: {question}プロンプトは、ChatGPTに投げる質問文。ChatGPTにはDBの情報を加味して回答してほしいので、元の質問文にDBの情報を加えてからChatGPTに投げる。参考情報つきの質問を送っているようなイメージ。プロンプトの作成は、LangChainが実施してくれるので、明示的なプログラムは書かなくてもOK裏では、このように合成してくれている。←DBからとってきた文章：長女はブロッコリーが好きです。←ユーザの元の質問：長女は何が好きですか？←以下の文脈を使って、最後の質問に答えてね。

© 2023 NTT DATA Group Corporation 29Open AI 文章生成モデルについて• LangChainのデフォルト：text-davinci-003モデルファミリー備考新しいモデル(2023)gpt-4 (and gpt-4 turbo), gpt-3.5-turbo1ドル以上の課金で使用可能従来モデルアップデート版(2023)babbage-002, davinci-002 参考：https://platform.openai.com/docs/models/moderation従来モデル(2020~2022)text-davinci-003, text-davinci-002,davinci, curie, babbage, ada参考：https://platform.openai.com/docs/models/gpt-3

© 2023 NTT DATA Group Corporation 32補足：OpenAI のAPIの実行にはAPI keyが必要OpenAIでアカウントを登録してログインAPI keyを発行して保存しておく※Free trialが終わるとクレジット登録が必要になった。$0.0001 / 1K tokens1トークンとは？エンコーディングの種類によって異なる今回は、「text-embedding-ada-002」モデルを使用。このモデルでは、「cl100k_base」のエンコーディングを使用。日本語の場合、頻出単語は1トークン、それ以外は複数トークンとなる。基本的に文章が長いほど、トークンも大きくなる。「こんにちは」→ 1「石井です」 →5「今日もよろしくお願いします。」→13ざっと1000万字で1ドル位？

© 2023 NTT DATA Group Corporation 34pgvectorhttps://github.com/pgvector/pgvectorPostgreSQLでベクトル類似性検索ができるようになる拡張機能今年に入って、githubのスター数うなぎ上りの注目機能引用：https://star-history.com/#pgvector/pgvector&Datevector型を含むテーブルを作成し、データが保存できるCREATE TABLE items (id bigserial PRIMARY KEY, embedding vector(3));→3次元のベクトル列を作成Supabase、RDS(15.2以降)、Azure、AlloyDBなどでも対応済みCREATE EXTENSION でインストール可能

© 2023 NTT DATA Group Corporation 36vector型通常の列と同じようにデータのINSERT/UPDATE/DELETEできるInsert vectorsUpsert vectorsUpdate vectorsDelete vectorsINSERT INTO items (embedding) VALUES ('[1,2,3]'), ('[4,5,6]');INSERT INTO items (id, embedding) VALUES (1, '[1,2,3]'), (2, '[4,5,6]')ON CONFLICT (id) DO UPDATE SET embedding = EXCLUDED.embedding;UPDATE items SET embedding = '[1,2,3]' WHERE id = 1;DELETE FROM items WHERE id = 1;

© 2023 NTT DATA Group Corporation 37vector型各ベクトルは4 * 次元数 + 8バイトのストレージを必要とする次元数は最大16000まで。ベクトルの要素は、32ビット浮動小数点数。ただし、さらに精度が必要な場合は、double precision[]またはnumeric[]を使用することも可能。この場合、チェック制約により、vector型の変換が可能であること、期待される次元数があることを確認する。インデックスを作成するときは、式インデックスを利用する。（精度はvector同等に落ちる）検索の例：CREATE TABLE items (id bigserial PRIMARY KEY, embedding double precision[]);ALTER TABLE items ADD CHECK (vector_dims(embedding::vector) = 3);CREATE INDEX ON items USING hnsw ((embedding::vector(3)) vector_l2_ops);SELECT * FROM items ORDER BY embedding::vector(3) <-> '[3,1,2]' LIMIT 5;

© 2023 NTT DATA Group Corporation 39使えるベクトル関数関数説明cosine_distance(vector, vector)→ double precisionコサイン距離inner_product(vector, vector)→ double precision内積l2_distance(vector, vector)→ double precisionL2距離（ユークリッド距離）l1_distance(vector, vector)→ double precisionL1距離（マンハッタン距離）vector_dims(vector)→ integer次元数vector_norm(vector)→ double precisionユークリッドノルム(ベクトルの大きさ）

© 2023 NTT DATA Group Corporation 42ユークリッド距離とマンハッタン距離SELECT * FROM items ORDER BYembedding <-> '[3,1,2]' LIMIT 5;→[3,1,2]とユークリッド距離が近いベクトルを順に5つ探すSELECT * FROM items ORDER BYl2_distance(embedding, '[3,1,2]’) LIMIT 5;→[3,1,2]とユークリッド距離が近いベクトルを順に5つ探すSELECT * FROM items ORDER BYl1_distance(embedding, ‘[3,1,2]’) LIMIT 5;→[3,1,2]とマンハッタン距離が近いベクトルを順に5つ探す・・ユークリッド距離xy(x1, y1)(x2, y2)マンハッタン距離

© 2023 NTT DATA Group Corporation 43内積内積も２つのベクトルの類似度を表すのに使える。θԦ𝑎 ⋅ 𝑏 = Ԧ𝑎 𝑏 cos 𝜃Ԧ𝑎𝑏𝑎1, 𝑎2𝑏1, 𝑏2Ԧ𝑎 ⋅ 𝑏 = 𝑎1𝑏1 + 𝑎2𝑏2公式②よりベクトルの大きさが同じなら、内積はなす角θが小さいほど大きくなる。⇒ベクトルの向きが似ているほど、内積は大きくなる。pgvectorの演算子<#>は、内積の値に-1を乗算して返却。-1を掛けているのは、小さいほど似ている値に変換するため。⇒ 似たベクトルを演算結果の昇順で取り出せる。※Postgres only supports ASC order index scans on operators（https://github.com/pgvector/pgvector）cos 𝜃 =Ԧ𝑎 ⋅ 𝑏Ԧ𝑎 𝑏公式①公式②ただし、なす角が同じでも、ベクトルの大きさによって値が異なる。ベクトルの大きさの影響を受けないようにするために、、⇒内積をベクトルの大きさで割って正規化。⇒コサイン類似度

© 2023 NTT DATA Group Corporation 44コサイン類似度とコサイン距離コサイン類似度：cosθ なす角で決まる。向きが似ているか？を表す・ 1似てる0無関係-1正反対θθコサイン類似度の値の範囲は-1～12つのベクトルが似ているほど、値が大きくなる。pgvectorの <=>は、1 – コサイン類似度=コサイン距離として取得することができるコサイン距離は、小さいほど向きが似ていることを示す。ユークリッド距離と比較して、テキストや画像など高次元データに効果的で、ドキュメント検索のユースケースでよく使用される。LangChainではこれがデフォルト。なお、OpenAI embeddingsの場合、ベクトルの長さは1に正規化されているので、内積と同じ。⇒この場合、内積のほうがよい。計算量が少ないので性能〇。・・

© 2023 NTT DATA Group Corporation 46pgvectorのインデックス：ivfflatとHNSW• 最も近いベクトルはどれか？を探すためのアルゴリズム• インデックスがない場合は、クエリと各ベクトルをすべて距離計算する必要があるので計算量が多い• 高速に検索するため、近似最近傍検索のためのインデックスが利用可能• 必ず最近傍であることは保証しない• インデックス付与前と後で、クエリ結果が変わる可能性がある1. ivfflat (Inverted File with Flat Compression)• pgvectorに最初から実装されていたインデックス。2. HNSW(Hierarchical Navigable Small World)• ivfflatのみでは他のvector DBに比べ性能が低いという問題提起を受け、より高速化するために2023年9月にv0.5.0で新しく実装されたインデックス。

© 2023 NTT DATA Group Corporation 47ivfflat• ivfflat(Inverted File with Flat Compression) あいぶいえふふらっと• インデックス作成時に、データセット内の各ベクトルをクラスタに分割する• 新しいベクトルが追加された場合は、最も重心が近いクラスタに割り当てる• 最近傍を検索する際は、まず、最も近いクラスターを特定し、その中から最近傍を検索する• 検索範囲が全体でなく一部となるため、パフォーマンス向上・・・・・・・・・・・・・・・・・・・・★・・・・・・・★★

© 2023 NTT DATA Group Corporation 48ivfflatのクラスタの数について• インデックス作成時に、クラスタ数（リスト数：lists）を指定する• クラスタ数が多いほど…• クラスタ内のデータ数が少なくなるので、より高速に検索できる。• ただし、最も近いデータが、最も近いクラスタに入っておらず、取りこぼす可能性も高くなる（再現率が低くなる）• トレードオフなので、アプリケーションに合わせて設定する• 目安• 100万レコード以下のとき→records/1000 からやってみる• 100万レコードより多いとき→ sqrt(records) からやってみる• クラスタ数は少なくとも10個以上が好ましい。create index on documents using ivfflat (embedding vector_ip_ops) with (lists = 100);内積

© 2023 NTT DATA Group Corporation 50probesパラメータについて• 取りこぼしを減らすために、最も近い重心を持つクラスタだけでなく、他にも近いクラスタの中も検索する• デフォルト probes=1 →最も近い重心のクラスタのみ• probesを増やすと、より多くのクラスタ内で検索するので、再現率が向上（取りこぼしにくい）• 当然ながら、増やすほど速度は低下する。• 目安：probes = sqrt(lists)SET文でトランザクション内で設定可能：例）SET ivfflat.probes = 10;

© 2023 NTT DATA Group Corporation 51ivfflatインデックス構築の進捗状況の表示PostgreSQL12以降では、インデックス構築の進捗状況を確認可能ivfflatのフェーズは以下。1. initializing2. performing k-means3. assigning tuples4. loading tuples※上記クエリの％は、loading tuplesのフェーズのみ。SELECT phase, round(100.0 * tuples_done / nullif(tuples_total, 0), 1) AS "%" FROMpg_stat_progress_create_index;

© 2023 NTT DATA Group Corporation 52ivfflatインデックスの注意点• 最大2000次元までの列に付与可能• データ（少なくとも数千レコード）が挿入されたあとでインデックスを追加すること。• 実際のデータがない状態で作成するとクラスタの重心を適切に決めることができない。（ランダムになる）• インデックス作成後に、データを追加・削除・更新しても、インデックスは更新されるが、クラスタの重心は更新されない。• データの更新がある場合、定期的なREIDEXが推奨• CONCURRENTLY オプションを使えばテーブルへの書き込みをロックせず再作成できる

© 2023 NTT DATA Group Corporation 53HNSW• HNSW(Hierarchical Navigable Small World)• NSWの階層バージョンNSWとは？引用元：https://www.pinecone.io/learn/series/faiss/hnsw/1. グラフを作っておく（作り方は後ほど）2. entry pointからスタート3. 自分からリンクされている要素の中で、一番クエリに近い要素に移動する4. 移動できなくなったら（自分が近くなったら）終了

© 2023 NTT DATA Group Corporation 54NSWを階層化したのがHNSW一番下の層には全ての要素、上に上がるごとに、要素が絞られたグラフを作成。一番上の層からスタートし、最初は大きく、だんだん小さく近づいていく。新幹線→急行→各停に乗り換えるイメージ。階層化することで、少ない計算量で近づけるので、高速になる。引用元：https://www.pinecone.io/learn/series/faiss/hnsw/

© 2023 NTT DATA Group Corporation 55HNSWの作り方①層を決定する引用元：https://www.pinecone.io/learn/series/faiss/hnsw/新しく要素を追加するとき、例えば、layer 2 = 12.5 %layer 1 = 50%layer 0 = 100% のように、上の層ほど少なくなるような確率を用いて、ランダムに層を決定する。layer0はすべての要素が存在する。要素があとからどんどん追加されていっても、各層のバランスが崩れない。(インデックス作成後にデータを追加しても問題なし）

© 2023 NTT DATA Group Corporation 57HNSWのパラメータ• M：リンク数• デフォルト：16、範囲：2~100• 少なすぎると、再現率が下がる。（最近傍を取りこぼすかも）• 大きくなるほど、インデックス構築時間増、メモリ使用量増、検索時間増。• ef_construction：インデックス構築中に何個の近傍をリストとして持つか• デフォルト：64、範囲：4~1000• 小さすぎると、再現率が下がる。ただしある点から増やしても再現性があがりにくくなる。• 大きくすると、インデックス構築時間が長くなる• ef_search：検索中に何個の近傍をリストとして持つか• デフォルト：40、範囲：1~1000• 小さいほど、高速• 大きいほど、再現率があがる

© 2023 NTT DATA Group Corporation 58HNSWインデックス構築の進捗状況の表示PostgreSQL12以降では、インデックス構築の進捗状況を確認可能HNSWのフェーズは以下。1. initializing2. loading tuplesSELECT phase, round(100.0 * blocks_done / nullif(blocks_total, 0), 1) AS "%" FROMpg_stat_progress_create_index;

© 2023 NTT DATA Group Corporation 61インデックスの比較ivfflat HNSW検索速度 △ 〇正確さ △ 〇メモリ使用量〇 ×インデックス構築速度〇 ×選び方：• 検索速度を重視する場合は、HNSW。• メモリ制限がある場合はivfflat。参考：https://neon.tech/blog/pg-embedding-extension-for-vector-search

記載されている会社名、商品名、又はサービス名は、各社の登録商標又は商標です。

Movatterモバイル変換

pgvectorを使ってChatGPTとPostgreSQLを連携してみよう！（PostgreSQL Conference Japan 2023 発表資料）

Recommended

More Related Content

What's hot(20)

Similar to pgvectorを使ってChatGPTとPostgreSQLを連携してみよう！（PostgreSQL Conference Japan 2023 発表資料）(20)

More from NTT DATA Technology & Innovation(20)

Recently uploaded(7)

pgvectorを使ってChatGPTとPostgreSQLを連携してみよう！（PostgreSQL Conference Japan 2023 発表資料）