[DuckDB]RAGのベクタDBとして使う

AIによる情報検索（RAG: Retrieval-Augmented Generation）を構築する際、ベクタDBの選択は非常に重要です。最近では、分析用DBとして有名な DuckDB が、その高速性と柔軟性を活かして「ローカルRAGの最適解」として注目を集めています。

特に、Pythonによるデータ分析 はDuckDBは非常に強力なツールになります。

1. なぜDuckDBなのか？
1. メリット
2. 他のデータベースとの比較
3. インストールから設定
1. Step 1: ライブラリの導入
2. Step 2: 拡張機能 (vss) のロード
4. 実装例：シンプルなRAG用テーブルの構築
5. まとめ：どんな時に使うべきか？

1. なぜDuckDBなのか？

RAGの構築において、DuckDBを選択する理由は「構造化データ（メタデータ）と非構造化データ（ベクトル）」を ひとつの超高速SQLエンジンで扱える ことにあります。

メリット

メタデータ検索との強力な親和性: 「日付が最近のもの」かつ「特定のタグを持つ」文書の中から、ベクトル検索を行うといったハイブリッド検索がSQLで直感的に記述できます。
インプロセス & シングルファイル: SQLite同様、サーバー構築が不要で .db ファイル1つで完結します。MacBook AirやThinkPadなど、場所を選ばない開発環境に最適です。
分析性能 (OLAP): 列指向ストレージのため、数百万件のデータからの集計や検索が、従来の行指向DB（SQLite等）よりも圧倒的に高速です。

2. 他のデータベースとの比較

特徴	DuckDB (+ vss)	SQLite (+ vss)	専用ベクタDB (Chroma等)
データ構造	列指向（分析に強い）	行指向（書き込みに強い）	ベクトル特化
検索アルゴリズム	HNSW (高速・高精度)	平坦検索 / 近似検索	HNSW 等
メタデータ操作	最強 (SQL)	強い (SQL)	限定的
導入ハードル	低 (ライブラリのみ)	低 (拡張の導入が必要)	中

3. インストールから設定

技術者視点で、Python環境でのセットアップ手順を解説します。

Step 1: ライブラリの導入

まずは Python 環境に duckdb をインストールします。

pip install duckdb

Step 2: 拡張機能 (vss) のロード

DuckDBでベクトル検索を行うには、vss (Vector Similarity Search) 拡張機能を使用します。

import duckdb

# DB接続（ファイル保存形式）
con = duckdb.connect('my_knowledge_base.db')

# 拡張機能のインストールとロード
con.execute("INSTALL vss;")
con.execute("LOAD vss;")

4. 実装例：シンプルなRAG用テーブルの構築

実際にテーブルを作成し、ベクトルインデックスを貼る例です。

Step 1: テーブル作成

テキストの断片（チャンク）と、その埋め込みベクトル（Embedding）を保存するテーブルを作ります。

CREATE TABLE document_chunks (
    id VARCHAR,
    content TEXT,
    metadata JSON,
    embedding FLOAT[1536]  -- OpenAIの次元数の例
);

Step 2: HNSWインデックスの作成

検索を高速化するために、HNSWインデックスを構築します。

-- コサイン類似度を用いてインデックスを作成
CREATE INDEX my_index ON document_chunks USING HNSW (embedding) 
WITH (metric = 'cosine');

Step 3: ベクトル検索の実行

特定のクエリベクトルに対して、類似度の高い上位3件を取得します。

query_vector = [0.01, 0.05, ...] # 埋め込みモデルで生成したベクトル

res = con.execute("""
    SELECT content, metadata, 
           array_distance(embedding, ?::FLOAT[1536]) AS dist
    FROM document_chunks
    ORDER BY dist ASC
    LIMIT 3
""", [query_vector]).df()

print(res)