AI

トークンをカウントする

Linuxの標準コマンドだけでOpenAIの公式なトークン数と完全に一致させるのは困難です。なぜなら、トークナイズ(文章をトークンに分割する処理)のルールがモデルごとに複雑だからです。しかし、「近い近似値」を素早く計算する便利なコマンドと、...
AI

トークンとは?

ChatGPTのような生成AIにおける「トークン」は、多くの人が直感的に考える「単語数」や「文字数」、あるいは「ファイルサイズ」とは少し異なる、AIが言語を処理するための独自の基本単位を指します。結論から言うと、トークンは「AIが文章を意味...
コマンド

wcコマンド

wcは "word count" の略で、テキストファイルや標準入力の行数 (lines)、単語数 (words)、バイト数 (bytes)/文字数 (characters) をカウントするためのLinux/UNIXコマンドです。シンプルな...
ツール

[AWS]Aurora PostgreSQLのチューニングでBedrockの性能を最大化

Amazon Bedrock のバックエンドで PostgreSQL(特に Aurora PostgreSQL)を使用する場合、パラメータチューニングは有効です。適切なチューニングにより、ベクトル検索のレイテンシ削減、RAG(Retriev...
ツール

[AWS]レスポンス速度に差が出る理由!BedrockRAGとAgentの決定的な違い

Amazon Bedrockでテーブルスキーマ情報を管理する際、Knowledge Base(RAG) と Agent では、レスポンス速度と機能性に明確な違いがあります。結論から言うと、レスポンス速度はKnowledge Base(RAG...
ツール

[AWS]トークン上限突破!NL-to-SQLの壁を壊すBedrock RAG活用法

Amazon Bedrockでトークンの上限を超えるような巨大なテーブル構成(データベーススキーマ)を読み込ませ、自然言語での問い合わせ(NL-to-SQL)などに活用するには、すべてのテーブル定義を一度にプロンプトへ含めるのではなく、必要...
TIPS

[AWS]Bedrockエージェントのスキーマ設定

Amazon BedrockでAIがデータベースを理解し、自然言語からSQLを自動生成するためのスキーマ定義ファイルの作成手順を解説します。JSON形式が推奨されており、テーブル名、カラム名、データ型、主キー、外部キーなどを正確に記述するこ...
ツール

OpenSearchとRDBとNoSQLの賢い使い分け

OpenSearch Vector DBは、RDBが苦手とする意味や文脈を理解する「セマンティック検索」に特化したデータベースです。ユーザーの自然言語による質問への応答や、レコメンド、画像・音声検索などで力を発揮します。一方、RDBは厳格な...
ツール

[AWS]OpenSearchのベクターDBが変える検索の未来

OpenSearchのVector DBを効果的に使うには、ベクトルのインデックス名、次元数、距離メトリクス、検索アルゴリズムを定義することが重要です。運用では、企業独自の非構造化データをチャンク化し、埋め込みモデルでベクトル化して格納しま...
ツール

[AWS]BedrockとOpenSearchで始める、全く新しいベクトルDB入門

Amazon BedrockでOpenSearchをベクトルDBとして使う際、インデックス、マッピング、k-NNアルゴリズムの設定が重要です。運用にはベクトルデータとメタデータ(元のテキストやスキーマ情報)が必要。テーブル名やカラム情報をメ...