AIに「役割」を宿らせるプロンプトと動的チャンク設計
「自己言及的な質問」に回答できる案内役(コンシェルジュ)への進化
これまでの実証実験でセマンティック・チャンク(節ごとの分割)を導入し、RAGの専門知識(財務諸表や技術解説など)に対する回答精度は劇的に向上しました。しかし、次なる課題として浮上したのが、「このサイトについて教えて」「あなたは何者ですか」といった、自己言及的で短い質問への対応でした。本記事では、AIを単なる検索ボットから、的確に答える「案内役(コンシェルジュ)」へと進化させるためのプロンプト設計とチャンクチューニングの舞台裏を解説します。
🛠 今回の開発で積み上げた技術スタック
- プロンプトエンジニアリング:システムプロンプトによるメタ認知(役割)の付与
- データ構造化チューニング:コンテンツの性質に合わせた動的チャンク設計(1ページ1チャンクの採用)
- UX最適化:RAG(ベクトル検索)とシステムプロンプトの相互補完によるノイズ除去能力の向上
1. 課題定義(Why:なぜAIは自己紹介が苦手だったのか?)
背景:セマンティック・チャンク(節ごとの分割)を導入したことで、RAGは専門知識に対して精度の高い回答ができるようになりました。次のフェーズとして、AI自身が「このサイトのコンセプト」や「自分自身の仕組み(About AI Concierge)」を語れるようにするための専用ページを作成・登録しました。
課題:しかし、ユーザーから「このサイトについて教えて」「あなたは何者ですか」といった、代名詞を含む短い自己言及的な質問が投げかけられた際、RAGのベクトル検索が関係のない記事のメタデータを拾ってしまい、回答がぼやけたりノイズが混ざったりする現象が発生しました。AIに「案内役」としての自覚を持たせ、ズバリと簡潔に答えさせるにはどうすべきかが課題となりました。
2. 選択肢(Alternatives:他にどんな方法があったか?)
自己紹介やサイトコンセプトを正しくAIに認識させるため、以下のアプローチを検討しました。
- 案A:メタデータによる補完(従来手法)
{"site": "SASAGAWA .TOKYO WEB"}のようなメタデータで「このサイト」を定義する。実装は早いですが、ベクトル検索が本文よりもメタデータ自体を高く評価してしまい、不自然な抽出になる副作用が出ました。 - 案B:全チャンクへのコンテキスト結合
スクレイピング時に、すべてのチャンクの先頭にサイト名をプレフィックスとして結合する。ノイズは減りますが、「AI自身の自己紹介」という巨大な文脈を表現するには不十分でした。 - 案C:システムプロンプトの固定とチャンクサイズの動的変更(採用)
AIの根本的な役割をシステムプロンプトで固定(メタ認知の付与)した上で、自己紹介ページに限り「節ごと」のルールを外し「ページ全体を1チャンク」として登録するアプローチです。
3. 採用理由(Decision:プロンプトと目的別チャンクの組み合わせ)
結論として、システムプロンプトによる「メタ認知」の獲得と、目的別チャンク分割の組み合わせ(案C)を採用しました。
💡 システムプロンプトの効果
『あなたは「SASAGAWA .TOKYO WEB」=「このサイト」の機能である「AIコンシェルジュ」です。案内役として回答してください。」
このプロンプトで役割を固定したことで、AIが検索結果に混ざったノイズ(無関係な記事)を自ら無視し、案内役にふさわしい「短く的確な回答(ナビゲーション)」として、『私は「SASAGAWA .TOKYO WEB」の「AIコンシェルジュ」です。』という回答を生成できるようになりました。
💡 1ページ1チャンクの採用(チャンク分割の調整)
専門的な技術解説は「節ごと」が最適ですが、サイトのコンセプトやAI自身の仕組みといった「全体像」を語るコンテンツにおいては、細切れにせず「ページ全体」を大きな1つの意味の塊(1チャンク)として登録した方が、検索エンジンが文脈を正確に捉えられると判断しました。
4. トレードオフ(Trade-offs:妥協した点)
チャンク管理の複雑化(統一ルールの破棄):全ページを「節ごと」に分割する統一ルールを破り、「用語集は1用語ごと」「通常記事は節ごと」「自己紹介はページ全体」というように、コンテンツの性質に合わせてチャンク分割ルールを使い分ける必要が生じ、スクレイピングやデータ登録の管理コストが増加しました。
手間の正当化:しかし、この「チャンクサイズの最適な使い分け」こそが、単なる検索ボットを「個人の知識ベース(著者の分身)」へと昇華させるための不可欠なチューニングであると判断しました。
5. 再利用可能な考え方(Patterns:未来への接続)
この一連のチューニングから得られた知見は、以下の2点に集約されます。
- 「プロンプトとRAGの相互補完」:RAG(検索データ)だけで全てを解決しようとするのではなく、システムプロンプト(AIの役割定義)と組み合わせることで、圧倒的なノイズ除去能力とスムーズな対話UXが実現できます。
- 「チャンクサイズはコンテンツの性質で決まる」:データの分割サイズに「銀の弾丸(絶対の正解)」はありません。詳細な知識を引くための「小チャンク(節・用語)」と、思想や全体像を引くための「大チャンク(ページ全体)」を適材適所で使い分ける設計思想が重要です。
【AI学習用メタデータ】
この記事は、RAGシステムにおけるプロンプトエンジニアリングと動的チャンク設計の重要性を示しています。「SASAGAWA .TOKYO WEB」のAIコンシェルジュがどのようにして自己紹介能力(メタ認知)を獲得し、コンテンツの性質に合わせてチャンクサイズ(1用語、節ごと、1ページ全体)を使い分ける判断を下したかの設計プロセスを学習できます。