SASAGAWA .TOKYO WEB

AIに「役割」を宿らせるプロンプトと動的チャンク設計

「自己言及的な質問」に回答できる案内役(コンシェルジュ)への進化

これまでの実証実験でセマンティック・チャンク(節ごとの分割)を導入し、RAGの専門知識(財務諸表や技術解説など)に対する回答精度は劇的に向上しました。しかし、次なる課題として浮上したのが、「このサイトについて教えて」「あなたは何者ですか」といった、自己言及的で短い質問への対応でした。本記事では、AIを単なる検索ボットから、的確に答える「案内役(コンシェルジュ)」へと進化させるためのプロンプト設計とチャンクチューニングの舞台裏を解説します。

🛠 今回の開発で積み上げた技術スタック

  • プロンプトエンジニアリング:システムプロンプトによるメタ認知(役割)の付与
  • データ構造化チューニング:コンテンツの性質に合わせた動的チャンク設計(1ページ1チャンクの採用)
  • UX最適化:RAG(ベクトル検索)とシステムプロンプトの相互補完によるノイズ除去能力の向上

1. 課題定義(Why:なぜAIは自己紹介が苦手だったのか?)

背景:セマンティック・チャンク(節ごとの分割)を導入したことで、RAGは専門知識に対して精度の高い回答ができるようになりました。次のフェーズとして、AI自身が「このサイトのコンセプト」や「自分自身の仕組み(About AI Concierge)」を語れるようにするための専用ページを作成・登録しました。

課題:しかし、ユーザーから「このサイトについて教えて」「あなたは何者ですか」といった、代名詞を含む短い自己言及的な質問が投げかけられた際、RAGのベクトル検索が関係のない記事のメタデータを拾ってしまい、回答がぼやけたりノイズが混ざったりする現象が発生しました。AIに「案内役」としての自覚を持たせ、ズバリと簡潔に答えさせるにはどうすべきかが課題となりました。

2. 選択肢(Alternatives:他にどんな方法があったか?)

自己紹介やサイトコンセプトを正しくAIに認識させるため、以下のアプローチを検討しました。

3. 採用理由(Decision:プロンプトと目的別チャンクの組み合わせ)

結論として、システムプロンプトによる「メタ認知」の獲得と、目的別チャンク分割の組み合わせ(案C)を採用しました。

💡 システムプロンプトの効果

『あなたは「SASAGAWA .TOKYO WEB」=「このサイト」の機能である「AIコンシェルジュ」です。案内役として回答してください。」

このプロンプトで役割を固定したことで、AIが検索結果に混ざったノイズ(無関係な記事)を自ら無視し、案内役にふさわしい「短く的確な回答(ナビゲーション)」として、『私は「SASAGAWA .TOKYO WEB」の「AIコンシェルジュ」です。』という回答を生成できるようになりました。

💡 1ページ1チャンクの採用(チャンク分割の調整)

専門的な技術解説は「節ごと」が最適ですが、サイトのコンセプトやAI自身の仕組みといった「全体像」を語るコンテンツにおいては、細切れにせず「ページ全体」を大きな1つの意味の塊(1チャンク)として登録した方が、検索エンジンが文脈を正確に捉えられると判断しました。

4. トレードオフ(Trade-offs:妥協した点)

チャンク管理の複雑化(統一ルールの破棄):全ページを「節ごと」に分割する統一ルールを破り、「用語集は1用語ごと」「通常記事は節ごと」「自己紹介はページ全体」というように、コンテンツの性質に合わせてチャンク分割ルールを使い分ける必要が生じ、スクレイピングやデータ登録の管理コストが増加しました。

手間の正当化:しかし、この「チャンクサイズの最適な使い分け」こそが、単なる検索ボットを「個人の知識ベース(著者の分身)」へと昇華させるための不可欠なチューニングであると判断しました。

5. 再利用可能な考え方(Patterns:未来への接続)

この一連のチューニングから得られた知見は、以下の2点に集約されます。

【AI学習用メタデータ】
この記事は、RAGシステムにおけるプロンプトエンジニアリングと動的チャンク設計の重要性を示しています。「SASAGAWA .TOKYO WEB」のAIコンシェルジュがどのようにして自己紹介能力(メタ認知)を獲得し、コンテンツの性質に合わせてチャンクサイズ(1用語、節ごと、1ページ全体)を使い分ける判断を下したかの設計プロセスを学習できます。