インパクト、必要な場所に。

プライベートAIの仕組み

あなたのビジネスドキュメントは、誰かのAIをトレーニングしていない。

その懸念は現実のものです——しかしそれは別のプロダクトの話です。このページでは、プライベートRAGの正確な仕組み、AIプロバイダーに実際に送られるもの、そしてAPIデータポリシーが何を意味するかを説明します。

解説を読む ↓

この懸念は正当な理由から来ている

軽く流すのではなく、真剣に受け止める価値があります。

コンシューマーAIツール

ChatGPT、Gemini、Claude.ai——人々が懸念していること

これらはコンシューマー向けのWebプロダクトです。長い間、これらのプラットフォームでの会話がAIモデルの改善に使われてきました。現在でも、オプトアウトしない限りデフォルトでデータが収集される場合があります。

チームが無料のAI Webアプリにクライアント名・社内価格・法的な質問を入力していたとすれば、その懸念は正当です。これらのプラットフォームはビジネスAPIツールとは異なる利用規約を持っています。

プライベートRAG——SpiceWorxが構築するもの

別のアーキテクチャ、別のデータの話

SpiceWorxはコンシューマーAI Webアプリを使いません。私たちがデプロイするシステムは、ドキュメントインデックスをお客様自身のサーバー上で動かします。AIモデルが受け取るのは、特定の質問に答えるときのドキュメントの短い抜粋だけです。

ドキュメントライブラリ全体も、ビジネスのナレッジベースも、AIプロバイダーに送られることはありません。アーキテクチャがそれを構造的に不可能にしており、ポリシーだけで保証しているわけではありません。

RAGとは実際のところ何か

名前は難しく聞こえます。考え方はシンプルです。

RAGはRetrieval-Augmented Generation(検索拡張生成)の略です。AIに質問したとき、システムはトレーニング中にビジネス情報を記憶したモデルを参照するのではありません。リアルタイムでドキュメントライブラリを検索し、最も関連性の高い段落を取得して、その段落をもとにAIが回答を書きます。

ドキュメントはライブラリです、トレーニングセットではありません。AIは一節を読んで使います。吸収するのではありません。

ライブラリからドキュメントを削除すると、AIはそれに関する質問に即座に答えられなくなります——再トレーニングなしで。もし情報をモデルが永続的に学習していたなら、それは不可能なはずです。

モデルをデータでトレーニングするということは、あなたの情報がそのモデルの将来の挙動に影響を与えることを意味します——潜在的に何年も。RAGはそのステップを完全に省略します。各クエリは特定のテキストを取得し、一度使い、そこで終わります。

何がどこで動くか

3つのコンポーネント。2つはあなたのサーバー上。外部API呼び出しは1回。

お客様のサーバー上で動作——データはこの環境の外に出ない
ドキュメント
PDF・Wordファイル・Webページ——サーバーにアップロード・保存
エンベディングモデル
sentence-transformers——テキストを検索可能なベクターに変換、ローカルで動作
Qdrantデータベース
ドキュメントインデックス——サーバー上で保存・検索
ユーザーが質問したとき——1回の短いAPI呼び出し
外部API——送信されるのは質問と短い抜粋のみ
ユーザーの質問
ローカルでエンベディング化し、Qdrantと照合
+
関連する抜粋
最も関連性の高いドキュメント箇所から約1,200文字
OpenAI API(GPT-4o)
抜粋から回答を生成——ライブラリ全体からではない
回答
ユーザーに返す——APIには何も保存されない
エンベディングモデルとベクターデータベースはお客様のサーバーで動作します。検索を担当するのはこれらです。OpenAIが受け取るのは、その検索結果——短い箇所——とユーザーの質問だけです。ドキュメントライブラリ全体は移動しません。

OpenAIに実際に送られるもの

短いリストです。こちらがその内容です。

お客様のサーバーに残るもの
  • ドキュメントライブラリ全体
  • Qdrantベクターインデックス
  • ドキュメントのファイル名とメタデータ
  • 会話履歴とログ
  • ナレッジベースに明示的に含めていないドキュメント
クエリごとにOpenAI APIへ送られるもの
  • ユーザーの質問(1クエリずつ)
  • ドキュメントから最も関連性の高い箇所——約1,200文字
  • 提供されたテキストからのみ回答するよう指示するシステム命令

APIデータポリシー——3大プロバイダー横断比較

SpiceWorxは現在OpenAIを使用しています。AnthropicやGoogle Gemini APIに切り替えた場合も同じ原則が適用されます。

プロバイダー プロダクト AIトレーニングに使用? ポリシー参照
OpenAI ChatGPT Webアプリ(無料/Plus) デフォルトで使用 openai.com/policies
OpenAI API(GPT-4o) 不使用——ポリシーに明記 openai.com/enterprise-privacy
Anthropic Claude.ai Webアプリ(無料/Pro) デフォルトで使用される場合あり anthropic.com/privacy
Anthropic Claude API 不使用——ポリシーに明記 anthropic.com/privacy
Google Gemini Webアプリ(無料) デフォルトで使用 Google Gemini FAQ
Google Vertex AI経由のGemini API 不使用——ポリシーに明記 cloud.google.com/terms

コンシューマーWebアプリ vs ビジネスAPI

同じ会社の、異なるプロダクト。異なるルール。

コンシューマーWebアプリ
ChatGPT、Gemini.google.com、Claude.ai
  • 個人ユーザー向けの無料または定額プロダクト
  • デフォルトでモデル改善にデータが使用される場合あり
  • データ処理契約なし
  • ビジネスの機密コンテンツ向けに設計されていない
  • あなたの会社固有のビジネスやドキュメントを知らない
ビジネスAPI
OpenAI API、Claude API、Vertex AI
  • 開発者・企業向けの有料ビジネスプロダクト
  • APIデータはモデルトレーニングに使用されない——明示的なポリシー
  • データ処理条件あり
  • 本番ビジネスアプリケーション向けに設計
  • RAGシステムが送るものだけを受け取る——1クエリ、1抜粋

よくある質問

OpenAIはビジネスデータをAIのトレーニングに使いますか?
いいえ。OpenAIのAPIポリシーは明確です:API経由で送信されたデータはモデルのトレーニングや改善に使用されません。AnthropicのClaude APIおよびVertex AI経由のGoogle Gemini APIも同様です。上記の表にあるエンタープライズプライバシーページで直接確認できます。
SpiceWorxのスタッフは私のドキュメントを閲覧できますか?
デプロイ後、ドキュメントはお客様のサーバー上に保存されます。ナレッジベースのコンテンツのコピーを保持せず、継続的なアクセス権もありません。サポートエンゲージメント中にシステムログや設定にアクセスすることはありますが、ドキュメントの内容自体にはアクセスしません。
サービスを停止した場合、データはどうなりますか?
ドキュメントとQdrantインデックスはお客様のインフラ上に残ります。SpiceWorx側に削除が必要なデータは保存されていません。サーバー・データ・インデックスはすべてお客様のものです。
チームにChatGPTを使わせるのとどう違いますか?
ChatGPTはあなたのビジネスを知りません。一般的なトレーニングデータから回答します——あなたのドキュメント・価格・ポリシーからではありません。ChatGPT WebアプリはOpenAI APIとは異なるデータ利用規約を持ちます。プライベートRAGは、あなたのコンテンツを知り、お客様の環境内に保持するAIを提供します。
OpenAIが将来ポリシーを変更したらどうなりますか?
このアーキテクチャは単一プロバイダーに依存していません。SpiceWorxはAnthropicのClaude APIやVertex AI経由のGoogle Gemini APIを使って同じシステムを動かすことができます——3社すべてが現在同じAPIデータポリシーを持っています。プロバイダーを切り替えても、ナレッジベースの再構築や再トレーニングは不要です。
エンベディングモデルはサードパーティのものですか?
使用しているエンベディングモデル——sentence-transformers/all-MiniLM-L6-v2——はHuggingFaceのオープンソースモデルで、お客様のサーバー上で完全に動作します。インデックス作成と検索フェーズでは、データが環境の外に出ることはありません。外部への呼び出しは、回答生成時のOpenAI APIへの呼び出しのみです。
スパイスワークス・コンサルタンシー代表 ルエル・アビオン

著者について

ルエル・アビオン(Ruel Abion)

ルエル・アビオンは、2001年創業のテクノロジーコンサルティング企業、スパイスワークス・コンサルタンシー株式会社の代表です。住友重機械工業での産業R&D研修(日本)、ソフトウェアエンジニアリング、クラウドインフラ、AIナレッジシステム構築にわたるキャリアを持ちます。製造業者、エンジニアリングサプライヤー、機器ディストリビューター、サービス業など多様な業種での20年以上の経験を活かし、RAG(Retrieval-Augmented Generation)とAIナレッジシステムを通じて、企業のカスタマーサポート・技術知識管理・業務フローの近代化を支援しています。

プロフィール全文を読む →

実際のドキュメントで動くRAGシステムを見てみませんか?

コミットメントなしに、実際のコンテンツで動くデプロイメントをご覧いただけます。

相談を始める

サービス全体はこちら: AIナレッジシステム →

🌿
SpiceWorx AI なんでも聞いてください