なぜ大企業の社内AIは正しく回答できないのか──ローカルAIの限界とデータセンターの実態

先日ネットで、「大企業で開発した社内AIが、社内規定について正しく回答しない」という内容の投稿を見ました。これには正直、すごい衝撃でした。

「大企業って、データセンターを作って、競って生成AIの活用を拡充させていたんじゃないの？」と思ったので、「大企業　AI　データセンター」と「大企業　AI　正しく回答しない」の2つで検索してみました。

「大企業　AI　データセンター」については、AIデータセンターの需要が拡大しているとか、データセンター市場が数兆円規模になるといった記事が目白押しでした。ところが「大企業　AI　正しく回答しない」では、なぜ正しく回答しないのかとか、AIの回答精度に不満といった記事が大量に出てきました。

これでは何のためにデータセンターを作っているのか分かりません。AIが正しく回答しないのであれば、むしろないほうがマシかもしれない。

私の業務でいえば、回答が正しいことは絶対に必要です。AIが正しく回答しないのであれば、業務でAIを使ってはいけません。

でも、私のAIは正しく回答します。以前は正しく回答しませんでしたが、試行錯誤の結果、現在では完全に正しく回答します。私が現在運用しているシステムについては、「弁護士が自社開発したAI法務システム──契約書、ChatGPTに貼っていませんか？」で詳しくご紹介しています。

では、大企業のAIデータセンターにある生成AIと私のAIは、どこが違うのでしょうか。

大企業のデータセンターAIと私のAI──何が違うのか

私は以前のブログで、自作のパソコンを使ってパソコンの中にAIモデルを格納し、いわゆるローカルAI（インターネットを経由せずに使うAI）を使用していると書きました。大企業のAIデータセンターにある生成AIは、まさにこのローカルAIです。

ローカルAIを選ぶ理由は専らセキュリティです。自分の所有するパソコンの中にAIモデルを入れ、インターネットを経由せずに使えるので、情報漏洩のリスクがほぼありません。

ところが大きな問題がありました。ローカルAIには、乗り越えられない3つの限界があったのです。

ローカルAIの3つの限界

限界① VRAMの容量──AIが一度に処理できる量に上限がある

AIの処理にはGPUという機材を使います。ざっくりいえば、AIでの検索・分析を専門とするパソコン機材で、一度に扱える量に限界があります。その限界容量をVRAM（ブイラム）といいます。

私が使っていたのはNvidiaのGeForce RTX5070というGPUで、VRAMが12GB（ギガバイト）でした。

VRAM12GBで何ができるかというと、ざっくり言えば「ChatGPT-4の4分の1程度の賢さのAIモデルに、A4用紙に日本語を書いたものを2枚見せてリーガルチェックできるぐらいが限界」です。

これだけ聞くと、使い物にならないと思われるでしょう。それでもいろいろ試行錯誤を続けました。

「ChatGPT-4の4分の1の賢さ」は、なんとかなると思っていました。なぜなら、業務に必要なのはAIの「情報分析能力」であって、知識量ではないからです。ChatGPT-4はデータ容量の約7割を知識の搭載に使い、情報分析に使うのは約3割といわれています。その3割のうち半分程度の能力があれば、なんとかローカルAIを実用化できると考えていました。

ところがそうはいかなかった。AIモデルの能力を妥協できるとしても、VRAMに載せられるデータ量に限界がある以上、AIに参照させる法律データ（判例など）の量に限界が生じるからです。

私が使っていたVRAM12GBのGPUでは、ChatGPT-4の情報分析能力の約5分の1程度（体感。実際には50分の1程度）のAIモデルに、A4版の書籍（1冊200ページ）を5冊参照させるのが限界でした。これでは使い物にならない。

ローカルAIの使用は一度諦めました。では現在どうしているか——その答えは「弁護士が自社開発したAI法務システム」に書いています。

H100を100台並べても足りない──コストと限界の計算

ローカルAIをどうしても使いたければ、VRAMの容量を増やせばいい。GPUを大量に購入して並列に並べればいいんです。

データセンターでよく使われているNVIDIAのH100というGPUはVRAMが94GBあります。ChatGPT-4の情報分析能力の約5分の1程度（体感）のAIモデルにA4版の書籍を約40冊参照させられます。このH100を100台並列させると、A4版の書籍を4,000冊参照させられる計算になります。

でも、この4,000冊で用が足ります？ A4版の書籍（厚さ約2.5cm）を書棚（1段90cm）に並べると、わずか書棚19台分にしかなりません。絶対に足りません。

しかもH100は1つ約500万円なので、100台ではGPUだけで5億円です。これに冷却設備（GPUは非常に高温になるため、しっかりした設備が必要です）や場所代などを加えると、10億円あっても足りません。

大企業がこれだけの投資をしても「正しく回答しない」のは、このコストと限界の計算からすると当然ともいえます。私が採用した別のアプローチについては、「弁護士が自社開発したAI法務システム──契約書、ChatGPTに貼っていませんか？」をご覧ください。

限界② 日本語は英語より圧倒的に不利

さらに、日本語には絶対的に不利な要因があります。

たとえば「これは私が昨日買ったリンゴです」という文章をAIに読ませる場合、日本語では15文字を一気に読ませる必要があります。「これは私」「が昨日買ったリ」「ンゴです」と分割して読ませると意味が分からなくなるからです。

ところが英語だと「This is an apple I bought yesterday」となり、単語と単語の間に空白があるので、単語ごとに分割しても意味は通じます。

この「単語間の空白がない」という日本語の特性上、ある程度まとめてAIに読ませないと意味を理解できません。特に法律文書は一文が長いので、一気に読む量を600文字程度に設定する必要があります。当然、一気に読む量が多いほどVRAMの消費量も増えます。

先ほどの「A4版の書籍何冊」という計算はすべて日本語前提です。英語なら一気に読む量は25文字程度に設定すればよく、もっと多くのデータを参照できます。

限界③ 一度に読める文字数はいくらお金をかけても増やせない

そして、最も根本的な限界がこれです。

クラウドAIはローカルAIよりもはるかに多くの文字を一度に処理できます。たとえばClaudeやChatGPT-4oでは数十万文字程度、Gemini系では最大100万文字程度です。これに対してローカルAIはどれだけがんばっても上限が約13万文字——クラウドAIと比べると数倍〜十数倍の差があります。

一気に読む一文を600文字に設定すると、ローカルAIが一度に処理できる文は約200文しかありません。

この上限はAIモデルのアーキテクチャ（構造）上の限界です。たとえH100を何台並べてもどうにもならない——お金では解決できない壁なのです。

情報漏洩なく・精度を担保しながら法務AIを運用するにはどうすればいいのか。私が実際に構築・運用しているシステムの仕組みをこちらで詳しく解説しています。
→ 弁護士が自社開発したAI法務システム──契約書、ChatGPTに貼っていませんか？

大企業のデータセンターシステムで何が起きているか

これらをまとめると、大企業のデータセンターにあるAIシステムは次のように動いています。

① 膨大なデータが保管されている。
② ①のデータから、A4版の書籍で書棚19台分（もしくはそれ以上）ずつAIが読む。
③ ②で読んだAIが、回答に必要と思われるデータを13万文字分だけ、別のAIに渡す。
④ 別のAIが③でもらった13万文字をもとに回答を生成する。

お金を出せば①と②はある程度増やせます。しかし③はいくらお金をかけても増やすことができません。それがローカルAIの根本的な限界です。

私は金額的に①と②も限界でしたのでローカルAIは諦めましたが、③と④の限界をどれだけの人が認識しているのか、と思いました。では、私はどのような方法でこの問題を解決したのか——詳細は「弁護士が自社開発したAI法務システム──契約書、ChatGPTに貼っていませんか？」でご紹介しています。

データの「作り方」にも問題がある

さらに①にも問題があります。そもそも保管している「データ」がAIに読みやすい形式で作られていないと、いくらシステムを整えても意味がありません。これはローカルAIでもクラウドAIでも同じです。

たとえば、段落がうまく構成されているか、1文の長さが適度に区切られているか——といった点です。

データの作り方については、次回お話しします。

ブログ