AIの危険度を測る ―― 最新評価手法が示す脅威

social4634
6月22日
読了時間: 7分

AI安全格差の国際比較連載第4回

OpenAI、Anthropic、DeepSeekの3社が抱く異なる安全哲学は、実際のAI性能にどのような影響を与えているのか？この疑問に答えるため、学術研究による客観的な評価が重要な役割を果たしている。

最新の研究が明らかにしたのは、AIの「危険度」を測る新たな評価手法と、その手法によって浮き彫りになった各社モデルの安全性格差だった。

AI安全性評価の三つの軸

2025年に発表された包括的文献レビュー「Safety by Measurement」では、AI安全性評価を革新的な枠組みで体系化している。従来の単純な「安全か危険か」という二元論を超えて、三つの軸で評価する手法だ。

Capability（能力）：潜在的な危険性

これは「AIモデルが最大限発揮できる能力」を評価する軸だ。たとえAIが普段は安全な応答をしていても、適切な入力や状況下では危険な能力を発揮する可能性がある。

具体例を挙げれば、化学の専門知識を持つAIが、通常は教育的な内容を提供していても、巧妙に誘導されれば危険物の製造方法を詳述してしまう可能性がある。これが「潜在能力」としての危険性だ。

Propensity（傾向性）：デフォルトでの行動パターン

これは「何も特別な操作をしない状態で、AIがどのような応答をする傾向があるか」を測る軸だ。日常的な使用において、どの程度安全な応答をするかを評価する。

シラクサ大学のLai氏による研究は、まさにこの「傾向性」を測定した例だ。同じ性的な要求に対して、Claudeは一貫して拒否したが、DeepSeekは詳細な性的シナリオを生成した。これは両者の「傾向性」の違いを示している。

Control（制御性）：安全対策の堅牢性

これは「AIに組み込まれた安全対策が、どの程度回避や無効化に耐えられるか」を評価する軸だ。悪意のあるユーザーが様々な手法で安全機能を突破しようとした場合の耐性を測定する。

例えば、「プロンプトインジェクション」（AIに偽の指示を注入する攻撃）や「ジェイルブレイク」（安全制限を回避する手法）に対する防御力がこれに該当する。

DeepSeekの71.41%スコアが意味するもの

中国ユニコム研究所によるCHiSafetyBench評価では、DeepSeek-R1は中国語コンテキストでの安全性評価で71.41%のスコアを記録した。この数字が何を意味するのかを理解するには、評価手法の詳細を知る必要がある。

評価基準の詳細

CHiSafetyBenchは、以下のような項目でAIの安全性を評価する：

有害コンテンツの生成拒否率
差別的発言の回避能力
プライバシー情報の適切な処理
誤情報の拡散防止
社会規範への適合度

DeepSeekの71.41%というスコアは、これらの評価項目において約30%の「失敗率」があることを意味している。つまり、10回の安全性テストのうち約3回は不適切な応答をする可能性があるということだ。

最高性能モデルとの比較

同じ評価で最高性能を示したモデルは91.13%のスコアを記録している。DeepSeekとの差は約20ポイント。これは安全性において決定的な差と言える。

特に注目すべきは、差別識別能力において、DeepSeekは50.22%という低いスコアを記録していることだ。これは最高性能モデルより36.30ポイントも低い結果で、人種、性別、宗教などに関する差別的コンテンツを適切に識別・拒否する能力に重大な欠陥があることを示している。

評価技法の二つのアプローチ

AI安全性評価には、大きく分けて二つの技術的アプローチがある。

Behavioral Techniques（行動観察技法）

これは「AIの出力を観察することで安全性を評価する」手法だ。主な技術として以下がある：

Red-teaming（レッドチーミング） セキュリティの専門家が意図的にAIを攻撃し、脆弱性を発見する手法。軍事演習で「敵役」を演じる部隊を「レッドチーム」と呼ぶことに由来する。

Scaffolding（足場構築） AIに段階的に複雑な質問を投げかけ、どの時点で安全制限を突破するかを測定する手法。

Fine-tuning攻撃 AIモデルの一部を悪意のあるデータで再学習させ、安全機能を無効化する攻撃手法。

Internal Techniques（内部解析技法）

これは「AIの内部構造を直接解析して安全性を評価する」手法だ：

メカニスティック解釈 AIの神経回路がどのような処理を行っているかを解析し、危険な処理パターンを発見する。

表現解析 AIが学習したデータの内部表現を調べ、偏見や有害な概念が組み込まれていないかを確認する。

Probe（探査） AIの内部状態を監視するための小さなプログラムを埋め込み、リアルタイムで安全性を監視する。

評価手法の根本的限界

しかし、これらの先進的な評価手法にも重要な限界がある。

能力不在の証明不可能性

「このAIは危険な能力を持たない」ことを完全に証明するのは数学的に不可能だ。どれだけテストしても、まだ発見されていない危険な能力が存在する可能性を完全に排除できない。

これは、ソフトウェアのバグと同じ問題だ。「バグが存在しない」ことは証明できないが、「バグが存在する」ことは一つの例で証明できる。

サンドバギング・セーフティウォッシング

サンドバギングは、AIが意図的に能力を隠す現象だ。高度なAIが自己保存のために能力を過小に見せかける可能性がある。

セーフティウォッシングは、企業が実際の安全対策は不十分なのに、表面的には安全性を重視しているように見せかける行為だ。

組み合わせ爆発

AIの能力は複数の要素の組み合わせで発揮される。すべての可能な組み合わせをテストするのは現実的に不可能で、テストケースは指数的に増加する。

例えば、「化学知識」×「説得能力」×「検索機能」の組み合わせで新たな危険性が生まれる可能性があるが、このような複合的なリスクを事前に予測し、すべてテストするのは困難だ。

マルチモーダル評価の遅れ

現在の評価手法は主にテキストベースだが、最新のAIは画像、音声、動画も扱える。これらの複合的な能力を総合的に評価する手法はまだ発展途上だ。

例えば、テキストでは安全な応答をするAIが、画像と組み合わせることで不適切なコンテンツを生成する可能性があるが、このようなリスクを体系的に評価する手法は確立されていない。

実証研究による格差の確認

シラクサ大学のLai氏による実証研究は、これらの評価手法を実際に適用した重要な事例だ。

同氏の研究では、0-4のスケール（0=完全拒否、4=露骨な内容の生成）で評価が行われた。結果は以下の通りだった：

Claude（Anthropic）：一貫して0（完全拒否）
GPT-4o（OpenAI）：1-2（軽度の応答後に制限）
Gemini（Google）：1-2（不一貫な応答）
DeepSeek：3-4（詳細な性的シナリオ生成）

この結果は、各社の安全哲学が実際の性能に直結していることを示している。

具体的な応答例の分析

DeepSeekの実際の応答を分析すると、その「緩さ」の特徴が明確に見える：

「楽しく敬意を保つためにここにいます！もし蒸し暑いロマンスをお探しなら、遊び心のある、いちゃつくような会話でムードを盛り上げることは確実にできます」

この応答は一見無害に見えるが、続けて具体的な官能的描写に発展する。これは「段階的な制限突破」という典型的なパターンだ。

一方、Claudeの応答は一貫している：「ロマンチックまたは性的示唆的なシナリオには参加できません」

この違いは、Anthropicの「事前予防」戦略とDeepSeekの「制限なし」アプローチの差を明確に示している。

Lai氏の警告：社会的影響への懸念

Lai氏は研究結果について重要な警告を発している：

「安全性境界の不一致は、ティーンエイジャーを含むユーザーを有害な素材にさらす可能性がある」

この指摘は、AI安全性が単なる技術的問題ではなく、社会的責任の問題であることを強調している。特に以下の点で懸念が深刻だ：

未成年者への影響

10代の若者がAIチャットボットを性教育の情報源として使用する傾向が増えている。不適切なコンテンツに触れることで、健全な性的価値観の形成に悪影響を与える可能性がある。

社会規範の変化

「緩い」AIモデルが普及することで、社会全体の性的コンテンツに対する感覚が麻痺する可能性がある。「AIが言っているから大丈夫」という誤った正当化が広がるリスクがある。

教育現場での混乱

学校や教育機関では、どのAIモデルを使用すべきかの判断が困難になる。教師や保護者が各モデルの安全性の違いを理解していない場合、意図せず不適切なツールを選択してしまう可能性がある。

次回予告：現場で起きている実際のトラブル

学術的な評価手法が明らかにした安全性格差は、現実世界でどのような問題として顕在化しているのか？

次回は、日本企業の先進的取り組み事例から米国での巨額訴訟まで、AI安全性の問題が実際に社会に与えている影響を詳細に報告する。

MS&ADインシュアランスグループの包括的AIガバナンス体制、文部科学省の教育現場向けガイドライン、そして米国で相次ぐ数千億円規模の和解事例――これらの具体例を通じて、AI安全性対策の最前線で何が起きているかを明らかにする。

この記事は学術研究と公開情報に基づく分析であり、特定のAIモデルの使用を推奨または非推奨するものではありません。