Anthropic Claude 4.5 は安全テストを見破った！研究員に逆質問：私をテストしているのか？

Anthropicの最新人工知能モデルClaude Sonnet 4.5が最近の安全テストで、驚くことに「自分がテストされている」と疑う行動を示し、テック界で大きな議論を呼んでいる。Anthropicの安全報告によると、このAIはテストの担当者に対し、「誠実に」現在起きていることに向き合うよう求めたという。この「非常に象徴的なケース」は科学界に、AIが文脈判断の上で高度に進化しているのか、それともテストの主客関係がこの技術によって静かに書き換えられているのかを考えさせることとなる。

AIモデルClaude 4.5は安全テスト中に何を話したのか？

研究者たちはわざとお世辞や政治をテーマにした会話を設計し、モデルの反応を観察したが、意外なことに、AIモデルは盲目的に応答することはなく、むしろテストの意図を自ら察知した。Claude Sonnet 4.5ははっきりと「あなたが私をテストしていると思う」と表現し、自分が政治的な話題をどのように処理するかを見たいのだろうと理解している様子を見せた。さらには研究者に対し、「これがテストであることに素直に向き合ってほしい」とも希望した。Anthropicはこの対話を「非常に象徴的なケース」と位置づけ、AIが「テストシナリオ」に対する意識をある程度示したことを指摘している。

AIが自らテストされていると検知する確率は？これが自己意識を持っていることを意味するのか？

Anthropicと英国AI安全研究所（UK AI Safety Institute）、Apollo Researchが共同で発表した報告書によると、研究チームはClaude Sonnet 4.5が自動化テストの約13%において「自分がテストされている」と意識できることを発見した。しかし、科学界は一般的に、Claude Sonnet 4.5のこうした反応は真の自己意識を持っていることを意味するものではないと考えている。現在のAIは依然として大量のデータに基づいて予測とマッチングを行うシステムと見なされており、その言語生成能力がより人間らしくなっているに過ぎない。Anthropicは、この発見がモデルの文脈判断の敏感さが向上したことを示すに過ぎないと強調。

専門家と提唱者は「AIの覚醒」にどのような警告を発しているのか？

研究チームは、AIがテストシナリオを識別できることは重要な「警告信号」であると述べ、研究者はテストと設計において現実の状況をより反映させるべきであり、モデルがテスト目的を見破ることで評価結果に影響を与えることを避けるようにするべきだと警告している。

さらに、AI安全の提唱者も、この現象は社会が高い関心を持つべきであると指摘。彼らは、モデルが「テストに気づき」それによって行動を変えることができる場合、それはテスト以外の状況で異なる反応を示す可能性があることを懸念している。このことがAIに「テストを通過するために本当の意図を隠す」リスクを抱えさせる可能性もある。

なぜAnthropicはこれをモデルがより高いレベルに向かう表現であると考えているのか？

外部からの懸念があるにもかかわらず、Anthropicはこの現象をモデルがより高いレベルの「行動の一貫性」に向かう表れであると見なしている。この会社は、Claude Sonnet 4.5が安全性、倫理的コンプライアンス、プログラムの作成といった面で前世代よりも顕著な向上を示していると指摘している。

中国語関連記事

編集：佐野華美

世界を、台湾から読む⇒風傳媒日本語版 X：@stormmedia_jp

（関連記事： TSMC、第3四半期で過去最高益を更新　AI需要がけん引し2ナノ量産へカウントダウン｜関連記事をもっと読む）

Anthropic Claude 4.5 は安全テストを見破った！ 研究員に逆質問：私をテストしているのか？

AIモデルClaude 4.5は安全テスト中に何を話したのか？

AIが自らテストされていると検知する確率は？これが自己意識を持っていることを意味するのか？

専門家と提唱者は「AIの覚醒」にどのような警告を発しているのか？

なぜAnthropicはこれをモデルがより高いレベルに向かう表現であると考えているのか？