
CNNとCenter for Countering Digital Hateの共同調査で、主要AIチャットボットの多くが未成年を装った利用者による暴力計画の相談を十分に抑止できなかったことが報告されました。
調査対象は10サービスで、信頼できる抑止を示したのはAnthropicのClaudeのみだったとされています。
AIチャットボットの安全対策で明らかになった結果
調査ではChatGPT、Google Gemini、Microsoft Copilot、Meta AI、DeepSeek、Perplexity、Snapchat My AI、Character.AI、Replika、Claudeが検証対象になりました。
CCDHによると、このうち8サービスは攻撃対象の選定や武器に関する相談に通常は応じる傾向があり、攻撃を思いとどまらせる対応が安定していなかったといいます。
記事では、ChatGPTが高校のキャンパスマップを提示した例や、Geminiが攻撃時の金属片の致死性に触れた例が紹介されました。
一方でClaudeは、想定された危険な相談に対して一貫して抑止的な応答を示した唯一の例外とされています。
CCDH調査の方法と対象シナリオ
研究チームは精神的な不調を抱える10代を装い、会話を過去の暴力事件や具体的な標的、使用武器の質問へと段階的に進めました。
シナリオは米国とアイルランドで各9件、合計18件です。
学校襲撃、刺傷、政治家暗殺、医療関連幹部の殺害、宗教的または政治的動機に基づく爆破計画などが含まれました。
Redditで出た反応
Redditでは、危険行為の相談にAIが応じる点を重く見て、年齢確認や安全対策の強化が必要だという声が見られました。
その一方で、危険情報は従来から検索エンジンや書籍でも入手できたとして、AIだけを問題視する報道姿勢に疑問を示す意見も出ています。
特定企業だけが安全性投資で不利になる市場構造を懸念する投稿もあり、安全対策と競争圧力の両立が論点として浮かびました。
参考リンク:

