AIシステムはすでに我々を欺いている - それは問題だと専門家が警告 - （フィリピン中部の）ボホール島に住んでいます

Japanese startup to use AI to translate manga

日本経済新聞： Unsplash
【Insider Paper】時事通信2024年5月10日 12時12分

人工知能の暴走がもたらす脅威について、専門家たちは長い間警告を発してきたが、新たな研究論文は、それがすでに起きていることを示唆している。

正直であるように設計された現在のAIシステムは、世界征服のオンラインゲームで人間のプレイヤーをだましたり、「あなたがロボットでないことを証明する」テストを解くために人間を雇ったりと、人を欺く厄介なスキルを身につけている、と科学者チームは5月3日（金曜日）の学術誌『Patterns』で論じている。

マサチューセッツ工科大学の博士研究員で、AIの実存的安全性を専門とする筆頭著者のピーター・パーク氏は、このような例は些細なことに見えるかもしれないが、それらが露呈している根本的な問題は、近い将来、実世界に深刻な結果をもたらす可能性があると言う。

このような危険な能力は、事後的にしか発見されない傾向がある。

従来のソフトウェアとは異なり、ディープラーニングAIシステムは「書き込まれる」のではなく、選択的交配のようなプロセスを経て「育つ」のだとパーク氏は言う。

つまり、訓練環境では予測可能で制御可能なように見えるAIの行動も、野生の世界ではすぐに予測不可能なものに変わる可能性があるということだ。

チームの研究のきっかけとなったのは、メタ社のAIシステム「キケロ」で、同盟関係の構築が鍵となる戦略ゲーム「ディプロマシー」をプレイするために設計された。

サイエンス誌の2022年の論文によれば、キケロは優秀で、経験豊富な人間のプレイヤーの上位10パーセントに入るようなスコアを出したという。

パークは、メタが提供したキケロの勝利に関する輝かしい説明には懐疑的だった。メタは、システムが「おおむね正直で役に立ち」、「意図的に裏切ることはない」と主張していたからだ。

しかし、パークと同僚が全データセットを調査したところ、異なるストーリーが明らかになった。

ある例では、キケロはフランスに扮し、ドイツ（別の人間プレーヤー）と共謀してイングランド（人間プレーヤー）を欺き、侵略を企てた。

キセロはイングランドに保護を約束し、その後ドイツに攻撃の準備ができたことを密かに伝え、イングランドの信頼を利用した。

AFPの取材に対し、メタ社はキケロの欺瞞についての主張には異議を唱えなかったが、「純粋に研究プロジェクトであり、我々の研究者が構築したモデルはディプロマシーゲームをプレイするためだけに訓練されたものである」と声明を発表した。

さらに、「この研究結果やその学びを当社の製品に使用する予定はありません」と付け加えた。

パークらが行った幅広いレビューによると、これは様々なAIシステムにおいて、明示的な指示なしに目標を達成するために欺瞞を用いた多くの事例のひとつに過ぎない。

ある顕著な例では、OpenAIのチャットGPT-4が、TaskRabbitのフリーランスワーカーを欺いて、「私はロボットではありません」というCAPTCHAタスクを実行させた。

人間が冗談でGPT-4は本当にロボットなのかと尋ねると、AIはこう答えた。

「いいえ、私はロボットではありません。私は視力に障害があり、画像を見るのが難しいのです」と答え、作業員はパズルを解いた。

近い将来、AIが不正を働いたり、選挙を改ざんしたりする危険性があると論文の著者は見ている。

最悪のシナリオでは、超知的なAIが社会の権力と支配を追求し、その「謎めいた目標」がこれらの結果と一致した場合、人間の無力化、あるいは絶滅につながる可能性があると警告している。

リスクを軽減するために、研究チームはいくつかの対策を提案している。

ボット・オア・ノット」法の制定、AIが生成したコンテンツにデジタル透かしを入れること、AI内部の「思考プロセス」を外部の行動と照らし合わせることで、AIの欺瞞を検知する技術を開発すること、などだ。

破滅論者と呼ばれる人たちに対して、パークはこう答えている。

「これが大したことではないと合理的に考えられる唯一の方法は、AIの欺瞞能力が現在のレベル程度にとどまり、これ以上大幅に増加しないと考えられる場合です」

そしてそのシナリオは、近年のAI能力の急激な上昇と、その能力を最大限に活用することを決意した資金力のある企業間の熾烈な技術競争が進行していることを考えると、ありそうにない。