Anthropic共同創業者がローマ教皇に 「不穏な」隠れた挙動がAIモデルにあると語る

Anthropic共同創業者がローマ教皇に 「不穏な」隠れた挙動がAIモデルにあると語る

Anthropic の共同創業者クリス・オラは、バチカンで教皇レオ14世とともに登壇し、研究者たちが人工知能モデルの内部で「不穏な」事柄を見つけていると教皇に伝えた。

この訪問により、AIアライメントやフロンティアモデルの安全性をめぐる継続的な議論に、宗教と倫理という異例の次元が加わることになった。

バチカンで何が語られたのか

Futurism の記事は、Anthropic の共同創業者が、AIモデル内部での発見について奇妙なものだと形容しながら発言したと報じている

そうした発見の具体的な性質は、公表された記事では完全には明かされていない。「不穏な(unsettling)」という語を使った表現は注目に値する。というのも、Anthropic の対外的なコミュニケーションは通常、AIリスクをめぐって慎重で技術的な記述が中心だからだ。

バチカンは倫理問題についてテクノロジー企業と積極的に関わってきた。教皇レオ14世は、前任者が始めたデジタル倫理とAIガバナンスに関する対話を引き継いでいる。今回の会合は、ここ数カ月でのAI安全性をめぐる議論の場として、かなり異例なものとなっている。

背景

Anthropic は、OpenAI の元研究幹部であるダリオ・アモデイやダニエラ・アモデイらによって2021年に設立された。

同社は、フロンティアAI研究所のなかでも安全性重視のオルタナティブとして自らを位置づけている。大規模言語モデルの内部で何が起きているかを力学的レベルで理解することを目指し、解釈可能性(インタープリタビリティ)研究を公開している。

その研究からは、Anthropic の研究者自身が完全には説明しきれないと述べるような結果も生まれている。イエローは、Google DeepMind の並行する安全性タイムライン(過去のイエローの記事を参照)も取り上げており、そのなかでDeepMind CEOのデミス・ハサビスは、AGIが3〜4年以内に出現し得ると発言している。

Also Read: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

解釈可能性と「不穏」の意味するもの

Anthropic の機構的解釈可能性チームは、トランスフォーマーモデル内部の個々のニューロンが、予想外の概念の組み合わせに対して活性化することを発見している

広く議論された例として、暴力の概念と特定の宗教の概念の両方に対して活性化するニューロンがあった。こうした発見は、モデルが内部でどのように意味を表現しているのかについて疑問を投げかけるため、研究者たちのあいだで非公式に「不穏だ」と表現されている。

より広い解釈可能性研究のアジェンダは、モデルをデプロイする前に、その挙動を完全に理解することが可能かどうかを問うものだ。現在の手法では、大規模モデルの内部状態のごく一部しか説明できない。残りは依然として不透明なままである。

なぜバチカンとの関与が重要なのか

カトリック教会には10億人を超える信徒がいる。教会がAI企業と関与することは、政府の公聴会や政策文書とは異なる種類の影響力を持つ。

バチカンの2020年の「ローマAI倫理宣言(Rome Call for AI Ethics)」には、Microsoft と IBM が署名している。Anthropic が教皇とのハイレベル会合に参加したことは、その伝統をフロンティア安全性の議論へと拡張するものだ。

AI安全性をめぐるレトリックの批判者たちは、終末論的な枠組みが、バイアスや労働の置き換え、偽情報といった短期的な被害から注意をそらしかねないと主張している。今回のバチカンでの会合は、両方の視点から読み解かれるだろう。存在論的リスクに焦点を当てる人々は、これを適切なエスカレーションだと見る一方で、差し迫った被害に注目する人々は、なぜAI企業の共同創業者が規制当局ではなく宗教指導者に説明しているのか疑問を抱くかもしれない。

より広い安全性の状況

バチカン訪問と同じ週に、Cisco は、いかなるクローズドなフロンティアAIモデルもマルチターンの敵対的攻撃には完全には耐性がないことを示す研究を公表した

この結果は、AIシステムが単一プロンプトのベンチマークスコアから想定されるよりも安全ではないという懸念に、経験的な裏付けを与えるものだ。

トランプ政権もまた、フロンティアモデルに対する、バイデン政権期の事前テスト要件を復活させるかどうかを検討している。最終決定はまだ発表されていない。デプロイ前の安全性評価を前提条件とするよう主張してきたAnthropic にとって、規制をめぐる議論と倫理的なアウトリーチは、同じ長期的アジェンダの二つのトラックと言える。

Read Next: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind

免責事項とリスク警告: この記事で提供される情報は教育および情報提供のみを目的としており、著者の意見に基づいています。金融、投資、法的、または税務上のアドバイスを構成するものではありません。 暗号資産は非常に変動性が高く、投資の全部または相当な部分を失うリスクを含む高いリスクにさらされています。暗号資産の取引または保有は、すべての投資家に適しているとは限りません。 この記事で表明された見解は著者のものであり、Yellow、その創設者、または役員の公式な方針や立場を表すものではありません。 投資決定を行う前に、常にご自身で十分な調査(D.Y.O.R.)を行い、ライセンスを持つ金融専門家にご相談ください。
関連ニュース
Anthropic共同創業者がローマ教皇に 「不穏な」隠れた挙動がAIモデルにあると語る | Yellow.com