2025年7月に発表された最新の研究によると、大規模言語モデル(LLM)の能力は驚異的な指数関数的速度で向上しており、その性能はおよそ7か月ごとに倍増しているという。研究者らはさらに大胆な予測を示し、この傾向が続いた場合、2030年には最先端のAIモデルが、これまで人間の専門家が1か月かけてようやく成し遂げていた複雑な作業を、わずか数時間で完了できるようになる可能性があると指摘している。この発見は、科学技術分野における飛躍的な進展を予感させる一方で、今後の世界的な雇用市場や社会構造、さらには民主制度にまで深刻な影響を及ぼすのではないかとの懸念も広がっている。
電気電子技術者学会(IEEE)傘下の権威ある技術メディア『IEEE Spectrum』は2日、Model Evaluation & Threat Research(METR)がAIの真の能力を評価する革新的な方法を開発したと報じた。研究によれば、大規模言語モデル(LLM)は「7か月ごとに能力が倍増する」速度で進化しているという。METRの研究者たちはさらに、AI知能の本質、現在のボトルネック、そしてこの力がもたらす可能性のある「壊滅的リスク」についても深掘りしている。
METR研究員メーガン・ギニモン氏は『IEEE Spectrum』のインタビューで、AIが軍隊に匹敵するほど強力になった場合、民主国家が転覆される危機に直面する可能性があると警鐘を鳴らし、AIが「意識」を持つかどうかの議論も哲学的な話ではなくなったと述べた。
全新評価基準が驚くべき真実を明らかに:AIの能力は7か月ごとに倍増
従来、大規模言語モデル(LLM)の進歩を測定するのは非常に困難だった。従来のプロセッサ性能指標のような指標は、AIが生成するテキストの「品質」や複雑な問題を解決する「知恵」を効果的に反映するものではない。LLMの目標は、人間と同等、あるいはより説得力のあるコンテンツを生成することであり、これには新しい評価次元が必要であるためである。このため、METRの研究チームは、新しい評価システムを設計した:彼らはまず、簡単から極めて複雑なタスクを定義し、一群の人間の専門家がそれらのタスクを完了するのにかかる平均時間を記録して、異なる世代のLLMモデルが同じタスクに取り組み、どの程度の信頼性や成功率でそれらをこなせるかを観察した。
結果は明確であり、時間が経つにつれ、新世代のLLMはより複雑なタスクをクリアできるようになり、その能力の成長曲線は「指数関数的」であることを示した。この研究の核心的な発見は、LLMの能力が約7か月ごとに倍増することだ。このことは、今日では非常に大量の計算資源と時間を必要とする任務が、7か月後には新世代のAIによって容易に対処される可能性を示唆している。
(関連記事:
日米韓の14大学で発覚! 学術論文に秘密指令を埋め込み、AIが高評価を出す
|
関連記事をもっと読む
)
METRの研究論文の一人、ギニモン氏は、「個人的には、このような驚くほど明確な指数関数的成長の結果に驚かされた」と認め、「モデルが急速に進歩することは知っているものの、これほどの速度は予想していなかった」と述べた。
ニュース辞典:METRとは?
METR(モデル評価および脅威研究センター)は、米国カリフォルニア州バークレーに拠点を置く非営利の研究機関である。前身は、先進的AIシステムの整合性に関する研究で知られる「アライメント・リサーチ・センター(Alignment Research Center)」であり、現在はAIの能力と、それに伴う潜在的リスクの評価に特化している。特に、社会に壊滅的な影響を及ぼすおそれのある脅威の検出に力を入れている点が特徴である。そのため、METRの研究は単にAIの進歩を測ることが目的ではなく、人類社会がAIの急速な発展に備えるための早期警鐘としての役割を担っている。
AIが数時間で人間の1か月分の作業を達成?
この「7か月で倍増」という傾向に基づき、METR(AI研究機関)チームは大胆な推測を行っている。すなわち、2030年までに最先端の大規模言語モデル(LLM)は、人間が約167時間(標準的な1か月の労働時間)を要する超複雑な作業を処理できる能力を備える可能性があるという。
しかしながら、研究者のギニモン氏は、この予測には重要な前提条件があることを慎重に付け加えている。第一に、この予測は「50%の信頼性」を基準としており、これは成功率が50%であることを意味する。工学設計や科学研究など、現実世界の多くの専門分野においては、50%の成功率では実用には程遠く、経済への影響が限定的となる可能性がある。
第二に、AIの能力が今後も指数関数的に成長し続けるためには、いくつかの重要な条件を満たす必要がある。具体的には、以下の3点が挙げられる。
1.ハードウェアの継続的な進歩:チップや計算基盤の開発速度が成長に追いつくこと。
2.ソフトウェアの継続的な最適化:アルゴリズムやモデル構造の絶え間ない革新が必要であること。
3.十分なデータ供給:より巨大化するモデルに対応するため、高品質な訓練データが継続的に確保されること。
ギニモン氏は次のように強調している。「本報告で提示した日付や予測は、我々がタスクセットに基づいて観測した傾向を単純に外挿したものであり、現実世界に存在するボトルネックや計算規模の変動を完全に考慮したものではない」。
「技術特異点」の影
もしAIが本当に、わずか数時間で人間の1か月分の業務をこなせるようになったとすれば、それは何を意味するのか。METRの研究員メーガン・ギニモン氏は、最も重大な影響の一つとして「AI自身の開発プロセスの加速化」を挙げている。
ギニモン氏は次のように説明する。「AIモデルを活用して、さらに強力なAIモデルをより短時間で開発できるようになれば、AIの能力向上が自己加速的なサイクルに入り、その進展速度は非常に、非常に速くなる可能性がある」。
この考え方は、SF作品や未来学者レイ・カーツワイル(Ray Kurzweil)が提唱した「技術的特異点(シンギュラリティ)」の概念を彷彿とさせる。シンギュラリティとは、人工知能が自律的に自己改善を繰り返し、その知能が爆発的に人間を凌駕することで、人類文明のあり方を根本から変えてしまうとされる仮説上の転換点である。
これについてギニモン氏は、METRの研究成果は確かにこの概念と深く関係していると認めつつも、AIの発展が即座に制御不能な「特異点的爆発」へと至るとは限らないと指摘する。現実世界には、ハードウェア製造の速度、エネルギー供給、さらにはロボット技術における物理的制約など、AIの自己進化を抑制し得るさまざまなボトルネックが存在するという。
「状況が急速に進展する可能性はあるが、それは『シンギュラリティか、あるいは何も起こらないか』という二者択一ではない」とギニモン氏は警鐘を鳴らす。「たとえAIの進化が緩やかな加速であったとしても、それが世界全体の適応能力に突きつける要求は、極めて厳しく、かつ喫緊の課題である」。
AIの知能における限界と成長の停滞期
AIが人間のように失敗から学び、継続的に進歩できるかどうかは重要な課題である。METRのメーガン・ギニモン氏は、ChatGPTの登場以降、AIのこの能力が「漸進的に」向上していると指摘する。
「AIモデルは以前よりも詰まりにくくなった」と彼女は説明する。「ある戦略が通用しない場合でも、今は多少なりとも別の戦略に切り替えることができる。ただし、それが安定しているわけではなく、まだ波がある」。
しかし、AIのタスク実行能力やツール活用能力が大幅に強化された一方で、根本的なボトルネックは依然として存在するとギニモン氏は観察している。彼女はわかりやすい比喩でこう説明した。
「新しいモデルを手にした際、私が注目する現象がある。各タスクに対し、モデルに与える『トークン』の上限、つまり発話可能な言葉の数を決めているが、トークン数を増やすことで成功率がどう変化するかを観察するのだ」。
結果は、AIのパフォーマンスがすぐに「高原期(plateau)」に達することである。
「明らかにパフォーマンスの停滞が見られ、ある一定点を過ぎると、さらに多くのトークンを与えてもほとんど効果がない。新世代のモデルではこの高原の高さが多少上がるものの、『より多くの時間をかけても成果が改善しない』という根本的な制約は残っている」。
「人間にも報酬逓減の法則があると思う。しかし、人間の場合は非常に多くの時間をかけ、複数の専門家が協力すれば、より良い結果を出せる可能性が高い。もし私が見た大規模言語モデル(LLM)が、たとえ絶対的なスコアは低くとも、継続的に試行錯誤し、改善を繰り返せる様子を示したなら、それは非常に印象的であり、画期的な進歩と言えるだろう」。
AIが直面する挑戦
METRのギニモン氏のチームは、新たに「混沌度(messiness)」という指標を導入し、実験室で行われるAIのタスクと現実世界の複雑な状況とのギャップを測っている。彼女は現状、多くのAI評価用タスクの「混沌度」はそれほど高くないと率直に述べている。
「この指標は16点満点のスケールで評価しており、我々の用いるタスクの平均スコアは約3点、最も複雑なタスクでも8点程度にとどまっている」と説明する。
では、16点満点の「極度に混沌とした」タスクとはどのようなものか。ギニモン氏は例として「スパイ活動」を挙げている。
「このような状況では、膨大な資源制約が存在し、失敗の罰則は非常に厳しい。また、積極的に妨害してくる敵対者もいる。失敗のリスクは極めて高く、常に新しい変数が現れてくるため、事態は非常に予測困難だ」と説明する。
現在のデータは、AIモデルがこうした高度に「混沌とした」現実の課題に対しては苦戦しており、この傾向が改善している明確な兆候はまだ見られないことを示している。
壊滅的リスク:AIが権力の集中や軍事クーデターの道具になる時
AIがもたらす「壊滅的リスク(catastrophic risks)」について尋ねられた際、METRのメーガン・ギニモン氏の回答は、多くの人が懸念する「大規模失業」を超えたものであった。
「我々が指す壊滅的リスクとは、大規模失業だけではない」と彼女は厳粛に語る。「もしほとんどの仕事が人間を必要としなくなれば、軍隊の維持に人間はほとんど不要、あるいは極わずかな人数だけで済む可能性がある。それにより、一部の勢力が政変を起こしやすくなるかもしれない」。
「データセンターに膨大な数の『天才的な』AIを抱えていると想像してほしい。そうした力を用いて軍事用ハードウェアを生産すれば、権力は極端に集中し、その時点で民主国家はもはや存在しないかもしれない」。
そして最も重要な点として、こうした未来の実現にはAIが何らかの「意識」を持つ必要はないという。
「これらの機械は人間のような意識を持たずとも、計画を立て、陰謀を巡らし、戦略を練る能力を備えているのだ」。
究極の哲学的問題:AIが意識を持つ可能性はあるのか?
インタビューの最後では、最も深遠な哲学的問題である「AIが将来的に真の『意識』を獲得する可能性」について話題が及んだ。METRのメーガン・ギニモン氏は、この問題に対して開かれた姿勢を示しつつも慎重であると総括した。
「意識は非常に難解な問題であり、特定の行動を遂行するために必ずしも意識が必要かどうかは私には分からない。この問題は自分の専門領域を超えている感覚がある」と述べる一方で、「しかし同時に、『今この瞬間にAIがすでに意識を持っているかもしれない』という考えが狂っているとも思わない」とも語った。