「世界モデル(World Models)」とは何か。AIの未来の鍵
を握る、その起源とポテンシャルについて

本記事は、博報堂DYホールディングス執行役員Chief AI Officer、Human-Centered AI Institute代表の森 正弥が、今後のAI技術発展の鍵を握っている「世界モデル(World Models)」について、その由来となった論文を参照しながら、今後の可能性や課題も含めて解説する。

「世界モデル(World Models)」について

「世界モデル(World Models)」とは何か?という問いに対して、短く答えるならば、「エージェントの取り巻く環境を、観測からの学習によってモデルとして獲得する枠組み」である。「AIに環境の変化や行動の結果を効率的に学習・予測させる技術」の一つであり、AIによる「想像とそれによる学習と判断」を実現させる手法とも表現できる。つまり、AIに「世界の仕組み」と「想像力」をもたせる技術だ。生成モデル、強化学習、ディープラーニング、ロボティクス、シミュレーション、メタバース、そして認知心理学という様々な分野が重なり合うところに存在し、マルチモーダルLLMとのシナジーも期待されている。

昨今の世界モデルのブームは様々な過去の研究の流れからつながってきたものであるがその一つはGoogle Brain所属(当時。現在はSakana AIのCEO)のDavid Ha氏とLSTMの考案者であるJürgen Schmidhuber氏によって2018年に発表された「World Models」という論文に由来している。この論文では、シミュレートされた車がレーストラックで自動運転を学習するための手法が探求されている。AIエージェントが環境をどのように認識し、インタラクションを行うかのモデルを革新的な方法で提示したため、大きな関心を集めた。

エージェントとは、強化学習において「環境内で決定を行ったり行動を取るシステム」を指す。論文では、エージェントに予測的な方法で環境とインタラクションする内部メカニズムを持たせる提案がされた。これにより、エージェントが行動を取る前に、「こういう行動を取ったら、こういう結果になるな」と予測した上で判断し行動を選択させることができることを示したのである。

論文「World Models」での提案手法

由来の一つである論文「World Models」ではどのような手法が取られているかについて述べる。エージェントの内部アーキテクチャは、Vision(V)、Memory(M)、Controller(C)の三つの部分で構成される。

Vision:各映像フレームを処理し、高次元の画像データをコンパクトな低次元の表現に変換する。画像フレームの次元削減には変分オートエンコーダ(VAE)が使用されている。VAEにより、エージェントが遭遇する大量のデータを、潜在空間(Latent Space)と呼ばれるより管理しやすい圧縮形式に変換する。この潜在空間は、Memory部において未来の状態を予測する基盤として重要だ。

Memory:潜在空間を利用して、環境の未来の状態を予測する。ここではリカレントニューラルネットワーク(RNN)が使われており、圧縮されたデータに基づきながら、エージェントの現在の理解と行動を考慮に入れ、潜在空間がどのように時間とともに変化するかがモデリングされている。エージェントが時系列に従って潜在的な未来をシミュレートする形になっており、提案手法の革新的な箇所の一つである。

Controller:Visionからの現在のデータと、Memoryが予測した未来状態をもとに、行動を決定する。ここでは強化学習的な手法で、Controller部分におけるモデルのパラメーターが更新されていく。これにより、エージェントは報酬を最大化する結果を得るための最適な行動を決定する。

このVision、Memory、Controllerという3つの部分からなるアーキテクチャによって、AIエージェントは、シミュレートされた環境でのレーストラックの巧みな走行を実現するなど高い学習能力を示すことに成功している。

「世界モデル」と認知心理学における「メンタルモデル」との類似

特に興味深いのは、Visionからの「現在のデータ」と、学習済みのモデルであるMemoryによる「予測(未来のデータ)」を組み合わせ、Controllerが現在進行で学習しつつも意思決定していくという構造だ。この意思決定プロセスは、直接的にはMemory部の内部モデルによって作成された、いわばシミュレーション環境の中で行われていることになる。この革新的なシミュレーション環境の構築とそれを用いた意思決定を指して「世界モデル(World Models)」という語が使われている。

これは、人間で例えるなら、眼の前の状態と既に学んだ経験・知識に基づいて頭の中で想像し、その想像した結果から取るべきアクションについて考え、意思決定する、というプロセスに似ている。これは認知心理学でいうところの「メンタルモデル」に該当する。「世界モデル(World Models)」はつまるところ、AIが自らの「メンタルモデル」を獲得する方法と言い換えることもできる。

世界モデルにおける「生成的理解」という「想像とそれによる学習」

世界モデルを理解するにあたっては、AIエージェントが単にその内部に「世界(シミュレーション環境)」を持っているだけではないことに注意が必要だ。人間が「メンタルモデル」において想像力を働かせて学ぶことができるように、「生成的理解」とも呼べる処理をはさんでいるところがポイントである。

例えば、人がバスケットボールのシュートについて考えるとき、自分の視覚を含めた身体的手掛かりをもとに、架空のシュートの実行とそれによる結果を頭の中に作り上げる。1991年出版の書籍では、Clark Universityでの調査が引用されている。それによると、20日間、1日20分、実際にシュートの練習をさせた大学生と、メンタルモデル内での(つまり「想像」での)シュートの練習をさせた大学生との比較で、同じシュート成功率の上昇が見られたという報告がある。

この想像による理解の進展を「生成的理解(generative understanding)」と呼ぶが、世界モデルも同様に、過去データからのデコードにおける生成を踏まえて、エージェントの行動からの結果を予測することで理解を深める。これにより、一般的な手法より学習効率を高めることができる。

世界モデルにおける、生成的理解という処理をはさんだシミュレーション環境とインタラクションすることでの学習は、学習効率の観点では非常に有益だ。AIの場合、実世界で実際に体験をして学習を行うことよりも、はるかに効率的かつ大量に、仮想の内部モデル内を用いた学習を行うことができる。自動運転車を実際に走行させて学習するよりも、シミュレーション環境での学習の方がはるかに時間効率的であり、何万回もの走行経験をつませることが可能になるからだ。

動画生成AIと世界モデルの関係

2024年、OpenAIがテキストプロンプトから最長1分の動画を生成するAIモデル「Sora」を発表し、世間を驚かせた。最初の報道では「動画生成AI」として説明されることが多かったが、実はOpenAI自身はSoraをそう説明しておらず、「世界シミュレーター」として開発していると述べている。Soraは、物理世界における人間、動物、環境をシミュレーションし、世界の状態に影響を与える動作もシミュレーションできる機能を備えている世界シミュレーターと解説されている。

つまり、OpenAIにおいてSoraは世界モデルを構築する技術として認識・開発されていることになる。「Soraは、AGIを達成するための重要なマイルストーンになると我々は考えている」とも述べられている。同様の説明は、Googleが動画生成AIのVeoに対しても行っており、動画生成AIの研究開発は動画コンテンツを生成するAIに留まるものではない、世界モデルそのものの開発であることが示唆される。

世界モデルの汎用性とさらなる道

論文「World Models」で提案されているエージェントの内部アーキテクチャをさらに見ていくと、その汎用性に気づかされる。Memory部分で内部に世界モデルを構築しているが、この世界モデル自体は特定のタスクに依存せず、汎用的に成立する。世界の理解が確立されてから、Controller部分での報酬の設定を変更することで、特定タスクや特定の価値観に最適になるようにAIの振る舞いを導くことが可能だ。この世界とタスクの分離は、AIの汎用性を高め、より多様かつ複雑なタスクの実行を可能にさせていくこと、つまりAGI(汎用人工知能)の開発につながっていく重要な鍵となる。

画像認識AIをブレークスルーさせたCNNの創始者であるYann LeCun氏は、動物や人間が持っている知能をどのように人工的に獲得するかというテーマにおいて世界モデルの重要性を提唱しており、世界モデルベースの完全な認知アーキテクチャ構築に取り組んでいる。論文「A Path Towards Autonomous Machine Intelligence(自律機械知能への道)」では、その考え方が整理されており、世界モデルのさらなる汎用化が示されており、JEPAという開発プロジェクトを推進している。

世界モデルは、ビッグテック企業とトップ研究者による研究開発が加速している。前述した動画生成AIに加えて、GoogleのGemini、Genie、MetaのCWMなど、世界モデルに近い要素を持つシステムの研究開発が進んでいる。実際、Google DeepMindの Demis Hassabis CEOは今年5月のGoogle I/O(年次開発者会議)で、「私たちは Gemini を、単なる言語モデルを越えて、世界の一部をシミュレーションし、未来の行動を計画できるワールドモデルへと拡張させる」と述べた。Yann LeCun氏のJEPAと並んで、 Fei-Fei Li 氏が率いるWorld LabsのSpatial Intelligence、松尾豊氏らによるThird Intelligenceのように、新たなアーキテクチャや研究体制を通じて、従来とは異なるモデル像を提示しようとする試みも見られる。

AIとロボティクスの交差点として人々の関心を集めている「フィジカルAI」も、こうした世界モデル等のフロンティアモデルの知能をロボティクスと結びつけ、シミュレーション環境による極めて優れた効率での追加学習でさらに最適化させることで、物理空間の中で複雑かつ突発的なタスクも高い信頼性で実行できる技術の総称として実現していくと考えられる。AIとロボティクスを統合し、工場や倉庫などの現場で、変化する多様な環境に対応しながら確実に作業を行うロボットの登場に期待が集まっている。特に製造業に大きなインパクトをもらたすことが想定されており、物理空間での汎用技術として自動化の範囲拡大や労働力不足への対応という観点からも注目される分野である。ロボットの進化もまた世界モデルが鍵を握る。

世界モデルとLLMとのシナジー

世界モデルは有望な技術であるが、ありとあらゆる問題において効果的に意思決定を行うことができるかというとそうではない。David Ha氏らが考案した手法は、生成的理解と強化学習での適応が肝となっているが、それらで解決するのが困難な部分に関しては、マルチモーダルLLMでの認識・評価を組み合わせることでのシナジーの可能性がある。

しかし現状、LLMは処理速度が遅くなりうるという課題があり、LLMと世界モデルのシナジーはリアルタイム処理が必要とされるところにおいては適用できないケースがある。また、自動運転における意思決定においてLLMの訓練データのバイアスが存在する課題も指摘されており、LLMに過剰な期待をするのは時期尚早であることが示唆されている。世界モデル単独では解決が難しいが、LLMのディレクションを入れることで効果的に解決できるというユースケースをどう選んでいくかが肝になる。

世界モデルと信頼性の向上

ポテンシャルの高い世界モデルだが、今後はどう安全かつ透明性を持った、信頼できるアーキテクチャを構築するかについての議論も重要になるだろう。例えば、世界モデルを適用した自動運転車においては、透明性や解釈可能性が十分でない場合、故障時にどのように現象の原因を特定し、それを取り除いていくのかが困難になるという問題もある。説明可能なAI(XAI)の構築に関する研究成果は、世界モデルにも反映されるべきと言える。加えて、人間参加型(Human-in-the-loop)学習で培われているノウハウとの統合も必須となるだろう。

終わりに

世界モデルは、AIに想像とそれによる学習・判断の能力を備えさせる包括的なアーキテクチャに支えられた画期的なアプローチであり、AIに汎用性を持たせ、多様かつ複雑なタスクを解く基盤を与えるものだ。それだけでなく、発達心理学や霊長類研究の中で議論されてきた、人が成長過程で他人も「心」を持っており、それは自分の「心」とは異なるのだということの認識を獲得することを説明した、いわゆる「心の理論(Theory of Minds)」の理解と分析にも貢献することが期待されており、また現代の「意識」研究の一つ、Andy Clark氏らが提唱する予測処理理論(Predictive Processing)とも類似しており、人の持つ意識や心の問題にも近づけるアプローチである可能性がある。

Yann LeCun氏は、世界モデルが今後十数年におけるAI開発の重要なテーマであるとしつつ、世界モデルが持つ限界についてはまだよくわかっていないと述べている。世界モデルを安全に実現できてこそ、我々はAIを社会を支えていく、信頼できる次世代のパートナーとして進化させていくことができるだろう。

  • 森 正弥
    博報堂DYホールディングス執行役員Chief AI Officer、 Human-Centered AI Institute代表

    1998年、慶應義塾大学経済学部卒業。外資系コンサルティング会社、グローバルインターネット企業を経て、監査法人グループにてAIおよび先端技術を活用した企業支援、産業支援に従事。
    東北大学 特任教授、内閣府AI戦略専門調査会委員、日本ディープラーニング協会 顧問。
    著訳書に、『ウェブ大変化 パワーシフトの始まり』(近代セールス社)、『グローバルAI活用企業動向調査 第5版』(共訳、デロイト トーマツ社)、『信頼できるAIへのアプローチ』(監訳、共立出版)など多数。