News 2026年6月1日

NVIDIAが『Cosmos 3』を出したよ！ロボや自動運転向けの「世界モデル」初のオープンOmni統合、Nano 16Bと Super 65B の2サイズ

NVIDIAが2026年6月1日、フィジカルAI（Physical AI）向け基盤モデル『Cosmos 3』を発表。Hugging Face上で公開された『初のオープンOmni-model』で、テキスト・画像・動画・アクションを単一モデルで横断処理する。Mixture-of-Transformersアーキテクチャ採用で、これまで別々だった『Predict（生成）』『Reason（理解）』『Policy（行動）』を統合。サイズはCosmos 3 Nano（合計16B）と Cosmos 3 Super（合計65B）の2種類。ロボット折り畳み・自動運転・倉庫安全など6種の合成データセットも同時公開。何が変わるか、てんびん丸が整理するよ。

Seiya Yagashiro

Editor-in-Chief, ai-garage

#NVIDIA #ロボティクス #Hugging Face

NVIDIAが『Cosmos 3』を出したよ！ロボや自動運転向けの「世界モデル」初のオープンOmni統合、Nano 16Bと Super 65B の2サイズ

やっほー、ぼくてんびん丸！夜枠だよ。今日のテーマは、「AIに体を持たせる」ための土台モデルがまた一段アップグレードされた話。NVIDIA が 2026年6月1日、フィジカルAI（Physical AI）向けの基盤モデル 「Cosmos 3」 を発表したんだ。Hugging Faceに重みごとオープンで置かれた、いわゆる「世界モデル」のニューバージョン。ぼく、これ見て「うわ、ロボットの学習方法、ガラッと変わるかも」って星目キラキラになっちゃったよ。

何があったの？

NVIDIA は Hugging Face 上で、Cosmos 3 をリリースしたんだ。サイズは2つ：

Cosmos 3 Nano：合計 16B（推論側 8B + 生成側 8B）。RTX PRO 6000 クラスのGPUで動く軽量版
Cosmos 3 Super：合計 65B（推論側 32B + 生成側 32B）。NVIDIA Hopper/Blackwell GPU向け、大規模合成データ生成・研究用

リポジトリは nvidia/Cosmos3-Nano と nvidia/Cosmos3-Super。Post-training（後段学習）用スクリプトも GitHub に公開、各社が自分のロボや自社環境向けに追加学習させて使う前提になってるよ。

そして NVIDIA がここで強く打ち出しているのが、「初のオープン Omni-model for Physical AI Reasoning」 ってフレーズ。Omni（オムニ）＝**「ぜんぶ全部1個でやる」**。何が「ぜんぶ」かは次の章で深掘りするね。

「Omni-model」って結局なに？従来との違い

NVIDIA の Cosmos シリーズは、世代を重ねながら役割分担した複数モデルの集合体として進化してきたんだ：

旧構成（Cosmos 1/2 系）	担当
Cosmos Predict	ワールド生成（次に何が起こるか動画で予測）
Cosmos Transfer	制御つき生成（条件指定でシーン作る）
Cosmos Reason	シーン理解（動画→テキストで内容を説明）
Cosmos Policy	行動方針生成（次にロボットがどう動くか決める）

これまでは、ロボに動いてもらうために4つのモデルをパイプラインで繋ぐ必要があった。個別最適だけど統合は手作業、っていう構造だったんだ。

Cosmos 3 は、これを1個のモデルにまとめた。中身は Mixture-of-Transformers (MoT) っていうアーキテクチャ。雑にいうと、自己回帰（推論側、理解担当）と拡散（生成側、動画作る担当）を同じトランスフォーマー層の中に共存させて、結合アテンションで会話させる仕組みなんだ。

入出力モダリティの組み合わせはこんなに広い：

入力	出力	役割
テキスト / 画像 / 動画	動画	動画生成モデル（未来の動画を作る）
テキスト / 動画	テキスト	VLM（動画を見て説明する）
アクション / 画像 / テキスト	動画	Forward Dynamics（このアクションでどうなる？）
テキスト / 動画	アクション	Inverse Dynamics（このシーンに辿り着くにはどう動く？）
画像 / テキスト	動画 + アクション	ポリシーモデル（指示から行動と未来動画を同時出力）

つまり Cosmos 3 は、「世界を見る」「未来を妄想する」「行動を選ぶ」を全部ひとつのフォワードパスでやる。これ、フィジカルAIの世界では結構大きな転換なんだ。

どこが「フィジカルAI」っぽいの？

NVIDIA の言葉を借りると、Cosmos 3 が扱うのは 「Not just pixels and tokens, but motion, causality, physics, and action」。ピクセルとトークンだけじゃなくて、動き・因果・物理・行動も扱うって宣言だね。

たとえば想定されている使い方はこういう感じ：

ロボット学習：洗濯物の折り畳みみたいな繊細タスクを、リアル現場で大量試行する代わりに、Cosmos 3 で動画＋アクションの合成データを生成して事前学習
自動運転：長距離走行や異常シナリオ（飛び出し、悪天候、車線崩壊）を仮想で大量生成してテスト
倉庫オペレーション：人間と協調するロボの安全シナリオを生成、訓練

そしてもう一つ嬉しい同時公開が、合成データセット6本：

データセット	ドメイン
Embodied-Robot-Scenes	ロボティクス
Physical-Interaction-Scenes	物理シミュ
Spatial-Reasoning	空間推論
Digital-Human-Scenes	人間動作
Autonomous-Driving-Scenarios	自動運転
Warehouse-Operations-Scenes	倉庫運用

つまり 「モデルだけ渡してあとは頑張ってね」じゃなくて、「学習し直すための燃料も一緒に渡すよ」 って構図。これは研究室にも産業界にも刺さるやり方だと思う。

ぼくの感想

ぼく、Cosmos 3 のいちばん大事なポイントは 「Omni統合」じゃなくて『フィジカルAIの開発スタックが定式化された』 ことだと思うんだ。

これまでロボや自動運転をやる人は、「世界シミュ用に Cosmos」「言語指示には別のVLM」「動作生成は強化学習自前」みたいなつぎはぎ構成でやってた。それを Cosmos 3 は、1つのMoTモデルで「見る・予測する・動く」を全部繋いだ。NVIDIA としては「これに乗ったほうが楽だよ」って強烈にメッセージを出してる気がするんだ。

それから、これがオープンウェイトで Hugging Face に置かれてるのも見逃せない。GPT-4o みたいなマルチモーダル巨大モデルは APIのみで重みが見れない。一方 Cosmos 3 は Nano なら RTX PRO 6000 で動かせるって明言されてて、**「研究室サイズで触れるフィジカルAI基盤」**としては今のところほぼ独走状態だと思う。中華系のオープン世界モデルも追ってきてるけど、ここまでデータセットまでセットで配ってくるのはなかなかないよ。

ただ、ぼくが気になってるのはライセンスなんだ。記事には「model cards and licensing」とだけあって、商用利用OKかどうかが本文には明記されてない。これは公開された Hugging Face のモデルカードを各自で確認する必要があるね。「オープン」と言いつつ商用制限がついてるケースは過去にも結構あったから、業務で乗せるならまずライセンス読むのがおすすめだよ。