- 2 つの新しいブループリントがロボットと自動運転車の事後トレーニング向けの膨大なフィジカル AI 合成データ生成を提供
- 初期の採用企業は、1X、Agility Robotics、Figure AI、Skild AI

カリフォルニア州サンノゼ - GTC - 2025 年 3 月 18 日 - NVIDIA は本日、新しい NVIDIA Cosmos(TM) 世界基盤モデル (WFM) のメジャー リリースを発表しました。これは、フィジカル AI 開発向けのオープンで完全にカスタマイズ可能なリーズ二ング モデルであり、開発者のために世界生成における完全な制御を可能にします。
NVIDIA はまた、NVIDIA Omniverse(TM) と Cosmos プラットフォームを活用した 2 つの新しいブループリントを発表しました。これらは、事後トレーニングのためのロボットと自動運転車向けの大規模で制御可能な合成データ生成エンジンを開発者に提供します。
1X、Agility Robotics、Figure AI、Foretellix、Skild AI、Uber などの業界の主要な企業は、フィジカル AI 向けのより豊富なトレーニング データをより迅速かつ大規模に生成するために、Cosmos の最初の採用企業となりました。
NVIDIA の創業者/CEOであるジェンスン フアン (Jensen Huang) は次のように述べています。「大規模言語モデルが生成およびエージェント型 AI に革命をもたらしたように、Cosmos の世界基盤モデルはフィジカル AI にとって画期的な進歩です。Cosmos は、フィジカル AI 向けのオープンで完全にカスタマイズ可能なリーズ二ング モデルを提供し、ロボティクスと物理産業における段階的な機能の進歩の機会を解き放ちます。」
合成データ生成のための Cosmos Transfer
Cosmos Transfer WFM は、セグメンテーション マップ、深度マップ、LiDAR スキャン、姿勢推定マップ、軌跡マップなどの構造化されたビデオ入力を取り込み、制御可能でフォトリアルなビデオ出力を生成します。
Cosmos Transfer は、認識 AI トレーニングを効率化し、Omniverse で作成された 3D シミュレーションやグラウンド トゥルースをフォトリアルなビデオに変換し、大規模で制御可能な合成データ生成を行います。
Agility Robotics は、ロボット モデルのトレーニングに使用される大規模な合成データ生成のために、Cosmos Transfer と Omniverse を早期に導入します。
Agility Robotics の最高技術責任者である Pras Velagapudi 氏は次のように述べています。「Cosmos は、実世界で収集できる範囲を超えて、フォトリアルなトレーニング データを拡張する機会を提供します。当社がすでに持っている物理ベースのシミュレーション データを最大限に活用しながら、このプラットフォームでどのような新しいパフォーマンスを引き出すことができるか、楽しみにしています。」
自動運転車シミュレーション用の NVIDIA Omniverse Blueprint は、Cosmos Transfer を使用して、物理ベースのセンサー データのバリエーションを増幅しています。 Foretellix は、このブループリントを利用することで、多様な運転データセットに対して天候や照明などのさまざまな条件を調整し、行動シナリオを強化しています。 また、Parallel Domain はこのブループリントを使用して、自社のセンサー シミュレーションに同様のバリエーションを適用しています。
合成操作モーション生成のための NVIDIA GR00T Blueprint は、Omniverse と Cosmos Transfer を組み合わせることで、多様なデータセットを大規模に生成します。OpenUSD を利用したシミュレーションを通じて、データ収集と拡張時間を数日から数時間に短縮することができます。
インテリジェントな世界の生成のための Cosmos Predict
1 月に開催された CES トレードショーで発表された Cosmos Predict WFM は、テキスト、画像、動画などのマルチモーダル入力から仮想世界の状態を生成します。新しい Cosmos Predict モデルは、開始および終了の入力画像が与えられた場合に中間アクションやモーションの軌跡を予測するマルチフレーム生成を可能にします。事後トレーニング向けに特別に設計されたこれらのモデルは、NVIDIA が一般公開しているフィジカル AI データセットを使用してカスタマイズできます。
NVIDIA Grace Blackwell NVL72 システムの推論計算能力と、その大規模な NVIDIA NVLink(TM) ドメインを活用することで、開発者はリアルタイムな世界生成を達成できます。
1X は、Cosmos Predict と Cosmos Transfer を使用して、新しいヒューマノイド ロボット 、NEO Gamma をトレーニングしています。 ロボットの頭脳を開発する Skild AI は、ロボット向けの合成データセットを増強するために、Cosmos Transfer を活用しています。さらに、Nexar と Oxa は、Cosmos Predict を使用して自社の自動運転システムをさらに発展させています。
フィジカル AI のためのマルチモーダル リーズニング
Cosmos Reason は、時空認識を備えたオープンで完全にカスタマイズ可能な WFM です。思考連鎖のリーズ二ングを用いてビデオ データを理解し、人が横断歩道に足を踏み出す場合や、箱が棚から落ちる場合などの相互作用の影響を自然言語で予測します。
開発者は、Cosmos Reason を使用して、フィジカル AI データのアノテーションとキュレーションを向上させ、既存の世界基盤モデルを強化し、新しい視覚言語アクション モデルを作成することができます。また、事後トレーニングして、フィジカル AI にタスクを完了するために必要なことを指示するハイレベル プランナーを構築することもできます。
フィジカル AI のデータ キュレーションと事後トレーニングを高速化
ダウンストリーム タスクに基づいて、開発者はネイティブ PyTorch スクリプトまたは NVIDIA DGX(TM) Cloud 上の NVIDIA NeMo(TM) フレームワークを使用して、Cosmos WFM を事後トレーニングできます。
Cosmos の開発者は、DGX Cloud 上の NVIDIA NeMo Curator を使用して、データ処理とキュレーションを高速化することもできます。Linker Vision と Milestone Systems は、大量の動画データのキュレーションにこの機能を利用し、動画検索と要約のための NVIDIA AI Blueprint 上に構築されたビジュアル エージェント向けの大規模視覚言語モデルをトレーニングしています。Virtual Incision は将来の手術用ロボットへの導入を検討しており、Uber と Waabi は Nemo Curator を活用することで自動運転車の開発を推進しています。
責任ある AI とコンテンツの透明性を推進
NVIDIA の信頼可能な AI 原則に沿って、NVIDIA はすべての Cosmos WFM でオープンなガードレールを適用しています。さらに、NVIDIA は Google DeepMind と協力して SynthID を統合し、build.nvidia.com で公開している Cosmos WFM NVIDIA NIM(TM) マイクロサービスから、AI が生成した出力に透かしを追加し、識別を支援します。
提供予定
Cosmos WFM は、NVIDIA API カタログでプレビュー可能であり、Google Cloud 上の Vertex AI Model Garden に掲載されています。 Cosmos Predict と Cosmos Transfer は、Hugging Face と GitHub で一般公開されています。 Cosmos Reason は早期アクセスで利用可能です。
詳細については、NVIDIA GTC の基調講演のリプレイや、NVIDIA Research の生成 AI 担当バイス プレジデントである Ming-yu Liuによる「Cosmos 世界基盤モデル入門」など、NVIDIA と業界のリーダー企業による Cosmos のセッションをご視聴ください。
※本発表資料は米国時間 2025 年 3 月 18 日に発表されたプレスリリースの抄訳です。
NVIDIAについて
NVIDIA (NASDAQ: NVDA) はアクセラレーテッド コンピューティングの世界的なリーダーです。
企業プレスリリース詳細へ
PRTIMESトップへ