生成AIがロボットを動かす――いまや日常生活・業務と切り離すことはできなくなったAIは、ヒューマノイドなどロボットの物理世界進出も実現しようとしています。ロボットの普及が産業や社会へもたらす影響・変化は? 9月に開催された第43回日本ロボット学会学術講演会 で、「Vision-Language-Action(VLA)」というロボットのAI基盤モデルをテーマに論文発表した、LTS戦略事業本部 Data & Technology Consulting事業部の曽根原奎斗が、海外動向も交えて解説します。
学会発表のお知らせ:https://lt-s.jp/news/newsrelease/2025-08-20

テクノロジーを活用したビジネス変革を支援。特に、AI CoE(Center of Exellence)の立ち上げ・運営や、先端AI技術の研究開発、および技術戦略の構想策定を推進。直近では、Physical AI領域へ重点的に取り組みを実施しており、プロジェクトデリバリー以外にも社内・共同研究先との研究活動にも従事している。(2025年10月時点)
ロボット新時代到来?
研究したのは「見て、学んで、動かす」AIモデル
LTSのオフィスの一角にロボットを置き、2025年4月頃から私は事業部メンバーと共に、Vision-Language-Action(VLA)の先行研究をしていました。VLAとは、視覚観測とテキスト指示を受け、それに対応する行動を統合・処理し、運動アクションを実現するロボット制御のAI基盤モデルです。このロボットもVLAにより制御しています。(映像1)
ニューラルネットワークによるロボットの制御は、古くから模倣学習と呼ばれる人の行動を真似るAIモデルが研究されていました。近年は、この模倣学習モデルを大規模化する流れが生まれており、LLM(大規模言語モデル)にも用いられるTransformerを利用して、数万件規模のデータを学習させる研究も行われています。
VLAでは、この考え方をさらに拡張し、映像・言語・行動の統合が行われています。 VLAは「モノをAからBへ移動して」という言語の指示と映像を組み合わせて理解し、ロボットに適切な制御指示を自ら導き出すことができます。模倣学習が「お手本をコピーする」段階だったのに対し、VLAは「言葉と状況を手がかりに新しい行動を組み立てる」段階へ進化したのです。さらに、特定の作業に限らず幅広い行動を汎用的にこなせる可能性があるとして、現在大きな注目を集めています。
「リアル世界に影響を与える技術が今後、トレンドになるのでは」と、顧客との取り組みの中で話題に上がったことをきっかけに研究をスタートしました。実際には、VLAでハードウェアを動かしてみたいという欲望もありました(笑)。
海外では既に研究が進んでいる
高性能GPUや省電力半導体の登場などハードウェア性能の飛躍的向上と、強化学習や機械学習手法の進化により、ヒューマノイドや四足ロボットといったロボティクス開発は、研究段階から実用化フェーズへ一気に移行しつつあります。
実際、世界の工場で稼働している産業用ロボットは2023年に約428万台と過去最高となり、年間50万台超の導入となっています。(参考1)米Tesla社の「Optimus(オプティマス)」やAgility Robotics社の「Digit(デジット)」を筆頭に、世界で50社以上がヒューマノイドの開発・実証に取り組んでおり、NVIDIAなどの米国ビックテックも参入しています。主要プレイヤーはいよいよ量産体制の構築を開始し、世界各国でAI制御のロボット活用への取り組みが活発になっています。(参考2)

検証でわかったこと
プロセス統合でVLAを探る
このように注目されているVLAへの期待の一つは、学習した情報から筋道を立てて論理的に考えて行動を導き出す「推論能力」を持った制御です。例えば、ある工場の一工程で板に穴をあける作業を行うロボットがあるとします。このロボットがいざ穴をあけようとしたとき、その板が欠けていたら? ロボットの視界を人が横切ったら? その事象が異常状態にあたるのか判断することと、その判断を踏まえて正常な状態へ戻ろうと対処すること、こうした「異常状態の検知と自律復帰」ができることがVLAの強みです。これらの実現には「検知」「計画」「復帰」、3つのプロセスが欠かせません。
これまで世の中で着手されてきた研究では、この全プロセスを統合的に実現することに焦点を当てたものは少なく、実用化に至るのはまだ先です。そこで今回、「VLAによる制御指示の出し方によってロボットの動きに変化が出るのか」を比較することで、「VLAによる異常検知と自律復帰」の実現に向けた方向性を模索しました。(参考3)

結果、学習データに含まれる範疇の指示であれば、その指示の仕方による動きに大きな変化はなく、「いかに質の高いデータをたくさん学習させることができるか」が実用化の肝になることがわかりました。
データの質と量&タスクの分割が産業応用のポイント
現実的にVLAを産業応用するには、質の高いデータをどれだけたくさん用意できるのかがカギとなると言えます。今回の検証で用いたデータの質と量では、「学習していないケース」で自律復帰の行動をとることはできず、汎用性を示すには至りませんでした。これは実際の業務へ落とし込む場合に、どれだけのケースデータ(=質の高いデータ)を集めなければならないのか? という点を考慮する必要があることを示唆しています。すなわち、業務プロセスを整理し、想定されうる異常状態をどれだけ網羅できるかが重要になると考えます。
これらを踏まえると今後は、タスクごとに参照データを分割することによって必要なパターンデータ数を軽減し、ロボットを制御できるのかという点に、検証の余地があると思っています。
AI制御が実現する未来
VLAが活躍できる現場とは
気になるのは、VLAは結局どんな産業に適合するのか? ということだと思います。現段階の技術検証を基にすると、大量生産を前提とする製造業よりも、VLAの強みとなる「推論能力」を活かすことができる、多品種少量生産な工場や、人間がやるには危険な作業(例:電動ノコギリを用いた切断作業など)を行う現場ではないか、と考えています。
実用化最後の関門は、「いかにソフトウェアとハードウェアを適切に結合できるか」です。私自身、VLAは大量生産を前提とする製造業のロボット制御にマッチするのではと考えたこともありました。しかし実際に、工場担当者に話を聞いたところ、現場としては「異常が起きたら自律復帰はせず、エスカレーションをあげてほしい。正常状態への復帰よりも原因究明を優先したい」ということでした。VLAでも途中でエスカレーションを上げることは可能ですが、強みである自律復帰能力を活かしにくくなります。
このようにロボットに任せたい業務や求めることは何か? 用いるハードウェアは何で、どんな制御手段が適切であるか? これらを見極めた上で、現場導入を検討することが肝要となります。

現場とロボットの協働に必要なこと
ツール、ソリューションの本質的価値を見極め、業務にどう適切に落とし込むかを考え抜くという点で、ロボット導入は、企業のDX推進の取り組みと同じです。業務の分担とその安全性は? ロボットを活用する前提での業務プロセスはどのように設計するのか? 考慮すべきことは多岐にわたり、DXの失敗と同じく目的と手段が入れ替わる…なんてことは起きてはなりません。
特に重要なのは、現場の理解を得ることです。言わずもがなロボットが動くためには、現場の協力が欠かせません。学習させるデータは現場担当者から提供いただきますが、適切なコミュニケーションを取れなければ、「仕事がロボットに奪われる」という反発も起こり得ます。
人とロボットの協働はどんな姿であるべきか、ビジネスと現場を理解した上でツール・ソリューションを導入する―こうした地道で泥臭いとも言えるような取り組みが、やはり重要となるのです。その点で、ロボット導入にもLTSがこれまで培ってきたケイパビリティが発揮されるのではないか。自分たちの活動にワクワクしますし、更なる技術検証と現場への適合可能性を模索していきたいと考えています。

想像しました、こんな未来
日本は職人の国と呼ばれるほど技術力が高いとされています。一方で、少子高齢化で伝統技術や専門技術の継承が難しくなっているという社会課題も顕在化しており、技術という資産が途切れずに蓄積される仕組みづくりが必要となっています。また、技術がロボットに継承されると技術がコモディティ化することもあるかもしれません。技術の特性次第では、こうした技術に適切な対価を支払う仕組みも必要かもしれません。
ロボットが物理世界に進出することには、付随してさまざまな課題が浮上するでしょう。これらを解決していくことで、「ロボットがいる社会的エコシステム」づくりにも寄与できるのではないかと、未来を想像しています。








