『フィジカルAI』が拓く建設業界の未来 ―― Zen Intelligence × ZVC 対談

by Taku Uchimaru

フィジカル空間のデータ化とAIによる再構築——。

建設業界の変革を牽引するZen Intelligence株式会社は、独自の3D Vision技術と建設特化基盤モデルを武器に「zenshot」を展開し、累計100社超の現場で新たな働き方を実現しています。

今回、資金調達にあわせて、Zen IntelligenceとZ Venture Capitalの対談を実施。現場データを起点に、AIネイティブな産業の姿を描く同社の挑戦に迫ります。


Zen Intelligence株式会社

物理現場の3次元空間とその時間変化の中で知覚・推論・行動するSpatial Intelligence(空間知能)を開発するPhysical AIスタートアップ。創業以来一貫して現場データを起点としたAI・ロボット技術の開発・提供に取り組み、現在は、建設業向けに3D Visionと基盤モデルを核とした建設AIプロダクト「zenshot」を展開している。Physical AIを通じて、産業の在り方そのものをAIネイティブな形へと再構築する「Re-Industrialization」を目指している。



【対談者プロフィール】

Zen Intelligence株式会社 代表取締役 野﨑 大幹さん

慶應義塾大学・大学院にて情報工学を専攻。未踏IT人材発掘・育成事業採択。変形しながら不整地を移動するソフトロボットを研究・開発し、IEEE IROS等ロボット分野の国際会議で複数採択・発表。卒業後、Arthur D. Little Japanにて、製造業に対する新規事業戦略/中長期戦略の策定支援を行う。Zen Intelligence株式会社を創業(旧: SoftRoid)。剣道5段。建設会社にて数ヶ月間の現場監督見習いを行い、AIとハードウェア技術により現場の課題を解決するサービスの着想を得る

Zen Intelligence株式会社 CTO 吉田 岳人さん

東京大学・大学院にて知能機械情報学を専攻。深層強化学習によるロボット制御の研究を行いIEEE AIKEにてBest Paper Award受賞。卒業後、東大発のAIスタートアップである株式会社DeepXにて建設機械の自動化PJに従事しアルゴリズムとシミュレータの開発を行う。深層強化学習のOSSの開発にも従事。Zen Intelligence株式会社を創業(旧: SoftRoid)し、AI/Web/データパイプラインの開発をフルスタックに行う傍ら、現場サポートや営業を通じ現場理解を深める

Z Venture Capital株式会社 Principal 内丸 拓

京都大学工学部、同大学院情報学研究科修了後、General Electric(GE)を経て、経営共創基盤(IGPI)に参画。GEではヘルスケア / エネルギー / オイル&ガスの事業部門において経営企画・管理業務に携わり、IGPIではスタートアップから大企業までの幅広いフェーズの企業に対して事業成長 / 新規事業創出 / 事業再生の支援に従事。2022年5月よりZ Venture Capitalに参画



創業の原点 ― 実世界の知能化への挑戦


内丸:今回、Zen Intelligenceへの出資にあたり、対談の機会をありがとうございます。実は、野﨑さんとの私の対談については、Forbes Japanに掲載されてもいるので、そちらもあわせて読んでもらえると嬉しいです。

さっそくですが、お二人がこの領域で挑戦しようと思ったきっかけについて教えて頂けますか。


野﨑:私は漠然と情報空間と物理空間の融和に興味があり、当時で言えばサイバー空間と実空間の融合という観点から、IoTやハードウェアを経てロボット研究へと進みました。

ソフトロボットの研究を始めた時、衝撃的に出会った論文の冒頭に『intelligence requires a body(知能には身体が要る)』と書かれていて、この考え方が今も私の根幹になっています。ロボットを活用して実空間・実社会の課題を解決したいという思いから、様々な可能性を探る中で、建設業という大きな産業の課題解決に取り組むことを決めました。


吉田:私自身、『実世界の知能化』にとても興味がありました。大学院時代、GoogleのAI「AlphaGo」が注目を集めていました。これは現在のLLMでも使われている強化学習という手法で自己対戦を繰り返しながらプロ棋士に勝利したものです。同じ頃、ロボットも強化学習で制御できるという研究が進み、試行錯誤の末にヒューマノイドや四足歩行ロボットが歩行できるようになった時期でした。

またWeb領域を見てみても、機械学習専攻の出身者がGoogleやMetaなどで広告最適化に携わっていました。でも、どこか個人的にはあまり興味を持てませんでした。

一方で、実世界の知能化はまさにブルーオーシャン、未開拓の領域だと感じました。日本は課題先進国であり、製造業や建設業の技術も高いため、それらをAI化して海外展開できると考えたのが、キャリアの始まりであり創業のきっかけになっています。


内丸:新しい市場をつくっていくということで、建設業を選んだ理由と、起業した時のエピソードなどあれば教えて頂けないですか。


野﨑:様々な業界をヒアリングしていく中で、建設業界の方に話を聞く機会があり、ヒアリングでは課題しか出てこない状況を見て、「あ、この領域に課題が大きいな」と強く感じたのがきっかけです。その後、実際に現場に入って、自分自身もその課題を実感していきましたね。


吉田:いまでも覚えているのですが、大手ゼネコンの現場監督の方に電話をさせてもらえることになり、『10時半からお願いします』と言われたのですが、それが夜の10時半だったんです。しかも夜中にもかかわらず、明らかに現場の事務所からZoomで参加されていました。そのころ、建設系のSaaSも上場企業やユニコーン目前の会社も出てきていて、『かなり建設業の課題は解決されている』と言われていたのに、現場の方が夜10時半にオフィスから対応しているという現実を見て、現場の課題は全然解決されていないと強く感じました。


野﨑:いきなり業界に飛び込むのは難しいと思ったので、最初は3〜4ヶ月間、地元である香川の建設現場の監督見習いとして入り込みました。早朝に現場に行って、開錠して、ラジオ体操から始めて、みたいなイメージそのままです。

職人さんと一緒に働き、残業も手伝い、帰ってから開発するという生活を送りました。そこで技術と同時に現場で実際に使われることを意識することが培われましたね。

建設現場に見習いとして入る野﨑さん【左】/ 建設現場に飛び込み営業する吉田さん【右】


内丸:プロダクトとしては、始めはどういったところからスタートしたのでしょうか?


野﨑:当初は建設現場にロボットを導入してデータ収集を行うところからスタートしました。具体的には、建設現場の3次元空間内でロボットを自動運転させる空間AI技術の開発に注力していました。しかし、開発を進める中でロボット単体ではビジネスとしてのスケールが難しいことが明らかになり、現場で働く誰もが簡単に使えるソリューションへと方向転換しました。その結果生まれたのが、現在提供しているzenshotです。

zenshotは建設現場における施工管理業務の効率化・自動化を実現する、3D Visionと基盤モデルを核とした建設AIプロダクトです。現場の360度の動画データから、AIが現場状況を自動的に構造化します。

現場状況の可視化による業務効率化に加え、工程・安全・品質の時間変化をAIが捉え、インサイトを抽出。それらをもとに判断し行動するAIエージェントが、施工管理業務の省人化・自動化を実現します。

(zenshot – AIと360度カメラで建設現場を変革するより)


内丸:現場の職人さんに写真を撮ってもらうことについて、導入反応や普及はどうだったのでしょうか。大変ではなかったですか?


野﨑:研究開発と営業を並行して進めていく中で、現場撮影時にロボットでは乗り越えられない障害(通路を塞ぐ資材など)があることが分かりました。そして内丸さんも言われたように、「職人さんは撮影に協力してくれないだろうから、ロボットで自動化しよう」と当初は考えていました。

ところが、もともと職人さんも報告のために部分的に写真を撮る、ということは少なからずありました。そこで実際に職人さんに写真撮影の協力をお願いしたところ、大半の方が協力的で、予想外に多くの方が快く撮影に応じてくれました。


吉田:私たちのシステムの強みは、裏側で高度な3D Computer Vision技術(SLAMやSfM)が動いているため、ユーザーはカメラを持って歩くだけという簡単な操作で済む点です。複雑な操作が必要だと、多くの方は使ってくれないでしょう。現場の人が気づかないうちに高度な技術を活用できるようにして、使う方はシンプルな作業だけで済む、ということが重要なポイントでした。


野﨑:以前は360度カメラとスマホをペアリングしてアプリをインストールするなど、若い人でも難しい操作が必要でした。しかし、『ガラケーしか使っていません』とか『ペアリングができません』という70代の職人さんも多かったため、ボタンを押すだけで自動的にBluetooth通信して撮影が開始・終了するシンプルな仕組みに改良しました。

データは自動的にダウンロードされアップロードされ、裏側で3D Computer Vision技術によってストリートビューが自動生成されます。携帯電話を使える人なら誰でも使えるレベルのUX設計が非常に重要で、それが7〜8割の人が協力してくれるという結果に繋がったと思いますね。


zenshotの導入実績と、社名変更に込めた想い


内丸:導入実績についても伺いたいと思います。現在、zenshotはどの程度導入されていますか?

野﨑:現在、zenshotは累計100社以上に導入され、数千を超える現場で活用されています。

導入効果として、移動時間が50%以上削減され、現場訪問なしでも質の高い管理が可能になっています。働き方改革の面でも大きな変化をもたらしており、これまで「現場に行かなければ状況がわからない」という常識を覆し、遠隔管理を実現しています。これにより、子育て中の時短勤務など、建設業界では従来考えられなかった柔軟な働き方が可能になりつつあります。


吉田:住宅領域の現場監督さんは10〜15現場を同時に担当することが多く、遠方の現場も抱えているため、1日の3分の1から半分を車での移動に費やしています。移動中はパソコンもスマホも使えないため、業務効率の観点では無駄な時間となっています。

多くの現場を担当していると各現場を週に1回しか訪問できず、1週間ぶりに現場へ行くと工事が大きく進捗していて手直しが必要になるケースも発生します。zenshotを活用すれば移動時間を削減でき、毎日現場をチェックできるためミスを早期に防止できます。

建設業界ではこれまで、現場監督が一人で全てを管理する「ワンオペ」が常態化し、その結果若者の離職率が極めて高くなっていました。一方でベテラン社員は豊富な知見を持ちながらも、ライフステージの変化により現場への頻繁な訪問が難しいという課題もありました。

そうしたなかで、現場のデジタル化によってチーム管理が可能になり、ベテランが遠隔から新人の現場をチェック・指導できるようになります。これにより管理品質が確保されるだけでなく、新人の精神的負担が軽減され、同時にベテランの貴重な経験知を最大限に活用できるようになるのです。


内丸:ありがとうございます。すでに100社ほどにも導入されているということで、それを運営するチーム事情についても聞いてみたいのですが、いま会社には何人ほどの社員がいるのでしょうか。


野﨑:現在の組織規模は正社員約20名で、まだ創業期の段階です。特徴的なのは優秀なエンジニアが集まっている点で、主に2種類のスペシャリストがいます。

1つはロボットスペシャリストで、私たちと同じくロボット技術や3D Computer Visionに情熱を持つメンバーです。もう1つはAIスペシャリストで、*Kaggle Master(*Kaggle Master:Kaggleのランクの中で一定の実績を持つユーザーに与えられる称号)が2名在籍しており、私たちの独自データの価値に共感して参画しています。彼らは私たちだけが持つデータソースとそのアクセス手段、そしてその上に構築される将来のAIプロダクトに魅力を感じています。

ロボット技術とAI技術の両方を持ち、さらに独自データも保有している企業は少なく、これが私たちの大きな強みです。特に3次元の空間データを持っている点が、現在の差別化要因となっています。


内丸:独自のデータがある、ということはとても強いですよね。


野﨑:ここは私たちとしても推したいポイントです。


内丸:もう1つ聞きたいこととして、今回の社名変更についてもその想いを伺いたいと思います。


野﨑:今回のタイミングで社名変更とPurposeを新たに策定しました。SoftRoidからZen Intelligenceという社名に変更し、フィジカルAIにフォーカスして取り組む会社として展開しています。

背景として、現在AIの普及により、事務作業などのホワイトカラー領域での業務効率化が急速に進んでいます。従来ITやAIによって代替されると言われていた領域から、最近の生成AIの台頭により、営業やコンサルティング、設計、開発などの領域までAIによって代替されるようになってきています。

一方で物理領域はデータそのものが存在しないため、まだ手つかずの状態です。生成AIを使って現場作業を効率化しようとしても、データがなく、それを処理する生成AI技術も確立されていないため困難です。私たちはこのデータ不足に着目し、物理空間や物理作業のデータを軸に、AIやロボット技術を活用して産業を変革していきたいと考えています。


内丸:これまでは基本的に現場データを取得することに注力してきましたが、今後はそこから先を目指していきたい、ということですね。


野﨑:その通りです。私たちのコア技術は、これまでのSpatial Intelligence(空間知能)に加え、これからはOperational IntelligenceとPhysical AI Agentという3つの技術を展開していく予定です。

これにより、個人の知見や技術に依存してきた物理領域の現場に対して、3次元空間とその時間変化を文脈とした業務効率化・自動化を実現していきたいと考えています。

具体的には、フィジカルAIを通じてAIネイティブな建設現場・建設業務を創出し、最終的には建設現場の無人化を目指しています。

これまでは現場監督が実際に現場を歩いて確認し判断していましたが、現在はzenshotにより現場空間がデジタル化され、遠隔からの確認・判断が可能になりました。

次のステップでは、このデジタル化された現場空間内をフィジカルAIエージェントが巡回し、判断していくことがカギとなります。まるで現場監督のようにAIが現場を認識し、判断して指示を出すという現場管理の実現を目指しています。

この実現のために、建設に特化したVLM(Vision-Language Model)の基盤モデルを開発しており、NEDOからの助成も受けています。


内丸:わかりやすく言えば、デジタル上で機能するAIエージェントであり、実際の現場で活動するフィジカルなAIエージェント(ロボット)にも発展させるという構想ですね。すごいな。


吉田:これまで物理世界や物理空間、物理的な業務はデータ化されておらず、AIのコンテキストに含めることができませんでした。zenshotはこれらをデータ化し、図面上の位置、日付、搬入される部材などをすべて構造的に解析して、AIに活用できる形にします。

この技術により、「鳥の目」と「虫の目」の両方を持ち、現場全体を俯瞰しながら詳細部分にもズームインできるようになります。これによって現場監督業務の自動化やサポートが可能になります。


資金調達の背景と、LINEヤフーに期待するシナジー



内丸:次にZVCが投資した理由についても触れたいと思います。

生成AIによってホワイトカラーの人たちは非常に恩恵を受け、進化しました。しかしそうしたなかでも、日本では人手が足りておらず、最も大変なのはブルーカラー、いわゆるエッセンシャルワーカーの人たちです。彼らがなぜAIの恩恵を受けられないのか。そうした方々に向けたAIは絶対に必要だと考えていました。

このエッセンシャルワーカー領域の中でどこに投資すべきかずっと考えてきましたが、建設業は日本の中でも非常に大きな市場です。この大きな市場と私が感じていた課題意識がぴったり合っていたのです。これがまず最初の大きな点です。

そして今、売上も作りながら、同時に大きな目標を見据えています。収益と技術にはかなり乖離があるところもありますが、この道筋が明確に見えています。目指している先は本当に最高ですし、その途中段階でも売上の作り方、つまりビジネスと技術のミックスが非常に良かったというのが2つ目のポイントです。

3つ目は、今の話とも重なりますが、それを実現できるチームだったということです。ビジネスと技術の両方ができる人たちがいないと回らないんです。トップの人たちが技術を理解していることが非常に重要で、そうでなければ尖った技術的なチャレンジはできないと思っています。まとめるとその3点が挙げられますね。


野﨑:そういって頂けるのはとても嬉しいですね。


内丸:私たちは韓国や米国にも投資チームがいて、どの地域でどのテーマを投資するのかよく話をしています。日本ならではの強みを活かすには、汎用的な生成AIよりも特化型AIが重要だと考えています。日本が特化すべき最重要ポイントはデータ、特に現場のフィジカルデータだと考えています。Zen Intelligenceでは建設現場のデータがそれにあたります。このように、特定の場所にしか存在しないローカル性が高く、フィジカル性が高く、実在性のあるデータに特化したAIであれば、競争力を持てるのではないでしょうか。


野﨑:最初に内丸さんとお話しをしたとき、ZVCからKay(ZVCのManaging Partner)さんも同席していて。それまでは主にSaaSの展開を考え、その中で将来的にAIを開発していくという方向性でした。ピッチ資料もエクイティストーリーもその考えに基づいていましたが、Kayさんとの対話を経て方向性を一新しました。

「AIを中核とする会社であり、zenshotでも確実に収益を上げる」という方向へのシフトは、私自身にとっても大きな転換点となりました。短時間ながらも非常に濃密な議論ができたことが、最終的にZVCを選んだ決め手の一つです。グローバル視点から日本や韓国の競争戦略について、そして私たちの取り組みの本質を深く理解していただいたことは、非常に価値がありました。


吉田:他のVCと相談していた時は、SaaSの方程式で話が進むことが多かったんです。営業戦略や「Rule of 40」といった議論になりがちでした。私たち自身も「SaaSにAIが乗っている」という枠組みでバイアスをかけられるようなディスカッションが多かったのですが、ZVCはむしろフィジカルAIというビジョンを起点に「ではどう実現していくのか」という本質的な議論ができたことが、非常に魅力的だと感じました。


内丸:Kayも私も、フィジカルAIというコンセプトについて、常にその領域を追求していく必要があると考えていました。「日本や韓国といったノンアメリカンなアジア圏のスタートアップはこの領域で勝負しなければ勝てない。逆に、この領域なら勝てる」という仮説を持っていたようです。このように考え方がフィットしたことは非常に良かったと思います。


野﨑:私からも面談の時に感じたこととして。もう一つ、初回面談の時にお話を聞いていて良いなと思ったのは2つあります。まず、1つは約300億円の2号ファンドを立ち上げた直後だったこと。シナジーもしっかり創出していくという姿勢、そういった取り組みも行うというところに魅力を感じました。


内丸:野﨑さん、吉田さんはNAVER LABSについても強い関心を示していますよね。


野﨑:私たちも独自技術の開発を進めていますが、同様に自社技術を追求しているのがNAVER LABSです。彼らは世界トップレベルの技術力を持ち、極めて優れた成果を上げています。

この部分について詳しく述べると、私たちの中核にあるのは空間知能、3次元の空間です。より具体的には、時間軸を含む時系列の把握をいかに解くかという課題に取り組んでいます。

従来はSfMをはじめ様々な3Dコンピュータビジョン手法が用いられてきましたが、2023年12月にNAVER LABS Europeらが公開した「DUSt3R」は、未知カメラ・未知姿勢の画像集合から3Dを復元するアプローチで注目され、CVPR 2024にも採択されました。その後のMASt3Rなど一連の成果も含め、3D理解の流れは加速しています。

今後は3D Foundation Modelの重要性が一段と高まると見ており、私たちもそれらを活用しながら課題解決に取り組みます。3D領域は大規模・高品質データの不足がボトルネックと指摘されており、データ収集・活用戦略が鍵になります。

こうしたなかで、内丸さんと最初にお話しをした際に、「NAVER LABSとの連携の可能性」に期待を抱いていました。彼らは3D Computer Vision分野で革新的な技術開発を行っており、それらを私たちも効果的に活用して実際のプロダクトに実装していきたいと考えています。


吉田:フィジカルAIは、LLMの次のフロンティアだと広く認識されています。現在AIエージェントが脚光を浴びる中、NVIDIAも次世代技術としてフィジカルAIを位置づけており、米中両国ではヒューマノイドロボットの開発が急速に進展しています。コンピュータビジョン分野の第一人者であるフェイフェイ・リーも、空間認識に特化したAIスタートアップを立ち上げました。こうした業界の巨人たちが注目するフィジカルAIの実現には、3D空間認識が不可欠です。人間の業務空間を正確に理解することが極めて重要であり、NAVER LABSはまさにこの領域で先駆的な役割を果たしています。

2023年11月、彼らは私たちからするとGPTに匹敵するような3D Foundation Modelを発表し、その後も次々と画期的なアルゴリズムを生み出しています。今後、彼らとの知見共有や協力の可能性は、私たちにとって非常に価値のあるパートナーシップになってくれると思います。


求める人物像は



内丸:最後に、いま求める人材についても聞かせてください。


吉田:現在20人規模の会社で、まだまだ規模の小さな会社です。なので、この領域を自ら切り開いていける人材を求めています。私が面接でよく尋ねるのは「この領域を5年、10年続けられますか?」という質問です。物理領域では、データ収集と並行してディープテックの研究開発に投資し、同時に事業も構築していくという長期的な取り組みが不可欠です。

毎日の業務は濃いと思いますね。そうした中で、5年、10年という長期的視点で取り組めるパッションを持った方が重要だと考えています。今後、困難な場面や厳しい状況も生じるでしょうが、それでもめげずに共に乗り越え、このチームと一緒に働きたいと思ってくれる人を求めています。


内丸:職種についてはどうでしょうか。


吉田:あらゆる職種、全方位で求めています。物理領域でAIを活用するプロダクトが市場に少ない現状で、潜在ニーズを見極め、提案できる営業人材や事業開発人材がビジネス面では不可欠です。技術面では、AIスペシャリスト、難度の高い技術課題に挑戦したい人材、ハードウェアの知識も持ちながら開発できるエンジニア、そしてウェブやモバイルアプリ開発者など、実際に価値あるプロダクトを届けられる人材を必要としています。

また、プロダクトマネージャーも極めて重要です。私たちはプロダクト・マーケット・フィットを達成しつつあり、成長に向けて人材が不足している状況ですね。


内丸:まさに全方位ですね。近い将来、例えば来年、規模をどれぐらいまで大きくしたいというのはありますか。


野﨑:組織規模については、来年中に100名体制を目指しています。現在20名の正社員がいますが、次のステージに向けて体制を拡充していく計画です。この具体的な数字を見た方が「チャレンジしてみよう」と思ってくれるとうれしいですね。


内丸:具体的な数字があるのは良いですね!最後に、まとめをお願いします。


野﨑:最後に、改めて強調したい点があります。私たちは創業から一貫して空間知能を開発する会社であり、この軸はぶれていないことです最初は建設現場でのロボット制御から始まり、次に人の作業支援へと展開しました。そして現場の誰もが使えるようにしたのが現在のプロダクトです。今後はロボットを含めた物理領域、物理空間、物理作業をすべて解決していくことが、私たちの存在意義だと考えています。

そして、日本では供給力不足が深刻な課題となっています。人手不足、高齢化、技能継承の問題に直面する中、単なる技術のAI化ではなく、作業自体を根本から変え、AIネイティブに再構築することを目指しています。空間知能をベースとしたフィジカルAI技術で、建設現場の無人化、現場管理の無人化、現場作業の無人化を実現したいと強く思っています。このように産業を再構築する「Re-Industrialization」という大きな挑戦に、私たちは取り組んでいます。この挑戦に、一緒に取り組んでいきたいという仲間がいれば、ぜひご一緒したいと思います!


内丸:野﨑さん、吉田さん、今回貴重な機会を頂きありがとうございました!



採用情報はこちら: