NTT DATA

DATA INSIGHT

NTT DATAの「知見」と「先見」を社会へ届けるメディア

カテゴリで探す
サービスで探す
業種で探す
トピックで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
2025.9.18技術トレンド/展望

行動認識の最前線:人物行動理解のための映像AIと製造業での事例

スマートファクトリーでの基幹システムと生産設備の連携、IoT機器を用いたインフラ点検領域での稼働時間や安全行動の確認といった、管理指標を効率的に取得する取り組みが活発化している。しかし、すべてを自動化できるケースはまれで、人が介在する作業も依然として残っている。こういった課題に対し、映像中の人物や物体を解析する「映像AI」への期待が高まっている。
本記事では製造業を例に、「スマートファクトリー」の理想と現実を分析しながら、NTT DATAの技術と適用例、そして未来への展望を紹介する。
目次

背景:理想のスマートファクトリーと現状の課題

完全自動化された工場である「スマートファクトリー」は製造業の理想ですが、現状は柔軟な判断や繊細な作業などの自動化は難しく、依然として人が重要な役割を担っています。人が介在する作業は、属人化しやすく、作業品質の均一化、ノウハウ継承、安全性の見える化、作業の定量的な評価等の実現において、今なお多くの課題が残されています。

図1:Smart Factoryの理想と現状

これらの課題に対し、NTT DATAは映像AI技術を用いた解決を目指しています。映像AIにより、製造現場における人による作業の見えづらい情報を定量的に把握することで、事故防止など安全性の向上、作業品質の一貫性確保、ノウハウ継承の実現等が期待されます。

図2:映像AI技術による課題解決

映像AI技術が目指す解決策

上記のような映像AIを実現する技術として、NTT人間情報研究所では、人物の行動を理解するための「身体行動理解技術」、および映像AIライブラリ「身体行動理解エンジン」の研究開発を進めています。

このエンジンの特徴は、主に3つあります。

  • 1.行動認識をはじめとした最先端の映像認識機能、身体行動理解技術を多数搭載
  • 2.独自の軽量化機能を備え、CPU/GPUで推論可能
  • 3.コンテナオーケストレーションに対応可能なアーキテクチャ

図3:身体行動理解エンジン

今回は、身体行動理解技術の中で、人の類似する身体行動の識別に有効な「階層型行動理解技術」を紹介します。
一般的な行動認識技術は、「歩く」「座る」など日常的な基本行動を対象とし、それらの分類・識別を実現することを主な目的としています。しかし実際の活用シーンでは、基本行動に含まれない、「階層性がある行動」や、「類似した行動」を認識することが求められ、その分類・識別の精度が課題となることがあります。
これらの課題を解決するために、NTT人間情報研究所では、「階層型行動理解技術」を開発しました。
本技術では、事前に各行動をグルーピングし、行動の抽象階層・詳細階層といった階層構造の作成を行いその階層に沿った識別を行います。
これらの工夫により、「基本-複合行動」といった階層性のある行動の認識や、「似て非なる」行動の高精度な識別が期待できます。

図4:階層性のある行動、似て非なる行動

NTT DATAではこれら研究開発の成果物を活用し、お客さまの課題に合わせた適用方法の検討や検証を行っています。本技術を活用した検証事例を紹介します。

適用事例:製造現場での技術検証

NTT DATAは製造業のお客さまとともに、工場作業員の負荷の推定に階層型行動理解技術を適用する検証を行いました。検証では、映像から抽出した骨格座標と動作ラベルで作業負荷を推定し、事前に定義した負荷量との一致度を評価し、「階層型行動理解技術」が作業負荷の正確な把握に有効であることを確認しました。

図5:作業負荷推定の処理フロー

結果の概要は以下の通りです。

  • (1)全データの内8割強は、負荷点数誤差が2割以内
  • (2)誤差は正方向が大半
  • (3)負荷点数誤差が3割を越えるデータのうち、人物背面方向が7割弱

(1)(2)から作業負荷は安全側に推定する傾向が確認できました。また(3)からは、人物に対するカメラの向きが負荷推定精度に大きな影響を及ぼすことが分かりました。そのため、人物の向きごとに行動認識モデルを学習する工夫や、カメラの設置方向を考慮する必要性が示唆されました。
今後はカメラ方向のバリエーションに対する対策や実際の工場内映像を用いた負荷推定など、本技術の現場適用を検討していく予定です。

図6:作業負荷推定の評価結果

今後の展望:行動認識AIの未来

本技術は製造業以外にも、さまざまな適用先があると考えます。本記事でご紹介した事例では、「似て非なる行動」の識別にトライしましたが、他の「階層的な行動」理解にも活用が期待できる技術です。例えば以下のような適用先が考えられます。

  • 小売業:従業員の業務分析による作業の効率化
    【基本行動】持つ、置く、立つ【複合行動】商品の棚出し、等
  • 建設業:作業員の動作識別による安全確認、作業手順点検
    【基本行動】握る、乗る、支える 【複合行動】はしごをのぼる、等
  • 公共イベント:イベント参加者の行動認識による運営効率化、イベント体験向上
    【基本行動】立つ、話す【複合行動】列に並ぶ、等

映像AI技術は、これからの働き方や産業構造に大きな影響を与える可能性を秘めています。
NTT DATAはこれからも、映像AI技術を用いて新しい未来を創造していきます。

データ&インテリジェンスについてはこちら:
https://www.nttdata.com/jp/ja/services/data-and-intelligence

記事の内容に関するご依頼やご相談は、こちらからお問い合わせください。

お問い合わせ