研究道具箱 カードと研究

IT

コンピュータビジョン

道具箱_20191015_表_86_54_center11 道具箱_20191011_裏_86_5411

研究概要

SATO Yoichi

東京大学 生産技術研究所

佐藤 洋一

SATO Yoichi

専門分野:視覚メディア工学

研究室WEB

映像から知識を引き出すAI技術

どんな技術?

コンピュータビジョンとは、コンピュータに、人間の目に相当する機能を持たせる技術です。例えば、画像や動画などの視覚データから、写っているものを識別したり、距離や位置、動きを検出して追跡したり、さらには人の行動や心理を推定したりと、視覚情報からさまざまな知識を獲得することができます。今や、いろいろな分野で人間の目以上のことができるようになっています。例えば、自動運転車が周辺の情報をリアルタイムで把握するシステムや、スマートフォンの顔認識システム、医療用画像の解析による診断支援などに使われています。

 

「コンピュータビジョン」という言葉は、人工知能(AI)の研究が始まって約10年後の1960年代に生まれました。人間は知的処理を行う際、視覚から得た情報に大きく依存しています。人間が行う知的処理をAIで工学的に再現するために、視覚情報の処理方法が重要視されるようになりました。

 

最近、深層学習(ディープラーニング)に基づくAIが大きく進歩し、それと表裏一体でコンピュータビジョンの応用範囲が一気に広がりました。「正解」のラベルが付けられた膨大な量の画像や動画さえあれば、AIがせっせと学習し、正しい判断を導き出せるようになったのです。

これからどうなる?

深層学習に基づくコンピュータビジョンは、データを大量に準備できない、あるいは、正解のラベルを上手く付けられない対象の解析が苦手です。例えば、伝統工芸の職人技や調理、実験の作業は、人によって動作の順番もまちまちな上、材料や道具を違うなどバリエーションが多く、対応したデータを大量に準備することが困難です。そこで、少ないデータからも効率よく学習できるアルゴリズムの研究が進められています。

 

また、ラベルを付けにくい問題の例として、情感や心情の解析があります。このような問題では専門家でも判断がぶれてしまい、正解・不正解のラベルを客観的につけることが難しいのです。今後は、心理学や認知科学の知見をうまく使って、表情や動きの裏にある感情にも迫っていけるようになるかもしれません。

 

コンピュータビジョンはこれまでずっと、ブレークスルーになる技術を取り込んで独自に発展させてきました。統計的機械学習や自然言語処理の技術、ディープラーニングなどがそうで、これからもこの流れは続くことでしょう。例えば、次々と生まれる高性能のセンサを使い、音や温度、人間の目では捉えられない波長の光などの情報まで組み合わせれば、これまで思いもよらなかった分野での活用が広がるかもしれません。

他のカードとの相性は?

例えば…

道具箱_20191015_表_86_54_center20 道具箱_20191011_裏_86_5420

防犯カメラの映像から人の流れを解析し、大きなイベントや非常時に適切に人を誘導。

道具箱_20200605_表_86_54_center9 道具箱_20200605_裏_86_549

養殖魚が快適に過ごせているかをモニタリングし、自動で環境改善。

道具箱_20191015_表_86_54_center7 道具箱_20191011_裏_86_547

深海の生態系を調査し、形状や行動から新種をその場で系統分類。

自己視点映像解析による複雑作業の理解:高い精度で、調理中の視線の動きを予測(左:視線移動の予測結果、右:実際の視線移動)