コンピュータビジョン

IT

研究概要

東京大学生産技術研究所

佐藤洋一

SATO Yoichi

専門分野：視覚メディア工学

研究室WEB

映像から知識を引き出すAI技術

どんな技術？

コンピュータビジョンとは、コンピュータに、人間の目に相当する機能を持たせる技術です。例えば、画像や動画などの視覚データから、写っているものを識別したり、距離や位置、動きを検出して追跡したり、さらには人の行動や心理を推定したりと、視覚情報からさまざまな知識を獲得することができます。今や、いろいろな分野で人間の目以上のことができるようになっています。例えば、自動運転車が周辺の情報をリアルタイムで把握するシステムや、スマートフォンの顔認識システム、医療用画像の解析による診断支援などに使われています。

「コンピュータビジョン」という言葉は、人工知能（AI）の研究が始まって約10年後の1960年代に生まれました。人間は知的処理を行う際、視覚から得た情報に大きく依存しています。人間が行う知的処理をAIで工学的に再現するために、視覚情報の処理方法が重要視されるようになりました。

最近、深層学習（ディープラーニング）に基づくAIが大きく進歩し、それと表裏一体でコンピュータビジョンの応用範囲が一気に広がりました。「正解」のラベルが付けられた膨大な量の画像や動画さえあれば、AIがせっせと学習し、正しい判断を導き出せるようになったのです。

これからどうなる？

深層学習に基づくコンピュータビジョンは、データを大量に準備できない、あるいは、正解のラベルを上手く付けられない対象の解析が苦手です。例えば、伝統工芸の職人技や調理、実験の作業は、人によって動作の順番もまちまちな上、材料や道具を違うなどバリエーションが多く、対応したデータを大量に準備することが困難です。そこで、少ないデータからも効率よく学習できるアルゴリズムの研究が進められています。

また、ラベルを付けにくい問題の例として、情感や心情の解析があります。このような問題では専門家でも判断がぶれてしまい、正解・不正解のラベルを客観的につけることが難しいのです。今後は、心理学や認知科学の知見をうまく使って、表情や動きの裏にある感情にも迫っていけるようになるかもしれません。

コンピュータビジョンはこれまでずっと、ブレークスルーになる技術を取り込んで独自に発展させてきました。統計的機械学習や自然言語処理の技術、ディープラーニングなどがそうで、これからもこの流れは続くことでしょう。例えば、次々と生まれる高性能のセンサを使い、音や温度、人間の目では捉えられない波長の光などの情報まで組み合わせれば、これまで思いもよらなかった分野での活用が広がるかもしれません。