The Institute of Electronics, Information and Communication Engineers


コンピュータビジョン

電子情報通信学会誌Vol.83 No.1 pp.32-37

金出武雄

金出武雄:正員 カーネギーメロン大学ロボット工学研究所
E-mail tk@cs.cmu.edu

Computer Vision. By Takeo KANADE, Member (The Robotics Institute, Carnegie Mellon University, Pittsburgh, Pennsylvania 15213-3890, U.S.A).

1. は じ め に

 ロボットを初めとする人工知能システムには外界の状況をセンサでもって理解する感知覚能力が欠かせない.中でも,画像を使って外界を認識する視覚能力は,人間の大脳の最も大きな部分を視覚野が占めることから見ても,最も重要な情報チャネルといえる.そういう視覚能力をコンピュータで実現させたいと思うのは自然な要求である.
 私の場合も 1968 年に大学卒業後,なんとなくコンピュータに「目」を持たせたいというロマンのようなものを感じて,当時最も先進的な研究をしていた京都大学工学部坂井利之教授の研究室に入り,コンピュータビジョンの研究が仕事になってしまった.博士論文には人の顔写真の自動解析をテーマにした.プログラムはアセンブラで書いてラインプリンタ用紙(なつかしい?)で何百枚もの長さであった.1970 年に大阪で開催された万国博のときに収集された 1,000 人分以上の顔のディジタル化された画像データベースを使って実験検証し,当時としては大規模な実験といわれたものである.実際,そのころは画像処理用のディジタル入出力装置もままならない時代で,ほとんどは手作りの機械であった.例えば,画像ディジタイザなどの商品はないから A-D 変換器を買ってきて自分で作ったし,カラー画像ディスプレイもリフレッシュメモリ用に使う 20 KByte のコアメモリ(200 万円ほどした記憶がある)と D-A 変換器を使いソニーの家庭用トリニトロンテレビを出力装置に改造して使用していたことを記憶している.
 それから 30 年私自身の研究テーマもシーン解析,三次元ビジョン,自律ロボットへの応用,メディアとしてのビジョンなどと移ったが,その研究遍歴を基にコンピュータビジョンの発展を振り返ってみたい.

2. 画像を扱う分野

   「画像」とは何かを正確に定義するのは厄介であるし,ここではさほど重要でもない.ひとまず,外界のシーンを光学的なカメラで撮って得られる写真やビデオと考えておこう.そういう画像を扱う分野をその主目的に従って,私は普通図1に示すよう三つに分類している.まず,画像処理は画像を入力して,ある目的にかなう別の画像を出力する分野である.最も代表的な例は,ぼけた画像からより鮮明な画像を得るとか,画像を滑らかにするとかいった画像強調・画質改善である.物体や撮影条件の物理的性質をどれだけ勘案するかによるが,このような処理は一般に画像の「信号」としての性質をとらえてそれを処理するが,そこに何が写っているかという画像の「内容」とは余り関係がない.実際,「強調」や「改善」によって得られた画像は,人にとってより見やすいとか好ましいものかもしれないが,それが本当に真に近いかどうかとは別問題である.
 第2の分野はパターン分類と呼ぶべきものである.文字認識とか画像検査などが代表的である.入力画像の性質を全体として計測・特徴付け,最終結果として,文字の名前や良・不良といった有限のラベルのうちの一つを割り付ける.この場合,画像を単なる信号としてではなくその内容を扱うが,その元の世界における性質というより画像としての性質を分類するところに目標がある.
 第3の分野は更に一歩進めて,画像に写っている元の世界の状態そのものの記述を得ようとする分野である.ロボットの視覚では,シーン中の物体を検出し,その形・位置・動きなどの情報を取り出し,それによってロボットを制御する.航空写真の解析では二次元的画像から,建物の三次元的形情報を再構成するほかに,その使用状態などまで推量しようとする.これらのためには,画像生成のされ方だけでなく,対象世界に関する一般的知識をも使う必要がある.このようなアプローチは米国における国防省のプロジェクト名から名前をとって,画像理解といわれたりしてきた.コンピュータビジョン(計算機視覚)というときにはこの第3の分野を主に指しており,第1,第2の分野もそのツールとして使い研究する.

3. コンピュータビジョンの難しさ

 人間や生き物は視覚機械として素晴らしい能力を持っている.赤ん坊は親の顔を見分ける.我々は二次元情報である画像から,そこに写っている三次元の形や奥行きを推量することに困難を感じない.動物は,素早く動く獲物と敵を瞬時に見分ける.だから,コンピュータビジョンも簡単にできそうに思えるが,これが難しい.「1960 年代に人工知能研究の元祖の一人であるミンスキー教授が,MIT の大学院の学生にコンピュータビジョンを『夏休みのプロジェクトで解けるだろう』といって与えたが,30 年後の今になってもまだ全然できていないではないか」という話が,コンピュータビジョンの見かけの易しさと本当の難しさを表すエピソードとして使われる(注1).
 コンピュータビジョンの難しさには幾つかの理由がある.第1はデータ量が膨大であるという計算技術的な問題である.通常のテレビですら,一秒間に 30 MByte ほどのデータを生成する.これが HDTV ではその4倍になる.一昔前の計算機では実時間で処理することはおろか,入力することも蓄積することも難しかった.第2は,人間は確かに素晴らしい視覚能力を持っているが,その方法を論理的に説明することができないのでプログラムに直すことが難しい.更にもっと本質的な難しさとして,第3には,画素の明るさや色として観測される画像情報は,表面の反射特性,向き,照明,周りの物体からの影響など複数の要素が多対一の関係で複雑に絡み合ってできたものであることである.例えば,ある画素が暗い値を持っているのは,その表面が本来黒い(反射率が低い)ためか,表面に当たっている光の量がたまたま少ないためかは,画素の値だけからは分からない.第4に,画像は三次元のシーンが二次元の面に投影され,縮退してできたものであるから,本来的に物体の遠近関係を決める奥行きの情報は失われている.図2のマンガはビジョンのこの難しさを端的に描いている.実際,よく考えてみると部屋の画像を見たときに窓枠(らしき所)に見える部分画像は外の風景なのか,写真が掛かっているのかは実は分からないはずである.
 最後に,視覚では認識には人間が画像を見て判断していると思っている場合も,実は画像が持っている情報だけでなく,実は他の知識を使っているから初めて可能であることが多い.画像中に小さく写っている人や,車の部分だけを取り出してみると全然それらしくないとか,明らかに線があると見える部分も画像の値としては全く一様であるというような例は珍しくない.周囲の明るさの分布といった画像的要素,近くにどんな物体が写っているか,物体間の関連と制約,屋内か屋外風景かといった全体的コンテキストなどが関係しているはずである.しかし,個々の例については心理・生理・統計的な説明ができてもどのときにどの知識を使えばよいか,がニワトリと卵の関係になっていて体系的に取り扱う方法が分からない.これは人工知能そのものであるといえる.

4. コンピュータビジョン研究の変遷

  このような困難さを持つコンピュータビジョンの研究に対して,どのようなアプローチと進歩があったかを追ってみよう.これは科学技術史としての記述でなく私なりの見方であることを断っておきたい.

(1) Robert の先駆的研究と積み木世界のビジョン

  シーンを三次元として理解しようとするコンピュータビジョンの研究は,1965 年の Robert による研究によって始まったといってよい.彼は図3(a)のような形の積木を任意の方向から撮った画像が与えられたとき,それを解析して図3(b)に示すようにその形を四角柱や三角柱といった構成要素に分解し,かつその大きさ(辺の長さ)を取り出すという問題に取り組んだ.彼の研究の驚くべき点は,画像的特徴抽出,透視変換によるカメラモデル,空間や変換の同次空間による表現,画像とモデルの最小二乗マッチング,パラメータ推定といった今日的課題を,成功からは程遠いものの,すべて含んでいたことである.この後,初期の知能ロボット研究と相まって四角柱,三角柱,円柱などといった積木の世界を対象にした研究が 1970 年代中ごろまで盛んに行われた.しかし,易しく見える積木世界の認識も完全にできたとは到底いえない.

(2) シーン理解システム

 1970 年代から 80 年半ばまで,現在から見るとかなり大胆というか,一般的な画像やシーンを解析することを目標とするシステムが作られた.私自身,顔写真,屋外風景,航空写真の認識などを試みた.この時代の研究の特徴は,入力画像から最終の認識までを全部行うシステムを構成しようとする意気込みが強く,また,当時の人工知能(AI)研究の中心課題であった知識の表現法と利用法というテーマ,技術を取り入れようとする傾向が強かったことである.しかし,画像の理解に必要な幅広い知識を一つ一つコーディングする必要があったことと,入力画像から人工知能的手法を使うのに必要な記号的表現に変換すること自身が,実は極めて難しいということが分かるにつれ,この種のシステム志向の研究は急速に収縮していった.私はこれを「コンピュータビジョンと AI の離婚」と呼んでいる.

(3) 物理学的ビジョンと三次元再構成問題

 1970〜80 年代の人工知能的手法を用いたビジョンシステムの研究は余りにもヒューリスティックすぎるのではないか,「知識」というのも余りにも表層的な扱いではないかという反省が 1970 年代の終りごろから生まれた.例えば「車は道路の“上”にある」という知識は「画像中で車に対する領域は,道路に対応する領域の“上”にある」と混同して用いられることが多かった.コンピュータビジョンの難しさの第 3,第4の点から分かるように,シーンの性質は確かに画像中にふくそうし,縮退して現れていて直接逆算することはほとんどできない.しかし画像上で観測できる明るさの変化といった特徴と三次元シーン中の性質(物体の凹凸や遠近)とは一対一の関係はなくても,画像は物理的幾何学的現象によって生まれるのだから,もっと組織的・数理学的な解法があるのではないかという考えが生まれてきた.
 この発想は,まず 1970 年代の中ごろから線画を三次元図形として解釈する方法として発生した.図3(a)は幾つかの線からできている.画像中ではどれも線であるが,そのでき方に違いがあることに気づく.二つの面が凸のあるいは凹の陵を作っているから見えている線,前の物体が後の物体を隠している境界だから見えている線というものなどが考えられる.そういう線の物理的なタイプを分類すると,実は画像中で交差点に集まってきている線のタイプの組合せは限られたものしか起り得ないということが分かった.その可能な組合せをあらかじめ計算し辞書として持っておけば,与えられた線画に矛盾のない線の三次元シーンとしてのタイプ付けを与える――つまり線画を解釈する――数理的な方法が生まれた.この考えは Huffman と Clows が独立に発見し,Waltz による膨大な辞書と組織的な解釈法と発展し,ビジョンを探索問題として解くアプローチを確立した.私自身はそれまでの体積を持つ物体を要素とするのでなく,面そのものを構成要素とする折り紙世界の理論と名付けた方法で線画が複数の解釈を持つことを示した.
 明るさの濃淡についても,一定の反射モデルを考えると,一点の明るさの情報はその点の面の向きに一意的ではないが一定の拘束条件が存在する.そして滑らかな面全体を考えると,近くの点同士の面の向きは互いに関係していることから,互いに矛盾しない各点の面の向き(つまり,三次元形状)を濃淡の変化から再構成できるという Shape from shading という方法が発明された.このような考えは,テクスチャ,対称性,動き,色の変化,ハイライトなどなど様々な画像の現象の生まれる物理的・幾何学的理由をモデルを使って正確に解析し,それを逆に用いて,シーンの性質を再現する Shape-from-X と呼ばれる方法を数多く生んだ.

(4) Marr の視覚理論とアクティブビジョン

   1980 年前後にコンピュータビジョンに最も大きな影響を与えた研究者は D. Marr である.彼は,ビジョンとは「画像の意味する世界の記述を作り出す情報処理過程である」と規定して,画像からその意味までを生成するプロセスを3段階に分けた.最初は画像から濃淡の変化や構成要素を取り出し記述するプライマルスケッチ,次にそれからそのシーンの入力画像の視点からの三次元情報の表現に直したスケッチ,最後にシーン中の物体を取り出し,それぞれの物体として視点と独立した表現である物体中心表現である.Marr は神経生理学,物理幾何学,心理学などの豊富な知識を使って肉付けし,自身とその学生で一大体系を作りつつあったが,惜しくも夭折した.
 Marr の考えはビジョンの役割として画像が与えられたときにその表す世界の記述をできるだけ詳細に作り出すといういわば受身的な側面があった.1980 年代半ばから 1990 年代に入ると,コンピュータビジョンが移動ロボットの目として使われる機会が多くなった.ビジョンは,ロボットが次にどう動くかを決める役割を果たし,結果的に新しい視点の画像が得られるという点に注目してアクティブビジョンという考え方が生まれた.各画像について必ずしも正確で詳細な記述を作らなくても,ロボットが次に何をするか,どの視点を取れば良い情報が得られるかが決められれば次々と新しいより目的にかなった画像を処理することで,結果的により易しく,早く,信頼度良く,環境が認識できるという考えである.行動とビジョンを結びつけることでロボットビジョンの一つの主要な考え方となっている.
 ビジョンの難しさの最大の点は,三次元物体は見る方向によってその見え方が異なるということである.一般的な考え方は,物体を認識するにはその三次元モデルというものが認識システムの中にあって,入力画像から三次元の形を再構してそのモデルと対比するか,逆に入力画像と合う三次元モデルの投影があるかを探索するというものである.しかし,コンピュータの容量が増すにつれ,むしろ物体の画像(見え方)を多数覚えておいて,入力画像と直接マッチングする方がよいという考え方が生まれてきた.三次元モデルビジョンに対して見え方に基づくビジョンと呼ばれる.もちろんすべての見え方の画像をそのまま直接記憶しておくことは,記憶容量的にも,最良のマッチングを探すにも好都合とはいえない.画像を画素数だけの多次元空間の点と考えて主成分分析や Karhnen-Loeve 展開によって,次元数を減らした空間に写影して記憶するという方法を用いる.この方法は,隠れや大小の変動が少なく,背景が単純な場合に極めて有効で,現在様々な応用に使われつつある.

(5) ビジョンの自律ロボットへの応用

 コンピュータビジョン応用として初期に研究されたのは工場での検査,IC 製造工程での位置決めのように,いわば働きやすく設定された限られた環境の中で働くものであった.1980 年中ごろからもっと自然の屋内外で働く自律ロボットの目を目指した研究が盛んになった.このようなシステムでは制御と結びつくから実時間性が要求される.実時間での特徴抽出,ステレオビジョン,移動する物体のカルマンフィルタによる位置決めなどの技術が次々と開発された.中でもカメラを使って道路や自然地形を認識して走行する自動運転走行車の研究は,目覚ましい発展を遂げたものの一つである.我々,カーネギーメロン大学も NAVLAB と名付けたカメラと計算機を積んだ車を次々と開発した.初期のころは近くの公園の道をのろのろと時間数 km 以下で走ったものが,1995 年には,NAVLAB5号車がアメリカ大陸 5,000 km を時間 80〜120 km で 98.2 % 自動運転して横断した(図4).こういう技術は少しずつではあるが,実用システムに移されつつある.

(6) メディアとしてのビジョン

  1990 年代の後半に入って特に盛んとなってきたのは,マルチメディアの一環としての画情・ビデオ情報の扱いにコンピュータビジョンの技術を使うことである.
 まず,ヒューマンコンピュータインタフェースにビジョンを使ってユーザのジェスチャや顔の認識,顔の位置や視線を追跡する応用である.使用者に優しい各種の自動端末機や情報案内装置,更にはゲーム感覚的なソフト(例えば自分の顔の表情で遠くの分身を制御する)が考えられている.次は,画像やビデオの検索である.膨大な画像やビデオのデータベース中から欲しいものを探す,類似の商標パターンを検索する,ビデオを実時間より素早く見るための要約版を作るといった応用が考えられ,実用的なものとなりつつある.インターネットのサーチに画像を使ったサーチも開発されている.
 更に,新しい画像の合成法である.従来の画像の合成はクロマキーによる画素の置き換えや画像ワーピングといった画像そのものの二次元的合成にすぎなかった.しかし,画像からそれを撮ったカメラの位置,写っているシーンの三次元表現,照明条件などを復元できるコンピュータビジョンの技術を使えばもっと多彩で従来ではとても考えられなかったことができる.コンピュータビジョンとグラフィックスの融合が起っている.例えば,自由に動くカメラから撮ったビデオや映画の中に人工的に生成した物体を挿入して,それらをカメラの動きにつれて見え方を変えたり,照明によって影や光り方が変えて,あたかも本当に自然のシーンの中にあったかのごとく全く違和感のない,ビデオを作ることができる.また,多数のカメラから撮った画像を使って実際にはカメラが存在していないところから見た映像をも生成することができる.
  我々が,カーネギーメロン大学で現在開発している 51 台のカメラを持つ3D room による「仮想化された現実」プロジェクトはその究極のものを目指している.多数のカメラから撮った室内のイベントのビデオを使って,そのイベントを完全に四次元的空間(空間+時間)にディジタルモデル化する.すると,視聴者がその室内のどこにでも全く自由に動いたときに見るであろうビデオを作成する3D TV あるいはテレプレゼンスを実現することができるのである.現在のところリアルタイムにはできないが図5(a)に示すようなバスケットボールシーンを仮想現実化し(図5(b)),全く新しいビデオ(図5(c))を作り出せる.

5. コンピュータビジョンの今後

 コンピュータビジョンの研究手法の傾向は,大きく見ると認識から三次元の再構成,システムからコンポーネントへ,そしてヒューリスティック(知識)から数理的アルゴリズムへ,シンボル的手法から確率統計的手法へと動いてきた.ちょっと考えると逆の傾向と考えられるが,必ずしもそうではない.初期のころナイーブな発想で始めたものが,難しさが分かるにつれ,より正確に視覚のプロセスを理解し確立しようとしてきた動きと考えられる.しかし,私は結局,一回りした後で,認識,システム,知識という点に戻ってくるのではないかと考えている.視覚はつまるところ,状況を認識し,物の名前を認識するところにある.そのような能力が限られた場面ではなく,一般的な状況で発揮されるには,総合的,システム的な発想以外に考えられない.そのためには,日常の常識,連想といった画像のレベル以上のところでの推論能力なしに一般的ビジョンシステムは作れないのではないかと思う.
 コンピュータによるビジョンの研究はこの 40 年足らずの間に飛躍的な進歩を遂げたといってよい.もちろんビジョンそのものに対する理論的・技術的進歩が最も大きな理由であるが,それを支える画像入出力装置の進歩と情報計算処理能力の飛躍的発展に負うところも大きい.しかも,それらが極めて安価に入手できる.私が大学院の学生だった 1960 年代終りから 70 年代初めでは,テレビカメラはビディコンを使った極めて高級で大型そのものであった.現在では超小型のカメラ,安価なディジタイザが簡単に PC に接続できる.また,当時は計算機のメモリ容量が小さかったから,いかにメモリを節約したアルゴリズムを書くかが一種の競争であった.現在では,見かけに基づくビジョン法や,画像そのものを画素数だけの極めて高い次元空間の点と見なした様々な新しい学習法など,むしろメモリをふんだんに使うアルゴリズムが主流である.我々の仮想化現実プロジェクトでは5秒間のイベントの仮想現実化に,最大 51 台×30 フレーム/秒=7,650 枚の画像マッチング処理をしており,私の学生時代を考えると隔世の感がする.
 1980 年代から 90 年代はコンピュータグラフィックスの応用が花開いた時代であった.一昔前の超一流のグラフィックスと同じ能力が現在の家庭用やゲームセンタのゲーム機で使われている.私はこれと同じことが 2000 年から 2020 年にかけてコンピュータビジョンの分野で起ると予想している.小型カメラや PC はもちろん,ホールやエレベータなど人が集まる場所,ATM など人が使う道具,そして自動車など人が制御するシステムにはすべてカメラがつけられ,完璧な能力ではないかもしれないが,ユーザの要求を理解して,より楽しく,使いやすい,安全な動作をするシステムの中にコンピュータビジョンが共通に使われるようになるだろう.


かなで  たけお
金 出  武 雄
昭 43 京大・工・電気卒.昭 48 年同大学院博士課程了,同大学・工・情報助手.助教授を経て昭55米国カーネギーメロン大.現在,U. A. and Helen Whitaker 記念教授.ロボット研究所所長.米国工学アカデミー外国特別会員,IEEE,ACM,AAAI 各フェロー.


戻る