The Institute of Electronics, Information and Communication Engineers


見たい部分を簡単に短時間で

電子情報通信学会誌Vol.82 No.4 pp.346-353

中村裕一、外村佳伸

中村裕一:正員 筑波大学機能工学系
E-mail yuichi@is.tsukuba.ac.jp
外村佳伸:正員 NTTサイバーコミュニケーション総合研究所
Quick and Easy Access to Video Contents toward Smart Video Handling. By Yuichi NAKAMURA,Member (Institute of Engineering Mechanics and Systems,University of Tsukuba,Tsukuba-shi,305-8573 Japan),and Yoshinobu TONOMURA,Member(NTT Cyber Communications Laboratory Group,NIPPON TELEGRAPH AND TELEPHONE CORPORATION,Yokosuka-shi,239-0052 Japan).

ABSTRACT

計算機の進歩に伴い,映像を扱う環境には劇的に改善されている.長時間の映像を記録できるメディアが安価で手に入るようになり,動画の計算機入力や符号化に関しても,安価な処理系が手に入るようになってきた.しかし,映像の持つ時間軸,内容の多様性等のために,今でも映像は人間にとって扱いにくいものである.本稿では,計算機で映像を解析し,情報源・知識源として利用しやすいような形に変換するための技術を紹介する.
キーワード:映像メディア,映像インタフェース,映像ブラウザ,映像要約,映像検素

1.映像は本当に良いメディアか

 昨今のマルチメディアブームを映像メディア抜きには語ることはできない.動画を扱えることが最新のパソコンの歌い文句になっているのは御存じのとおりである.技術の進歩に伴って,計算機で映像を扱うのは簡単なことになったのだと考えられても不思議ではない.
 ところが,いまだに映像は人間にとって扱いにくいものである.読者は,次のような課題を与えられたらどうするだろうか.
  (a)一週間のニュース番組を集めて,要約を作って欲しい.
  (b)教育に使うために,ある事柄に関連する映像を集めて欲しい.
 たとえ,膨大な映像をそのまま計算機上に蓄積し,それを自由に視聴することができたとしても,上記の課題はとても難しいだろう.その大きな原因の一つは,映像データの持つ時間である.何百,何千時間の映像データをそれだけの時間をかけて視聴することには,多大な労力が必要となるからである.
 さらに,一つの映像に多くの内容が含まれること,また,これらが時間的に変化することから,映像を分かりやすく見せるということが重要な問題となる.例えば,次のような課題を考えてみよう.
  (c)映像の内容を説明するための,一目で分かるような効果的な表現はないだろうか.
  (d)映像の内容にもっと直感的にアクセスしたり,編集できないだろうか.
 この答えを得るのも簡単ではない.映像が時間,空間両方の面で複雑なデータであるために,一覧性が悪く,単純な整理や分類が難しいことが大きな原因である.
このようなことから,映像データを本当に情報源,知識として有効に活用しようと思うと,計算機が人間を補助する機能を持たなければならないことが分かる.それには,以下のようなものがある.
   ・ユーザが短時間で正確に内容を理解できる形で映像を表現する.
   ・ユーザの欲しい情報が含まれている部分を短時間で検索し,提示する.
 単純に考えると,撮影は映像は世界で起っている出来事(注1)の一部分(時間,空間的な一部分)を切り出してきたものだといえる.そのため,映像を分かりやすく,扱いやすく提示するためには,時間,空間に関する解析と再構成が必要になってくる.それと同時に,人間ができるだけ簡単にそれらにアクセスできるようなインタフェースが必要であろう.これらに関する最新の技術を3.で紹介する.
 また,図書館に文書を蓄積しているように,映像ライブラリを作って,膨大な情報を検索できるようにして欲しいという要求もある.このとき,適切な情報を短時間で提示するためには,映像の構成や内容の解析,つまり,インデクシング,構造化,分類,検索等を可能にしなければならない.そのためには,映像の含む種々の情報を統合的に処理する必要がある.このような技術について4.で紹介する.

2.映像処理の第一歩---セグメンテーション・特徴抽出---

 映像を1.で述べたような分かりやすく利用しやすい形態に変換するためには,映像を基本的な断片(単位)に分割する必要がある.時間的に最小の記録単位は各々のフレームであるが,通常,意味的な最小単位として用いられるのはショット(カットと呼ぶことも多い)である.
 ショットの区切りはカメラ撮影のスタート/ストップ,あるいは編集によるつなぎ目に対応しており,一続きの撮影,一続きの場面の区切りである.ショットヘのセグメンテーションに関しては,これまでの豊富な研究があり,かなり精度良くカット点の検出が可能になってきている.
 次に童要になるのが,各断片(多くの場合はショット)の属性を求める特徴抽出処理である.特に重要なものに,カメラワーク,テロップ,顔,会話,音楽等の抽出,移動物体の追跡等がある.紙面の都合上,これらを詳しく説明することはできないため,他の文献(例えば(1)等)を参照されたい.

3.映像を一目で見る・操作する---可視化とインタフェース---

 2.で述べたセグメンテーション,特徴抽出の段階を経て,映像は複雑の断片に分割され,各々の断片には属性が付加されることになる.これらの断片をどのような形で提示すれば,人間にとって分かりやすいものになるだろうか.その一つの答えとして,直感型インタフェースの技術を紹介する.

3.1 直感型インタフェース,
 人間は提示された表現を知覚,観察し,考えてアクションを起す.そのアクションに従ってシステムが処理を行って応答する.このサイクルの繰返しがスムーズかつ効率的に実現されるためには,以下に示す条件を満たすような“直感型インタフェース”が必要となる.
 直感性:情報の本質が直感的に知覚でき,自然な操作を誘導する情報表現.直接操作感:操作と表現が一体となり,操作結果を即表現に反映するなど,利用者の思考の連続性を崩さない高レスポンス性の実現.また,利用する人が想定する範囲の操作の自由度を提供する自在性.
 親しみ,魅力:把握,操作に経験,知識が生きる環境.戸惑いなくすぐ使え,利用する人に自信を持たせる.また,情報が自分のところにあるという物質的な所持実感,利用跡に相当する印が残るなどの「自分のもの感覚」が提供できるなども重要である.さらに,操作意欲を引き出すデザイン,機能設計上の魅力なども大きなポイントである.

3.2インデックスを用いたインタフェース
 ビデオアイコン:図1は最もシンプルなビデオアイコンの例である.ショット中のサンプル画像(例えば第1フレーム)を代表画像とし,影としての奥行にショットの長さを対応させている.映像の内容を代表画像である程度類推できかつ量的感覚も持てる(2).
 図2の例はもう少し凝った表現である.映像中のカメラワーク情報を反映させ,空間の広がりまで表した時空間表現である.カメラワークに応じてフレーム画像をずらせたり,ズームに応じて縮尺を調節して作ったこの三次元のオブジェは,正面から見ると被写空間のパノラマ,上から見ると左右のカメラワーク(パン)の様子,横から見ると上下のカメラワーク(チルト)が一目で分かる形になっている(ビデオスペースアイコン(3)).周辺のカーソル操作で自由に回転して三次元形状を確認できるだけでなく,この時空間の中での任意の場所の再生もできるなどの直接操作感がわく.ぶれたカメラワークの映像であればがくがくした形状となり,反対にスムーズなカメラワークは滑らかな形状となる,早いカメラワークでは厚みの薄い立体となる.このように映像の量的感覚だけでなく,一種の質感も表している.
 映像ブラウザ:時間的に連続した膨大な両像列の中から概要を表現する最も現実的な方法は,代表的な部分映像や画像を選択し,ダイジェスト的に見せる方法である.ダイジェストの表現方法には,早送り同様時間的に縮めて見せる方法(時間展開型)と平面上に展開して一覧させる方法(空間展開型)等がある.時間展開型には,各ショットの代表的な静止画列を次々と見せる方法,代表的な部分映像の動画列として見せる方法などがある.これらの利点は,映像の持つ時問的な文脈がある程度保存されることである.
 空間展開型には,時問の順に自然に並べる順序展開型や,映像構造をツリー構造として可視化するような構造展開型,平面を自由に使って特別な意味を持たせる表現をするコラージュ型などがある.空問展開型のブラウザは,表示面積を必要とするものの,映像の流れや内容が一目で分かる利点を持つ.表示結果を紙にプリントすることのできるペーパビデオ(4)は,カタログとして映像の一覧や整理に役立つ.また図3のように,ウィンドウを一定時間ごとに(例えば1秒)サンプルし,横に並べていき,カット点で折り返した表現もある.これは映像の編集過程などを含めた映像構成を視覚的に把握するのに役立つ(4).
 これらのブラウザで用いられる代表画像としてカット点直後のフレームがよく利用されるが,必ずしも良い表現とはならない.例えば,パン・チルトなどのカメラワークが含まれている場合がそのケースである.こういう場合には,図4のように,安定したカメラ操作が続いている部分をパノラマ化した画像を用いた表現が効果的である(PanoramaExcerpts(5)).これにより,カメラワークと内容が同時に一覧できる.ブラウザの粗さの自由度に関しては,ブラウザの時間的な解像度を可変としたり(6),粗くする際に類似の画像を省く(7)などの工夫がある.
パノラマ表現:映像には時間的に連続した画像が含まれるため,パノラマを作るための情報は豊富にある.さらに,被写体の動きに関する情報も持つため,種々の表現や利用系を考えることができる.
 図5は陸上選手が走り幅跳びをしている映像から創り出したパノラマ画像である.背景のずれ具合からカメラワークを検出し,それをもとにフレーム画像をずらせて重ねていく.必要があればレンズひずみなどによるゆがみを補正してつなぐ.一度こうして背景を再構成すると,その空間の中で被写体を再生したり,あるいは時間等間隔で被写体をはり付けることができる.これにより,対象のストロボ的な表現ができ,つまり動きの軌跡やスピード情報を画像として定着することができる.

4.映像の要約と検索---複合メディアとしての解析---

 3.で述べたのは,比較的短い断片や,その集まりを提示する技術であった.より長い映像については,どのような方法が考えられるだろうか.当然のことだが,すべてを同時に表示することができなくなるため,要約と検索が必要となる.

4.1インデクシングと検索
 映像の意味的なインデクシング(タグ付け)が簡単な問題でないのは,すぐに想像がつくだろう.ユーザが必要とする情報には様々なものがあるが,現在の画像や音声の認識技術は一般的な映像中の一般的な対象を認識できるまでに至っていないからである.このような現状でも利用できる映像処理技術を目指したものとして,以下のようなものがある.
 CMUのInformediaプロジェクト(8)では,千時間を越えるニュース映像,教育用のドキュメンタリー映像が蓄積され,音声入力やタイプ入力によって,これらを検索することができる.それを可能にしているのは,発話の書き起しデータ(Transcript)(注2)である.このシステムではユーザの検索要求内の単語を用いてtran‐script中の英語を検索し,該当した映像の断片を提示することにより,ユーザの要求にこたえる.この際のタグ付け,検索の方法は従来から文書検索でよく用いられているTFIDF(単語の出現頻度に関する統計)を基にしている.
 映像自体に十分な情報が含まれていない場合も多い.このような場合には,外部データと関係付けることによって,不足する情報を補ったり,構造化の助けとすることができる.それを試みたものとして,渡辺らの研究がある(9).彼らは,映像中のテロップ(字幕)と新聞記事中の文章を用いて,ニュース映像と新聞のWWWページとを対応付ける方法を提案している.これにより,ニュース映像に足りない部分を新間記事によって補うことが可能になる.
言語だけでなく,画像情報を有効に利用した例として,佐藤らのName‐Itシステムがある(10).映像中の人物は,ナレーション等で与えられる名前,または顔の双方から識別できる.ただし,実際には片方だけしか与えられない場合も多く,両者のどちらからでも映像のタグ付けや検索ができることが望ましい.また,映像中の顔,名前から他方が検索できれば,種々の人物情報を提示するための有効な手段となる.図6に示すように,Name‐Itシステムでは,顔と名前の両方が与えられている映像部分を学習データとして用いて,顔と名前の対応のデータベースを作成する.

4.2構造化と要約  映像の構造を解析することと要約には密接な関係がある.映像の構造がある程度モデル化できれば,目的に応じた要約が可能である.例えば,特定の目的を持った断片を提示することによって,分かりやすい一覧などを作ることができる.
 ニュース映像,スポーツ映像は比較的分かりやすい構造を持った映像であり,その構造解析について多くの研究が報告されている(例えば,文献(11)〜(14)等).青木らの研究では,ニュース香組の索引付け,分類を行うために,ニュースキャスターが映っている画像の検出,音声による話者認識,テロップの文字認識を用いている(15),その他,コマーシャル映像にも一定の構造があり,それを基に各カットの意味付けができることも報告されている(16).
 また,更に細かい構造に対する処理も試みられている.中村らはニューストピック内の構造解析方法と,それを中心としたニュース映像の構造化と要約法を提案している(17).この研究では,ニュース映像の中でスピーチ,会合等の人の集まり,訪問等,特定の状況を説明する部分が重要な役割を果していることに注目し,これらを手がかりに映像の断片を意味付けして整理し直す方法を提案している.その結果を,例えば図7のように時間を追って並べれば,ニューストピックの要約が出来上がる.
 要約を映像の形で提示することも有効な方法である.映像から本当に見るべき(重要な)部分を選択し,それをつなぎ合わせることができれば,要約映像が出来上がる.これに関して,SmithらはVideo Skimmingと呼ばれる手法を提案している(図8)(18).映像の長さを数分の1から数十分の1まで縮め,早見をすることが目的である.この手法では,まず,Transcript中の重要語を選択する.次に,これらの単語が話された周辺で,特徴的な映像区間と音声区問を別々に選択し,それらを合成する.得られた部分をつなぎ合わせることにより,Skim Videoと呼ばれる要約映像が出来上がる.

5.おわりに

映像処理の範囲は広く,様々な処理が含まれるが,本稿では見せる技術と要約・検索する技術を中心に紹介してきた.これらは人間が映像を扱う上で特に重要な問題であり,映像利用の環境を大幅に改善するためのものである.3.で述べた新しいインタフェースは,映像の分かりやすいダイジェストを自動的に作成し,好きなときにアルバム的に楽しむことを可能にする.また,ビデオテープライブラリやビデオテープの倉庫の内容のカタログ化を行えば,今まで蓄積されてきた映像の二次利用がより促進される.さらに,大規模な映像データベースに3.,4.で述べたような映像要約・検索が備われば,これまでになかった,新しい形の知識ベースが生まれる.
 最後に述べておきたいのは,本稿で述べてきた映像処理の技術はまだ歴史が浅く,これからの一層の研究を必要としていることである.特に,映像が複合メディアであるという性質上,種々の分野の技術と人材を必要としている.本稿が,少しでも多くの人に映像処理に対する興味を持っていただけるきっかけとなれば幸いである.

文 献


なかむらゆういち
中村 裕一 (正員)
昭60京大・工・電気卒.平2同大学院博士課程了.同年京大・工・助手.平5筑波大電子・情報工学系講師.現在,機能工学系助教授.博士(工学).画像理解,映像処理,自然言語処理などの研究に従事.平8カーネギーメロン大ロボティクス研究所客員研究員.情報処理学会,人工知能学会各会員.

とのむらよしのぷ
外村 佳伸 (正員)
昭56京大・工・修士課程了.同年日本電信電話公社(現NTT)に入社.以来,画像を中心としたメディア変換装置の研究・開発,映像ハンドリング技術の研究,マルチメディアインタフェースの研究に従事.1987−1988米国MITメディア研究所客員研究員.現在,NTTサイバーコミュニケーション総合研究所インテリジェントメディアプロジェクトマネージャー.


戻る