複合データ分析技術とNTF[・完]――テンソルデータの因子分解技術と実応用例――
Vol.99 No.7pp.691-698
発行日:2016/07/01
Online ISSN:2188-2355
Print ISSN:0913-5693
種別:解説
専門分野:
キーワード:
非負値テンソル因子分解, スパースデータ, 高速化,
本文:PDF(1.8MB)>>
あらまし:
近年データ分析の分野において非負値行列因子分解(NMF: Non-negative Matrix Factorization)が高い注目を集めている.NMFは,データを行列表現することによって,データの持っている潜在的パターン抽出とその要因分析を行うことが可能な技術として,幅広い分野で利用されている.NMFの高次拡張技術である非負値テンソル因子分解(NTF: Non-negative Tensor Factorization)は,より高次のデータを扱うことのできる技術であり,様々なデータに対して要因をより詳細に,かつ多角的に分析することが可能であり,近年更に注目を集めている.例えば,マーケティングサイエンスにおける購買ログ分析では,ユーザの商品し好分析だけでなく,し好の移り変わりや,販促時期や購買店舗の分析など,より詳細かつ多角的な要因分析が必要とされている.三次以上のテンソルデータを分析可能なNTFでは,(ユーザ)×(商品)×(購買店舗)を同時に因子分解することによって,「子供のいる主婦層はスーパーマーケットで食玩やお菓子をよく購入する」などの,複数要因の同時分析が可能となる.一方,分析因子要素を増やすことは同時に計算量の増加にもつながる.実世界のデータ分析においては疎(スパース)なデータを扱うことも多く,アルゴリズムや実装上の工夫により計算を効率化させることが必要不可欠である.本稿では,スパースデータの非負値テンソル因子分解技術に関する定式化及び実データを用いた分析技術を合わせて紹介する.