[ English | Japanese ]

研究概要





学習の種類


教師付き学習

教師付き学習は,入力(質問)と出力(答え)の組からなる訓練データを用いて, その背後に潜んでいる入出力関係(関数)を学習する問題である. ひとたび関数をうまく学習することができれば, 学習していない入力に対する出力を予測することができるようになる. すなわち学習機械は未知の状況に汎化できるようになる. できるだけ少ない訓練データから最高の汎化能力を獲得することが教師付き学習の研究の目標である. 教師付き学習問題は,標本から関数を近似する問題に定式化できる.

supervised learning

教師なし学習

教師なし学習は,文字通り教師がいない状況での学習であり, 出力(答え)の無い入力データのみが与えられる. 教師なし学習の目的は状況によって異なり,数学的にきちんと定式化できない場合が多い. 例えば,入力データの似たもの同士をグループ化するクラスタリングがその典型的な例である. クラスタリングではデータの類似度をどう定義するかが重要であるが, どの類似度が用いるのが適切かを定量的に評価する基準はなく, 主観的に決めることが多い.

半教師付き学習

教師付き学習では入力と出力の組からなる訓練データが与えられ, 教師なし学習では入力だけの訓練データが与えられる. 半教師付き学習は,これらの中間の状況に対応する学習問題であり, 入力と出力の組からなる訓練データに加え入力だけの訓練データも与えられる. 半教師付き学習の目標は,教師付き学習と同じく高い汎化能力を獲得することである.

半教師付き学習では, 入出力両方が揃っている訓練データの数は少なく, 入力だけの訓練データの数は非常に多い場合を考えるのが典型的である. このような状況では,少数の入出力データだけでなく多数の入力データも用いる事により, より高い汎化能力が獲得できると期待される.

強化学習

強化学習とは,あるエージェントの行動を司る政策関数,すなわち, 状態から行動への変換関数を学習する問題である. 政策関数という入出力関係を学習する問題であるから, 強化学習の目的は教師付き学習と同じであるが, 教師付き学習と異なり,出力データを直接観測することができない. 即ち,教師なしの状況で政策関数を学習しなければならない. 但し,教師なし学習と異なり,エージェントの行動に対して報酬が与えられる. この報酬の情報を活用して,将来的に得られる報酬の和が最大になるように政策関数を学習することが強化学習の目的である.

典型的な強化学習法では,政策関数を直接学習するのではなく, 価値関数と呼ばれる,状態(と行動)から将来の報酬の和への関数を学習し, 学習した価値関数から政策関数を生成する(本:強くなるロボティック・ゲームプレイヤーの作り方~実践で学ぶ強化学習)(book: coming soon)



機械学習の理論とアルゴリズム


モデル選択

教師付き学習において高い汎化能力を獲得するためには, 学習機械(モデル)の複雑さを適切に決定することが重要である. もしモデルが単純すぎれば,学習したい真の関数を表現することができず, いくらたくさんの訓練データを用いても汎化能力は向上しない. 一方モデルが複雑な場合,学習したい真の関数を表現することはできるが, 訓練データに含まれる雑音の影響を強く受けるため, 比較的少数しか訓練データが得られない現実的な場面では良い汎化性能は得られない.

モデル選択は,教師付き学習における最も基礎的かつ中心的な研究課題である. 一般にモデル選択は,汎化能力を最大にするモデルを見つけることにより行なわれる. 従って,モデル選択研究の鍵は,如何に精度の良い汎化能力推定法を構成するかということである.

model selection

不偏モデル選択規準

我々は関数解析的な立場からこのモデル選択の問題に取り組み, Subspace Information Criterion (SIC)という汎化能力推定量を開発した(Neural Computation, 2001). 従来の汎化能力推定法ではデータに関する平均的な意味での性能が保証されていたが, SICはより個々のデータに依存した形,即ち,条件付き平均の意味で性能が保証される. そのため,SICは一回一回の試行に対する性能がよい(Machine Learning, 2002). SICはもともとは線形回帰における部分空間モデルの選択規準であったが,その後, 線形リッジ回帰における正則化パラメータの最適化規準(Neural Networks, 2002), スパース線形回帰のおける正則化パラメータの最適化規準(IEEE Transactions on Neural Networks, 2002)(電子情報通信学会論文誌, 2002), カーネルリッジ回帰における正則化パラメータの最適化規準(Journal of Machine Learning Research, 2002)へと拡張された. また,訓練データの入力に雑音が加わる場合のSICの性能を理論的に評価した(Neural Information Processing - Letters and Reviews, 2004). 更に,SICを非線形なパラメータ学習法に適用できるように拡張した(IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 2007). これらの研究成果に対して,2001年に日本神経回路学会より奨励賞が, 2003年に財団法人船井情報科学振興財団より船井情報科学奨励賞が, 2003年に財団法人手島工業教育資金団より手島記念研究賞(中村研究賞)が授与された.

正則化モデル選択規準

上記のSICを含め,従来のモデル選択規準の性能はその不偏性で評価されるのが一般的である. しかし,不偏だからといってそのモデル選択規準の性能がよいとは必ずしも限らない. モデル選択規準の分散も考慮することが重要である. このような立場から,平均二乗誤差の意味でSICよりも精度の良い修正SIC(cSIC)を提案した(IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 2003). 更に,より積極的にSICの分散を軽減する正則化SIC(RSIC)という規準を提案し, 不偏性をわずかに犠牲することにより,大幅に分散を軽減できることを示した(Neural Computation, 2004). RSICにより,モデル選択の安定性・信頼性が大幅に向上した. また,RSICによる最適なモデルを解析的に求める手法を提案し,モデル選択の精度と効率を更に向上させた:縮小回帰(IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 2006), 適応リッジ回帰(IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 2007). ところで,RSICではモデル選択規準そのものに正則化パラメータが含まれており, それをメタモデル選択規準を用いて決定する. 我々はこのメタモデル選択規準を改良し,更にモデル選択の安定性・信頼性が向上することを示した(IEICE Transactions on Information and Systems, 2007). .

能動学習

教師付き学習において, 入力(質問)をうまく決めれば,少数の訓練データから精度良く学習を行うことができる. この問題を能動学習(または実験計画)とよぶ. 能動学習では,学習機械の汎化性能を,訓練データを採取する前に推定する必要がある. 従って,能動学習は一般にモデル選択よりも困難な問題である. 特に,学習機械のバイアス(平均的な性能)を訓練データを採取する前に推定することは非常に困難であり,能動学習研究の鍵である.

active learning

単一のモデルに対する能動学習

標準的な能動学習法では, モデルが正しい(すなわち,学習したい真の関数がモデルに含まれている)という仮定のもと, 学習機械の分散を最小にするように入力点の配置を決定する. この標準的な方法は,実は二段階の入力点設計を行っている. すなわち,第一段階は暗にバイアスを減らしており,第二段階では分散を最小にしている. しかし従来の方法では,第二段階の意味でしか入力点配置の最適化を行っておらず, 第一段階では分散は実は増加してしまうことを明らかになった. そこで我々は,二段階逐次型能動学習法を提案した(Neural Computation, 2000). この方法では,第一段階における分散の増加を最小限に抑えながら バイアスを減らすことにより,より高い汎化性能が得られる. この研究成果を含む博士論文が, 2002年に財団法人手島工業教育資金団の手島記念研究賞(博士論文賞)に選ばれた.

上記の手法は非常に実用的である. しかし,これは逐次型の能動学習法, すなわち,入力点の場所を一つ一つ順番に決めていく方法である. 従って,この方法では一般に大域的な最適解を得ることができない. 理論的には,全ての入力点を同時に最適化する一括型の能動学習法が最適である. 我々は,学習したい真の関数が三角多項式空間に含まれている場合に適用できる最適一括型能動学習法を開発し, その理論的性質,幾何学的構造を明らかにした(IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 2001). この研究成果に対して,2000年に電子情報通信学会より学術奨励賞が授与された.

上記の手法では,モデルが正しいことを仮定していた. しかし現実的な場面ではモデルが正しいとは限らない. 従って,そのような場面でもうまく働く能動学習法を開発することは非常に重要であるが, これは非常に困難であることが知られている. なぜならば,モデルが正しくない場合,バイアスを評価するのが非常に難しいからである. 正しくないモデルに対しては, 重要度重み付き最小二乗法を用いればバイアスを漸近的に最小化できることが知られている. そこで我々は,重要度重み付き最小二乗法を用いた一括型能動学習法ALICEを提案した(Journal of Machine Learning Research, 2006). ALICEはバイアスを漸近的に最小するという条件のもとで, 分散を最小化する入力点の取り方を与えることが理論的に保証される. ALICEはロボット制御における効率的な標本収集政策の設計に応用されている.

ALICEは任意の場所に入力点を配置できる場合に有効な能動学習法である. 一方,現実的な場面では,有限個の入力点が与えられ, その中で最もよい入力点を選ばなければならない事もある. このような状況での能動学習は,プールに基づく能動学習とよばれる. 我々はALICEをプールに基づくALICE (P-ALICE)に拡張し, その有効性を大規模シミュレーションにより示した(Machine Learning, 2009). PALICEは,半導体露光装置における半導体ウェハーの位置合わせに応用されている.

複数のモデルに対する能動学習

モデル選択と能動学習はともに汎化能力を向上させるという共通の目的があるにもかかわらず, これまでは個別に研究されてきた. モデル選択と能動学習を同時に行えば,更に汎化能力を向上させることができると考えられる. しかしながら,従来のモデル選択法と能動学習法を単純に組み合わせて, モデルと入力点を同時に最適化することはできない. なぜならば,従来のモデル選択法を用いるためには, あらかじめ訓練入力点を決定し対応する訓練出力値を採取しておく必要があり, また,従来の能動学習法を用いるためには, あらかじめモデルを決定しておく必要があるからである. これをモデル選択と能動学習のジレンマという.

我々は,三角多項式モデル群に対しては全てのモデルに対して共通の最適入力点が存在することを証明した. そして,この結果に基づいて, 三角多項式モデル群に対するモデルと入力点の同時最適化アルゴリズムを提案し, モデル選択と能動学習のジレンマをうまく回避できることを示した(IEICE Transactions on Information and Systems, 2003)

更に,我々は上記の手法を拡張し, 一般のモデル群に対して適用できるアンサンブル能動学習法を開発した(Neural Networks, 2009)

追加学習/オンライン学習

教師付き学習において訓練データが逐次的に与えられるとき, 学習を一からやり直すことなくこれまでの学習結果を更新することができれば効率が良い. 逐次的に学習を行うことを追加学習(あるいはオンライン学習)という.

我々は,逐次的な計算だけで全てのデータを用いた一括学習と全く同じ学習結果が得られる射影追加学習(IPL)を提案した(Neural Networks, 2001a). そして,その理論的性質を明らかにした(Neural Networks, 2001b). IPLは逐次型の能動学習アルゴリズムの開発に役立っている. また,IPLに基づいた神経回路網の構築法も開発した(IEICE Transactions on Information and Systems, 2002). これら一連の追加学習に関する研究成果に対して, 1998年に財団法人電気・電子情報学術振興財団より猪瀬学術奨励賞が授与された.

オンライン学習は,密度比推定の文脈でも重要である. 我々は,密度比推定アルゴリズムKLIEPのオンライン版を開発し, 時系列の変化点検知実験を通してその有効性を示した(SDM2009)

次元削減/特徴抽出/特徴選択

入力データが高次元のとき,データからの学習が非常に困難になることが知られている(“次元の呪い”). 入力データの次元をうまく減らすことができれば,その後の学習が行ないやすくなる. 次元削減の目的は,本質的な情報を失うことなくデータの次元を削減することである. もとの特徴の部分集合を低次元表現として取り出すとき,次元削減は特徴選択とよばれる. 一方,もとの特徴の(非線形)結合として低次元表現として取り出すとき, 次元選択は特徴抽出と呼ばれる. 生物学や化学などの科学的な応用場面では予測能力よりも学習結果の説明能力が重視されるため, 特徴選択が好まれる. 一方,パターン認識などの工学的な応用場面では, 予測能力が重要なため特徴抽出の方が有用である.

教師付き次元削減

教師付き次元削減では,出力を最も良く説明する入力変数の部分集合,および,入力空間の部分空間を見つけることが目的である.
判別分析
分類問題における教師付き次元削減の典型的な方法は,フィッシャー判別分析(FDA)であろう. FDAは各カテゴリのデータが共分散構造の等しい正規分布に従うとき, 最適な結果が得られる. しかし,各カテゴリのデータが複峰性のとき,例えば,あるカテゴリに属するデータが複数のクラスタに分かれている時,FDAでは望ましい結果が得られない. そこで我々は,データが複峰性の場合に有効な局所フィッシャー判別分析(LFDA)を開発した(Journal of Machine Learning Research, 2007)(software). この研究成果に対して,2007年に人工知能学会より研究会優秀賞が授与された.

十分次元削減
回帰問題・分類問題両方に対する一般的な次元削減アプローチの一つである十分次元削減は, 入力空間の中から出力と独立な部分空間を見つける問題である. 我々は,密度比推定の手法を応用した十分次元削減法を開発した(AISTATS2010)

半教師付き次元削減

入力と出力の組からなる訓練データに加え入力だけのデータも与えられる半教師付き学習においては, 入力だけのデータも活用することによりより良い次元削減結果が得られると期待される.

我々は半教師付き分類問題に対して, 教師なし次元削減法の一つである主成分分析と教師付き次元削減法である局所フィッシャー判別分析を融合させた半教師付き局所フィッシャー判別分析(SELF)を開発した(Machine Learning, 2010), (software). 更に,超高次元大規模スパースデータに対するSELFの効率的な実装法であるスパースSELF(SSELF)を開発し, その有効性を自然言語処理の重要課題の一つである文書分類実験により示した(IEICE Transactions on Information and Systems, 2009), (software)

教師なし次元削減

教師なし学習においても次元削減は重要である. 教師なし次元削減では, データの本質的な情報をできるだけ維持したまま次元数を削減するのが目的であるが, 本質的な情報とは何かなどの曖昧さがあり,一般的には厳密に議論しにくい問題である.

非正規成分分析
我々は,もとのデータが低次元線形部分空間に含まれる信号成分と, それ以外の雑音成分に分解することができるという設定のもと, 信号成分が含まれる部分空間をデータから学習する問題を議論することにした. なぜならば,このような設定では教師なし次元削減の問題が厳密に定式化できるからである. 信号成分が非正規分布に従い雑音成分が正規分布に従うとき, 射影追跡法(PP)によって信号成分を見つけることができる. PPではあらかじめ射影指標と呼ばれるデータの正規性を測る指標をユーザがひとつ指定する必要がある. しかし,ある標準的な射影指標は超正規分布を探索するのに有効であり, また,別の典型的な射影指標は副正規分布の探索に有効であることが知られている. 従って,データが超正規分布と副正規分布の両方を含む場合, 有効な射影指標を一つ定めることは困難であった.

この問題に対処するため, 我々は非正規成分分析(NGCA)という, セミパラメトリック統計に基づく非常に一般的な教師なし次元削減の枠組みを提唱した. そして,NGCAの枠組みのもと, 多指標射影追跡法(MIPP)を提案した(Journal of Machine Learning Research, 2006). MIPPでは無数の射影指標を同時に扱うことができるため, データが超正規分布と副正規分布両方を含む場合でも,適切に次元削減を行うことができる.

MIPPによって従来のPPの弱点を克服することができたが, MIPPがNGCAの枠組みのもとで最適な次元削減法ではない. そこで我々は,逐次計量適応法(IMAK)を開発し, 信号部分空間の推定精度が更に向上することを示した(Annals of the Institute of Statistical Mathematics, 2007)

更に我々はNGCAの手法を信号の雑音除去問題に応用し, 最良線形不偏推定量をデータから精度良く推定できるアルゴリズムを開発した(IEICE Transactions on Information and Systems, 2008)

次元削減付き直接密度推定
重要度推定/密度比推定においても次元削減は重要な課題である. 我々は,密度比を構成する分母と分子の確率密度が異なる空間を探索する枠組である次元削減付き直接密度推定(D3; D-cube)提案した. そして,局所フィッシャー判別分析(LFDA)(Journal of Machine Learning Research, 2007)と拘束無し最小二乗重要度適合法(uLSIF)(Journal of Machine Learning Research, 2009)を組み合わせた計算効率の良いD3アルゴリズムを提案した. また,分子と分母の分布の差異が最大となる空間を見つける事のできる最小二乗異分布部分空間探索(LHSS)アルゴリズムを開発した(Neural Networks, 2011)

類似度データからの学習/カーネル法

通常の教師付き学習では, 入力データを直接用いて学習を行なうが, 入力データ間の類似度を用いて学習を行なうこともできる. 全入力データ同士の類似度をまとめた行列を類似度行列とよぶ. 類似度行列が半正定値カーネルで与えられるとき, 類似度行列はカーネル行列ともよばれ, カーネル行列を用いた学習法はカーネル法とよばれる.

カーネル化

内積に基づいて表現される任意の線形アルゴリズムは, 内積を半正定値カーネルで置き換えることにより, 線形アルゴリズムの計算の簡便さを保持したまま, アルゴリズムを非線型化することができる. この考えかたにより,我々が提案している様々なアルゴリズムが非線型化できる: LFDA, SELF, SSELF(次元削減), KLIEP, LSIF, uLSIF(密度比推定).

高速化/最適化

カーネル法の計算量は訓練標本数の3乗に依存することが一般的であり, 大規模なデータセットに適用することは困難である. 我々はカーネルを用いた部分最小二乗法に対して, 自由度とエラーバーを効率良く計算できるカーネル部分最小二乗法の近似法を提案した (AISTATS2009)

カーネルに基づく分類法の一つであるνサポートベクターマシンは, 非常に有効な分類器であることが知られている. しかし,νサポートベクターマシンは厳密な定式化のもとでは非凸最適化問題を含むことが知られており, 大域な最適解を求めることは困難であった. 我々は切除平面法を用いて,大域な最適解を求めることが保証されるアルゴリズムを開発した(New Generation Computing, 2009)

また,カーネル法の高速化に関する近年の発展をまとめたレビュー論文を出版した(IEICE Transactions on Information and Systems, 2009)

スパース学習法は,説明変数が多数ある場合でも良い汎化性能が得られることから, 近年非常に注目されている. 我々は,拡張ラグランジュ関数に基づく効率の良いスパース学習アルゴリズムを開発した(IEEE Signal Processing Letters, 2009)

ロバスト性

カーネル最小二乗法は外れ値に対してロバストでないことが知られている. 我々は,l_1損失を用いたカーネル回帰法をロボット制御に適用し,その有効性を示した(ICRA2009)

類似度行列の設計

教師付き学習において高い汎化能力を得るためには, 入力データからの特徴抽出が重要である. しかしながら,入力データから明示的によい特徴を抽出するのは困難なことがある. このような場合,明示的に特徴抽出を行なうよりも, 入力データ間の類似度を決めることにより暗に特徴抽出を行なう方が汎化性能が向上することがある.

ガウスカーネル関数は非常に汎用的な類似度関数で,多くの場合に良好な結果を与える. しかし,解こうとしている学習問題に関して何らかの前提知識がある時, それを活用することにより学習の精度や効率を更に向上させることができると考えられる.

我々は,学習したい関数の事前分布の知識から得られる主成分カーネル(PCK)を提案した(IEICE Transactions on Information and Systems, 2006). そして,関数が0と1の二値しか取らない二値回帰問題に対して, 具体的なPCカーネルを構成し,その有効性を示した.

強化学習における価値関数の学習でもガウスカーネル関数がよく用いられるが,この場合でも事前知識を用いることにより, 更に良いカーネル関数を構成することができる. 我々は,価値関数が定義されている状態空間の非線形多様体構造を利用した測地線ガウスカーネル(GGK)を提案し, ロボットアームの運動制御やKheperaロボットの行動制御問題においてその有効性を示した(Autonomous Robots, 2008)(demo)

複数の類似度行列からの学習

標準的なカーネル法は単一の類似度行列から学習を行なうが, 複数の類似度行列が与えられる場合もある. 複数の類似度行列からもたらされる情報を組み合わせることによって, 汎化性能が更に向上すると期待される. 我々は,複数の類似度行列から学習できる新しい手法を提案した. 提案法は,ノイズの多い類似度行列の影響を自動的に抑制することにより, ロバストに学習を行なうことができる(IEEE Transactions on Neural Networks, 2009)

非半正定値類似度行列からの学習

教師付き学習において, 入力データそのものは与えられず,入力データ間の類似度しか観測できない場合がある. 類似度行列が半正定値のときはカーネル法を用いることができるが, 現実的なデータに対する類似度行列は半正定値性を満たすとは限らない. そこで我々は,よい汎化能力を得るために類似度行列が満たすべき必要条件を導き, その理論に基づいたブースティング型の学習アルゴリズムを提案した(Neural Computation, 2009)

異なる分布下での学習

通常の教師付き学習では, 訓練時に用いるデータとテスト時に与えられるデータが同じ確率分布に従うと仮定する. しかし,現実問題においてこの仮定が必ずしも成り立っているとは限らない. 例えば,データを生成する機構が非定常の場合, 訓練データとテストデータの分布は一般に異なる. 分布の違いのため,このような状況では訓練データをそのまま用いるだけでは高い汎化能力は得られない.

我々はこのテーマに関するワークショップをNIPS2006にて共同開催し, 本を編集した(Dataset Shift in Machine Learning). また,共変量シフト適応に関する本を出版した (book: coming soon)

共変量シフト適応

入出力関係(関数)は訓練時とテスト時で変わらないが, 訓練入力とテスト入力は異なる確率分布に従うという状況を共変量シフトとよぶ. 共変量とは統計学における入力点の呼び名である. 訓練データがあまり無い場所での出力を推定する外挿問題は共変量シフトの典型的な例である. また,能動学習を行なえば, 自然と共変量シフトが起こる. 共変量シフト適応は, 入出力訓練データと入力のみのテストデータをが与えられたもとで, 真の関数(これは変化しない)を推定する問題である(日本神経回路学会誌2006)(画像ラボ2007)(article in a book)

covariate shift

我々の提案しているSICを含め,従来のモデル選択規準の不偏性は共変量シフト下ではもはや成り立たない. そこで我々はSICを拡張し,共変量シフト下でも不偏性を維持できる重要度重み付きSIC(IWSIC)を提案した(Statistics & Decisions, 2005)

IWSICは二乗損失関数に特化しているため,分類問題には適用できない. そこで我々は,分類問題における標準的なモデル選択法である交差確認法を拡張した重要度重み付き交差確認法(IWCV)を開発し, その有効性を示した(Journal of Machine Learning Research, 2007)

また,共変量シフトが特異モデルのベイズ推定に与える影響を理論的に解明した(ICML2007)

共変量シフト適応の手法は, ブレインコンピュータインターフェースロボット制御音声信号処理自然言語処理コンピュータビジョン など様々な実問題に適用され,その有効性が実証されている.

これらの一連の研究成果に対して, 2007年にIBM Faculty Awardが授与された.

ドメイン適応/転移学習

ドメイン適応/転移学習では,入力分布だけでなく関数そのものも訓練時とテスト時で 変化する場合を考える事が多い. もし分布の変化に制約がなければ, 一般にテストの関数は訓練データと無関係であり, 訓練データからテストの関数に関して何も学習できない. 従って,意味のある議論をするためには, 分布の変化に適当な制約を仮定する必要がある.

我々は,訓練入出力分布は二つの分布の混合分布であり, テスト入出力分布は二つのうちのどちらかの分布であるという制約のもと, 入出力訓練データと入力テストデータからテスト関数を推定する方法を提案した(NIPS2006)

また,似たタスクの解と近くなるように学習する転移学習手法を提案し, その有効性を生物ネットワーク推定で実証した(International Journal of Knowledge Discovery in Bioinformatics, 2010)

マルチタスク学習

複数の学習問題を解くとき, 似た問題同士で何らかの情報がで共有されている可能性があるため, それぞれの学習問題を個別に解くよりも全てをまとめて解いた方が高い汎化性能が得られると考えられる. これは,複数の学習問題に対するドメイン適応を同時に行なっていると解釈できる.

我々は,それぞれの学習問題から(少数の)入出力データが与えられるという設定のもと, 複数の問題間で情報を共有しながら複数のサポートベクターマシンを同時に学習する手法を開発した(IEEE Transactions on Knowledge and Data Engineering, 2010)

重要度推定/密度比推定

重要度とは,二つの確率密度関数の比のことである. 重要度推定とは,二つの確率分布から生成された二つのデータ集合を用いて, 重要度を推定する問題である(book: coming soon)

重要度は,それぞれの分布から生成されたデータを用いて確率密度関数を推定し, その比をとることによって単純に解くことができる. しかし確率密度関数を精度よく推定することは難しいため, このような単純な方法は好ましくない. 我々は,重要度関数を直接モデル化し, 確率密度関数を推定することなく重要度関数を推定できるカルバック・ライブラー重要度推定法(KLIEP)を提案した(Annals of the Institute of Statistical Mathematics, 2008)(software). そして,KLIEPの改良アルゴリズム,log-linear KLIEP (LL-KLIEP)(Journal of Information Processing, 2009), Gaussian-mixture KLIEP (GM-KLIEP) (IEICE Transactions on Information and Systems, 2009), Probabilistic-PCA-mixture KLIEP (PM-KLIEP) (IEICE Transactions on Information and Systems, 2010)を開発した. また,二乗損失を用いた,最小二乗重要度適合法(LSIF),および 拘束無し最小二乗重要度適合法(uLSIF)を提案した(Journal of Machine Learning Research, 2009)(software). LSIFでは正則化パスを求めることができるため,モデル選択を含めた計算時間が大幅に短縮できる. またuLSIFでは重要度推定量および一つ抜き交差確認値が解析的に計算できるため,計算効率が非常に良い. また,uLSIFは条件数解析の文脈において優れた安定性を有していることを証明した(coming soon)

高次元空間において密度比推定を精度良く行うためには, 次元削減が重要である. 我々は,密度比を構成する分母と分子の確率密度が異なる空間を異分布部分空間と名づけ, それを探索しながら密度比を推定する新たな枠組である次元削減付き直接密度推定(D3; D-cube)提案した. そして,局所フィッシャー判別分析(LFDA)(Journal of Machine Learning Research, 2007)と拘束無し最小二乗重要度適合法(uLSIF)(Journal of Machine Learning Research, 2009)を組み合わせた計算効率の良いD3アルゴリズムを提案した. また,分子と分母の分布の差異が最大となる空間を見つける事のできる最小二乗異分布部分空間探索(LHSS)アルゴリズムを開発した(SDM2010)

密度比推定には, 非定常環境適応外れ値検出相互情報量推定条件付き確率推定など様々な応用例がある. これらをまとめた解説論文を出版した (IPSJ Transactions, 2009)(数理解析研究所講究録, 2010)(統計数理, 2010)

相互情報量推定/ダイバージェンス推定

相互情報量は情報理論における重要な量であり, 同時分布から周辺分布の積へのカルバック・ライブラー情報量と等しい. 従って,相互情報量は確率変数間の統計的独立性の判定に用いることができる. 密度比推定の手法に基づいて, 最尤推定相互情報量(MLMI)という相互情報量推定量(FSMI2008)(software), および,その二乗損失版である最小二乗相互情報量(LSMI)(BMC Bioinformatice, 2009)(software)を提案した.

相互情報量推定量は, 次元削減独立成分分析因果推論などに利用できる.

外れ値検出

外れ値検出は,データ集合中の“正常でない”標本を見つける教師なし学習問題である. 統計的な定式化のもとでは, 確率密度の値がある閾値より小さければその標本は外れ値だとみなされる. 従って,もしデータの確率密度関数が分かれば, 統計的外れ値検出の問題は完全に解けることになる. しかし,特に高次元の問題では密度推定は非常に難しい問題であり, 密度推定を避けることが望ましい.

我々は,外れ値を含まない訓練データ集合が与えられたもとでテストデータ集合に含まれる外れ値を検出するという外れ値検出問題を考え, 重要度を用いて外れ値を検出する手法を提案した. 重要度は,密度推定を介することなく推定できるため, 提案法は高次元の問題でも良い性能を発揮する(Knowledge and Information Systems, 2011)(software1)(software2)

独立成分分析

独立成分分析とは,複数の信号が混合された状況において, 統計的に独立な信号に分解する問題であり,音声信号処理などの分野で盛んに研究されている. 独立成分分析の研究では,信号間の統計的独立性をどうやって評価するかが重要である. 我々は,密度比推定による相互情報量推定法を用いた独立成分分析アルゴリズムである最小二乗独立成分分析(LICA)を提案した(Neural Computation, 2011)

因果推論

ペアの確率変数(X,Y)が相関を持つとき,Xの結果Yになったのか,逆にYの結果Xになったのか, あるいは,XとYには因果関係は無いのかを検証することは非常に重要である. 我々は,密度比推定による相互情報量推定法を用いた因果推論アルゴリズムである最小二乗独立性回帰(LSIR)を提案した(AAAI2010)

条件付き確率推定

条件変数が連続の場合の条件付き密度の推定は単純な問題ではない. 我々は,多次元の連続変数に対して有効な, 最小二乗条件付き密度推定量(LSCDE)(IEICE Transactions on Information and Systems, 2010)とよばれる推定手法を提案した. LSCDEは密度比推定法に基づいている. 同様の考え方は,分類問題においてクラス事後確率を推定する確率的パターン認識にも応用できる. 我々の提案している最小二乗確率的分類器(LSPC)とよばれる手法は,従来手法と同程度のパターン認識性能を維持しながら,学習時間を数百倍計算時間を短縮することができる(IEICE Transactions on Information and Systems, 2010), (software).

リスク考慮型学習

最小二乗法などの一般的な教師付き学習法では, 訓練データに対する平均誤差を最小にするように関数を学習する. これにより,学習機械の平均的な汎化性能は保証されるが, 手元にある一組のデータセットから得られる汎化能力が必ずしも高いとは限らない. このようなリスクうまく扱うためには,誤差の平均だけでなく, 誤差の分布そのものを考慮して学習アルゴリズムを設計する必要である.

我々は,ブースティング学習が誤差の分布をうまく制御していることを証明し, その有効性に対する新たな理論的説明を与えた(COLT2008). また,νサポートベクトルマシンが条件付きバリューアットリスク(CVaR)と呼ばれる誤差尺度を最適化している事を示し,その汎化性能を理論的に解明した(New Generation Computing, 2009)

リスクの制御は,逐次的な意志決定を行なう強化学習の枠組においても非常に重要である. 我々は,強化学習の枠組において様々なリスク指標を最適化する手法を与えた(IEICE Transactions on Information and Systems, 2010). 更に,将来得られる報酬和の分布を推定する新しい枠組を提案し,リスクを制御する様々なアルゴリズムを開発した(UAI2010)(ICML2010)

低ランク近似

雑音が重畳されていたり欠損値のある行列が与えられたとき, 低ランクの行列で近似すれば雑音を除去したり欠損値を埋めることができる.

低ランク拘束条件をつけて行列を近似すると最適化問題は非凸になってしまい, 良い解を求めることは困難になる. この問題を回避するためには,トレースノルム正則化が有用である. トレースノルム正則化は凸関数であり,特異値に対してl1正則化として働く. 従って,特異値をスパースにすることができ,結果として凸最適化によって低ランク行列を得ることができる. しかし,トレースノルム正則化の不連続性のため,大規模な最適化を行うことは困難である. そこで,拡張ラグランジュ関数に基づく効率の良い低ランク近似アルゴリズムを開発した (ICML2010)

低ランク近似の別のアプローチとして,行列分解がある. すなわち,元の行列を「細い」行列の積に分解する. 行列分解モデルは冗長であり,識別性がない. 変分ベイズの枠組みにおいて, 行列分解モデルは事前分布が平らであっても正則化が起こることを示した(ICML2010). これは,識別性のあるモデルと顕著に異なる振る舞いである. 変分ベイズ行列分解の解は,通常は繰り返しアルゴリズムによって求められる. 変分ベイズ行列分解の最適化問題は非凸であるが, 大域的最適解を解析的に計算できることを示した (NIPS2010)



機械学習の応用


降水量予測

我々の提案しているモデル選択規準SICを降水量予測に適用した. この手法は,2000年度電子情報通信学会総合大会シンポジウム 降水量推定コンテストにおいて推定精度第1位を獲得した.

画像復元

雑音や手ブレによって劣化した画像をきれい復元する問題は, 教師付き学習問題と数学的には等価である. 我々は画像復元フィルタの最適化問題をモデル選択問題として定式化し, SICを用いた画像復元フィルタ設計法を提案した(IEICE Transactions on Information and Systems, 2001). この論文はその独創性と有効性が高く評価され, 2002年に東京電機大学丹羽記念会より丹羽記念賞が授与された. 更に,この手法を更に発展させた統合的な画像復元フィルタの設計法を提案した(Signal Processing, 2002)

画像復元において,主観的にきれいな画像を生成するだけでは不十分な場合がある. 例えば,防犯カメラに捕らえられた顔を復元するとき, もとの画像に主観的な変更を加えないようにしなければならない. このような場合,画像の劣化過程をモデル化し, それに従って画像復元を行っていくアプローチが有効である. 我々は,この考え方に基づいて, 我々は歴史的に重要なカメラの画像の復元を行い, 日本のカメラ史の解釈に貢献した(Technical Report, 2004)

ブレインコンピュータインターフェース

ブレインコンピュータインターフェース(BCI)とは, 脳波でコンピュータを操作するユーザインターフェースのことである. マウスやキーボードを使うことなく,脳波で直接コンピュータを操作することができれば, 手足が動かない患者もコンピュータを快適に使うことができるようになる. また健常者も,脳波の情報を用いることにより, コンピュータの操作をより快適に行うことができるようになる. BCIには,その時間分解能からEEG信号を用いることが多い. すなわち,右や左などのユーザの意思の情報を含むEEG信号を教師付き学習手法によってコンピュータ操作命令に分類する. しかし脳の非定常性により,EEG信号は訓練時とテスト時で特性が異なることが知られている. 従って,標準的な教師付き学習の手法は適切に働かない.

我々は,この非定常性を共変量シフトとしてモデル化し, IWCVを適用した.その結果,BCIの認識性能が向上した (Journal of Machine Learning Research, 2007)(IEEE Transactions on Biomedical Engineering, 2010)

微細表面形状測定

光干渉顕微鏡を用いることにより,ナノメートル単位の微細表面形状を測定することができる. この微細表面形状測定問題は, 教師付き学習の一例として捉えることができる.

従来のほとんどの表面形状測定アルゴリズムでは,干渉光の強さを位相を変えながら何度か測る必要があった. しかし,表面形状測定装置は工場など振動の多い環境で使われることが多く, そのような場合,複数回の計測を必要とする手法は精度が大きく低下してしまう. この問題に対処するため,我々は, たった一度の計測から効率良く正確に表面形状を再構成できる局所モデル適合法(LMF)を開発した (Applied Optics, 2006). 更に,LMF法の誤差要因を理論的に解析し,更に精度を向上させた補間型LMF法(iLMF)を提案した(Applied Optics, 2009). また,LMF法の局所領域を適応的に決定できる反復再重み付け局所モデル適合法(IRLMF)法を提案した(Applied Optics, 2010)

LMF法を含む単色光原を用いる測定法は, 位相の周期性のため測定可能な段差の最大の高さが大きく制限される. 測定可能な段差の最大の高さは複数の波長の異なる光源を用いることにより拡張する事ができるが, 複数回の計測を必要とするためLMF法などのワンショット法の特徴が損なわれてしまう という問題がある. そこで我々は,これを一度の計測によって実現する手法を開発した(精密工学会誌, 2009). この手法は,2007年のビジョン技術の実利用ワークショップ (ViEW2007)にて小田原賞第2位に選ばれた.

測定したい試料の表面が透明膜で覆われている場合,光の屈折のため従来の表面形状測定アルゴリズムでは正確に表面形状を測ることができない. また,膜の厚さを求めることもできない. この問題に対処するため,我々は表面が透明の薄膜で覆われている試料の表面の形状と透明膜の厚さを同時に測定できる手法を開発した: 白色光源(計測自動制御学会論文集, 2007), 単色光源マルチショット(計測自動制御学会論文集, 2009), 単色光源ワンショット(精密工学会誌, 2009)

ロボット制御

価値観数近似において基底関数を適切に設計することは,強化学習の重要な課題である. 我々は,測地線ガウスカーネル(GGK)をKheperaロボットの制御に適用し, 従来法よりも早く学習が行なえることを示した(Autonomous Robots, 2008)(demo)

我々は更に,オンライン学習におけるロボットの操作規則の更新が共変量シフトとして定式化できることを示した. そして,重要度重み付き交差確認法(IWCV)を応用した標本再利用型政策反復法(SRPI)を提案した(Neural Networks, 2009). また,同様の考え方を直接政策学習法に適用し,標本再利用型報酬重み付き回帰法(R^3)を提案した(ECML-PKDD2009)

ロボティックスの実問題ではデータを収集するためのコストがかかる事が多いため, よい標本収集政策を設計することは非常に重要である. 我々は,提案している能動学習法ALICEを応用し, 能動政策反復法(API)を提案した (Neural Networks, 2010)

現実的なロボット制御問題においては, 報酬の標本はセンサーで観測されることがあり,外れ値が含まれることが多い. 我々は,ロバスト回帰の手法を応用し, 最小絶対政策反復法(LAPI)を提案した (IEICE Transactions on Information and Systems, 2010) (demo)

半導体ウェハーの位置合わせ

近年の半導体は層構造を持っており, 回路パターンを何度も焼き付けることにより生成する. この過程において,ウェハーを露光装置の同じ位置に置くことが非常に重要である. そのために,ウェハー上のマーカーの位置を読み取って, ウェハーの位置と角度を調整するのが一般的である. しかし,マーカーの位置読み取りには時間がかかるため, 半導体製造の速度向上のために位置を読み取るマーカー数を できるだけ減らす必要がある. この問題に対して,我々が開発した能動学習法PALICEを適用し, その有効性を示した(Machine Learning, 2009)

音声信号処理

話者識別の目的は,会話信号から話者を予測することである. 話者識別において,環境や感情の変化による非定常性が性能低下の一因になっている. 我々は,非定常環境下での話者識別問題を共変量シフト下での分類問題として定式化し, ロジッスティック回帰に基づいた適応手法を提案した (Signal Processing, 2010)

自然言語処理

与えられた日本語の文章を単語に分割する問題は, 自然言語処理における基礎的な課題である. 単語分割問題では,一般的な会話コーパスに対する教師データは用意に入手できるが, 医療文書などの専門的な文書に対する教師データは入手が困難である. 我々は,共変量シフト適応の手法を応用し, 一般的な会話コーパスのデータを医療文書に適応させることにより, 医療文書の単語分割の精度を改善できることを示した(Journal of Information Processing, 2009)

文書分類は超高次元大規模スパースデータを扱う必要があるため,次元削減が不可欠である. 我々は半教師付き次元削減法SELFを文書分類に適用し,分類精度が大幅に向上することを示した(IEICE Transactions on Information and Systems, 2009), (Machine Learning, 2010), (software)

また,教師無し次元削減を用いることにより,効率良く類義語を見つける手法を開発した(IEICE Transactions on Information and Systems, 2010)

コンピュータビジョン

顔画像から年齢推定はマーケティング戦略の構築などに有用なため,近年注目されている. しかし,人手で顔画像にラベル付けするのはコストがかかるため, 半教師付き学習,すなわち, ラベルなしの画像データを有効活用したい. 我々は,ラベルなしデータのクラスタ構造を利用した能動学習法,及び,人間の知覚特性に基づいた回帰手法を開発した(IEICE Transactions on Information and Systems, 2010)

顔画像のデータは,角度や光の当たり方が非常に多様なため, 訓練データとテストデータの分布が異なることが多い. そこで我々は,共変量シフト適応の手法を応用した年齢予測手法を開発した(ICPR2010)