自然現象を表す、有名なモデルにおいては少ないパラメータ数でその現象を表そうとするのが一般的です。近年、機械学習の分野においては、画像認識、自然言語解析、その他さまざまなデータを対象とした予測問題を対象に深層学習(ニューラルネットワーク:人工的神経回路網)による解決が試みられており、本理工学部においても多くの分野、研究室にて研究が進められているものと思います。この深層学習において、そのモデルのパラメータ数は膨大な数を必要としています。一例を挙げますと現在よく利用されている畳み込みニューラルネットワークの場合、1998年に提案されたLeNet‐5においては約10万個のパラメータ数に過ぎませんでしたが、2012年に画像認識の分野にて著しい成果を出したAlexNetにおいては約6,000万個、2014年に提案されたVGGNetにおいては1億個超えるといったように年々、パラメータ数は増加して来ました。物事の性質をとらえるため本当にこれだけのパラメータ数が必要なのでしょうか。自然現象を表すモデルのように簡略化できないものでしょうか。

機械学習の分野において、オッカムの剃刀という提言があります。これは「ある事柄の説明に必要以上に多くの仮定、要因を用いるべきではない」という考え方です。これはアイザック・ニュートンらも同じ提言をしています。現状、深層学習によりさまざまな問題を解決している理由として、そのパラメータの多さにもかかわらず適切なパラメータを求めることができるアルゴリズムおよびアーキテクチャにあると言えるでしょう。パラメータ数が多い場合、モデルを構築するために利用したデータのみに適切な予測ができるモデルとなり、それ以外のデータに対しては予測が困難なことが通常なのですが、深層学習の場合、比較的こうした問題点を克服しているのも興味深い特性です。特に近年、自然言語処理の分野においてはパラメータ数の増加にしたがって言語解析の性能が向上するとも言われ、パラメータ数は億のオーダーをさらに超えて兆のオーダーのモデルも提案されています。そのため現状の深層学習においては、膨大な計算資源を利用できる研究機関が有利に研究を進めていくことができるかもしれませんが、その適用範囲は広く、研究者ごとで自らの研究分野への適用方法やモデルの考案を図っていけばよいはずです。また深層学習においてはパラメータ数の多さから、何故そのような予測がされたのかその解釈が難しいのが現状です。例えば深層学習を用いて画像診断により癌を予測する場合、癌である確率は90%と予測はできますが、その一方で予測した理由を説明することは困難です。そのため予測結果に対して解釈し、説明することも必要不可欠です。

ニューラルネットワークの分野は過去何度も研究がさかんに進められて来た時期とそうでない時期を繰り返して来ました。ただし研究がさかんに行われていない時期だからと言って停滞していたわけではありません。前述した畳み込みニューラルネットワーク、パラメータを求めるアルゴリズムはこうした時期に考案され、後に再発見された上で現在の基盤技術となっています。歴史が繰り返すのであればこの分野において、将来研究が停滞する時期が来るかもしれません。そうした場合、現在、それほど注目されていないモデル、手法が再びブレークスルーを起こすかもしれません。十年、二十年先といった将来を見据えた研究を進めていく必要があるのではないでしょうか。

ナビゲーションの始まり