メディア

不幸な人工知能～尊敬と軽蔑の狭間で揺れるニューラルネットワーク：Over the AI ―― AIの向こう側に（21）（2/9 ページ）

» 2018年04月27日 14時30分公開

[江端智一，EE Times Japan]

実はかわいそう？ニューラルネットワークの歴史

　こんにちは、江端智一です。今回と次回の2回を使って、現在進行中の第3次AIブームの最大のけん引技術である「ニューラルネットワーク」と、その学習方法「逆伝搬学習（バックプロパゲーション）」と「深層学習（ディープラーニング）（こっちは、次回に詳解します）」についてお話したいと思います。

　また、これまでこの連載では「AI」についての、マスコミ、政府、企業、そして、多くの人々についての、ありとあらゆる批判を行ってきましたが、今回は、最後のターゲットへの批判を行います ―― 私たち、研究員、エンジニアです。

　さて、まず本論に入るまえに、ニューラルネットワークの歴史についてお話します。

　ニューラルネットワークは、ニューラルネット、ニューロネット、ニューロ（×ニューロン）などとも呼ばれていますが、基本的には、これらの言葉は同じ意味で使われています。今回は、「ニューラルネットワーク」で統一します。

　実は、この「ニューラルネットワーク」は不幸な過去を抱えた ―― 尊敬と軽蔑を交互に受けてきた ―― かわいそうなヤツ（技術）なのです。

　人類最初のニューラルネットワークの研究は1943年にさかのぼります。この時、人工的なニューロンのモデル化が行われ、その後、ニューロンの学習研究が始まり、1957年に「パーセプトロン」が発表されます。

　パーセプトロンは、与えられた教師データが直線で区別できることが可能であれば（これを線形分離といいます）、必ず学習に成功して、線形分離するニューラルネットワークを作ることができるのです（パーセプトロンの収束定理（1962年）） ―― イメージとしては、グランドでウルトラクイズを行う時に、YesとNoの回答者を、100メートルの長さの棒でグループ分けする、という感じです。

　ところが、パーセプトロンは、収束が遅く、ノイズに影響されやすく、さらに、線形分離できない学習データには手も足も出ない、という問題がありました。また、多層ネットワークも拡張ができないことが分かり、直線で分離できない学習データ以外では全く使いものにならないことが判明して、急速にパーセプトロンのブームは冷え込んでいきました ―― 1回目の「尊敬」から「軽蔑」への転換です。

　ところが、1986年に提唱された「逆伝搬学習方式 ―― プロパゲーション」が、非線形な分離を解決することが分かったとき、世界中で大騒ぎになりました（私も、相当興奮したのを覚えています）。

　特に、モデル化されたニューロンの信号発火関数（シグモイド関数）の偏微分が、美しい数式で記述できることを知った時、私は恍惚となったことを覚えています（理解する必要はありません）。

　非線形問題が解けるなら、全ての問題は解決できる。人工知能は完成したも同然 ―― と、私ですら、そんなことを信じられる時代があったのです（遠い目）。多分、今の深層学習 ―― ディープラーニングを理解した時よりも、興奮していたと思います。

　ところが、実際に私がバックプロパゲーションを実装してみたところ、「ニューラルネットワークが、全然、学習してくれない」ということが分かってきました（後述します）。

　（A）学習の成否が初期値で決まる（ローカルミニマム）、（B）逆伝搬が下層に働かない（勾配消失問題）、そして、（C）学習データだけを強く覚えてしまう（過学習問題）ことが、明らかになり、バックプロパゲーションがうまく機能せず、多層ニューラルネットワークが簡単には作れない―― ということが分かるにつれて、2回目の「尊敬」から「軽蔑」への大転換が行われたのです。

そしてまたもや、ダイナミックな手のひら返しが!!