忖度する人工知能～権力にすり寄る計算高い“政治家”：Over the AI ―― AIの向こう側に（20）（7/11 ページ）

» 2018年03月27日 11時30分公開

[江端智一，EE Times Japan]

　「なーんだ、こんな簡単なら、私でもチョイチョイっと作れるな」と ―― 私は、「5並べ」の強化学習プログラムを作ろうと、頭の中でコーディングを始めました（私は、囲碁も将棋もマージャンも、ゲームと名前のつくもののほとんどのルールを知りませんので）。

　ところが、これが「全く」ダメダメだったのです。強化学習の「4行」は、問題なかったのですが、別のところで、どうしようもないことが分かってきたからです。

　つまり、強化学習は、その仕組みよりも、その環境（「状態」と「行動」）を定義すること（正確に言うと、「状態」と「行動」のパターン数を極限まで小さくすること）が恐しく難しいのです。

　というか、その環境の定義に成功した人だけが、「将棋」や「囲碁」のマスターを倒すプログラムを作ることができた、ということが、ようやく私にも分かってきました^＊）。

＊）以前後輩に「江端さん、大切なのは『学習プロセス』ではなく『局面の設計』ですよ」と言われた意味が、今回、ようやく理解できました。

　これを考えていくと、なぜ、私たちが「強化学習」を、義務教育や高等教育過程で使わないのかは、明らかです。

　つまり、私たちは、私たちの人生（の局面（状態と行動））を設計することができない上に、強化学習のように、数千～数億の回数で人生をやり直すことができないのです。

　でも、本当にそうかな？と思い、もう少しつっこんで考えてみました。

　人生2万5千日もあれば、そこそこの強化学習はできそうなのですが、毎日登場するような事項にしか、使えそうにありません。

　まあ、毎日登場するようなことといえば、上記の様な内容になってしまう訳でして、つまつところ、「強化学習を、義務教育や高等教育の代替とすることは無理」という結論になる訳です。

印刷して読む電子ブックレット

ITmediaはアイティメディア株式会社の登録商標です。