メディア

忖度する人工知能～権力にすり寄る計算高い“政治家”：Over the AI ―― AIの向こう側に（20）（10/11 ページ）

» 2018年03月27日 11時30分公開

[江端智一，EE Times Japan]

前のページへ 1|2|3|4|5|6|7|8|9|10|11 次のページへ

今回のコラムを振り返る

　それでは、今回のコラムの内容をまとめてみたいと思います。

【1】「体罰」に対する私の考え方を明かにした上で、「体罰」の世間一般の考えを考察してみました。その結果、「体罰はダメ」と言いつつ「体罰には効果がある」と考える人が一定数いるという仮説を立てました。

【2】今回は、「機械学習」の中の「強化学習（のQ学習アルゴリズム）」について解説を行いました。

【3】「教師あり学習」と「教師なし学習」の比較を行い、前者が「知識とロジック」を、後者が「経験とマネ」を、その学習の根幹に置いていることを明らかにした上で、「強化学習」が「教師なし学習」の代表技術であることを示しました。

【4】「強化学習」が、たった1行の式（または、4行程度のプログラム）で、超巨大な解空間の中から、最適戦略を選び出すという、脅威のAI技術であることを示しました。

【5】その一方で、「強化学習」が、将棋や囲碁、PCゲーム等の分野でしか、その効果を発揮できていないことを示しました。

　これは、（A）膨大な回数の学習が必要であり、（B）そのような学習はコンピュータの中でしか実現できないことに加えて、（C）私たちの人生において、「強化学習」の環境（状況と行動）を定義することが絶望的に難しい、ということを説明しました。

【6】最後に具体的例として、「学校寄付金プログラム ―― 別名、高年収獲得プログラム」を作成して、その学習プロセスの特徴を明らかにしました。同時に、「強化学習（のQ学習アルゴリズム）」を使う限り、「（体）罰には効果がない」ことを、シミュレーションで明らかにしました。

　「強化学習」とは、「勝ち負け」を続けることで、自力で（勝つための）知識を獲得し続ける学習です。

　嫁さんがと、「アルファ碁」なるコンピュータソフトウェアが、名人に勝利したというNHKニュースを見ていた時、嫁さんが、私にその意味を尋ねてきました。

　私が『要するに、ソフトウェアが自力で学習していくんだよ』と私が説明したら、真っ青な顔をしておびえていました。

　『自分で、新しいことを考えることができるの？』→『人間に勝てるの？』→『そしたら、ソフトウェア（AI技術）が、世界を乗っとるの？』という（世間によくある、AIフォビア（恐怖症）の）三段思考パターンにズッポリとはまっていました。

　「あのね、『自己学習』というのは、コンピュータの数理や制御の世界では、昔から『最適解探索』とか、『自動チューニング』とか山ほどあって、そんなことを言えば、人間は、コンピュータの登場の時から、常に負け続けているとも言える訳だし、それ以前にコンピュータとの『勝ち負け』を論じるというのは……」という説明は ―― 嫁さんの「耳」には届いていても、「心」には届いていなかったようです。

　「ロボットのアーム軌跡の自動チューニング」は怖くないけど、「将棋や囲碁の自己学習」は怖い ―― 私たちは「訳の分からないものが、訳の分からない理由で動くこと」は怖くなくても、「よく知っているものが、訳の分からない理由で動くこと」には、耐えられないほど怖いのです。なにしろ、私たちは、日常的に、将棋や囲碁を良く知っていますから（ルールは知らなくても）。

「強化学習」が人類を支配できない理由