メディア

忖度する人工知能～権力にすり寄る計算高い“政治家”：Over the AI ―― AIの向こう側に（20）（9/11 ページ）

» 2018年03月27日 11時30分公開

[江端智一，EE Times Japan]

前のページへ 1|2|3|4|5|6|7|8|9|10|11 次のページへ

もしも強化学習で“体罰”を与えたら

　で、ここまでは予想通りなのですが、実は今回、本当にやってみたかったことは、この強化学習のQ学習で、「体罰」をやってみたらどうなるだろうか、ということでした。

　もちろん、Q学習は、「体罰 = マイナスの報酬」を想定して設計されているのではないので、このトライアルは、エンジニア的にはナンセンス（というか、無意味）かもしれません。

　しかし、それでも、「褒める（報酬）」ことで効果を発揮するAI技術で、「体罰（マイナスの報酬）」を与えた結果は、冒頭に展開した「体罰の効果」の一つの検証結果になるのではないかと考えました。

　ともあれ、やってみました。「J大学に入ると、もれなく1000万円の借金を作る人間になる」 ―― という設定を置いてみたところ、面白い結果が出てきました。

　この結果から言えることは、

（1）「（体）罰の効果」は、その事象にのみ限定されて、その効果は全く波及しない。つまり、（体）罰を受けたことのみに効果があり、その問題の原因にさかのぼらない。

（2）「（体）罰の効果」は学習能力が低い。「褒める」方では、200回で上限に至っているのに、「体罰」の方では、1000回繰り返しても上限に達しない。

ということです。

　つまり、「強化学習」のアプローチでは、「体罰」は、拡張性もなく、効率は悪く、効果が低いということです。

　しかしながら、体罰に効果を認める人が一定数いるのはなぜか？　これは私の（検証のない）仮説ですが、2つ理由があるのではないかと考えています。

　（1）「ブロードキャスト」の効果 ―― つまり「見せしめ」です。報酬の方は一人一人を「褒める」必要がありますが、「見せしめ」は一人を痛めつければ、その恐怖が別の人間にも伝搬させることができて、非常に効率が良いのです。

　（2）「怒りの発動」を「教育的指導」と言い換えることができる手軽さ ―― 単に「腹を立てて暴力を行っている」という、通常であれば犯罪にもなり得る行動を、「教育的措置を取った」と言い張れる立場を乱用できるわけです（例えば、私が、電車の中で騒いでいるガキを殴ったら、問答無用で、犯罪になります）。

　大体、体罰している人間は「お前たちに腹を立てて、叱っているわけではない」という人がいますが、そんなセリフ信じられますか？ ―― 冷静に客観的に黙々と体罰を実施できる人間がいれば、それは、教育者以前に人間ではありません。その人、きっと"AI"エンジンを搭載したアンドロイドです。

　まあ、ともあれ、「体罰には効果がある」と考える人が一定数いる理由は、おおむね上記の2つの仮説で説明可能であると、私は考えています。

　少なくとも、強化学習のQ学習アルゴリズムをそのまま使ってみた限りでは、「（体）罰では効果を発揮できない」ことだけは明らかです。

三段思考パターンに、はまった嫁さん