メディア
連載
» 2018年03月27日 11時30分 公開

Over the AI ―― AIの向こう側に(20):忖度する人工知能 〜権力にすり寄る計算高い“政治家” (9/11)

[江端智一,EE Times Japan]

もしも強化学習で“体罰”を与えたら

 で、ここまでは予想通りなのですが、実は今回、本当にやってみたかったことは、この強化学習のQ学習で、「体罰」をやってみたらどうなるだろうか、ということでした。

 もちろん、Q学習は、「体罰 = マイナスの報酬」を想定して設計されているのではないので、このトライアルは、エンジニア的にはナンセンス(というか、無意味)かもしれません。

 しかし、それでも、「褒める(報酬)」ことで効果を発揮するAI技術で、「体罰(マイナスの報酬)」を与えた結果は、冒頭に展開した「体罰の効果」の一つの検証結果になるのではないかと考えました。

 ともあれ、やってみました。「J大学に入ると、もれなく1000万円の借金を作る人間になる」 ―― という設定を置いてみたところ、面白い結果が出てきました。

 この結果から言えることは、

(1)「(体)罰の効果」は、その事象にのみ限定されて、その効果は全く波及しない。つまり、(体)罰を受けたことのみに効果があり、その問題の原因にさかのぼらない。

(2)「(体)罰の効果」は学習能力が低い。「褒める」方では、200回で上限に至っているのに、「体罰」の方では、1000回繰り返しても上限に達しない。

ということです。

 つまり、「強化学習」のアプローチでは、「体罰」は、拡張性もなく、効率は悪く、効果が低いということです。

 しかしながら、体罰に効果を認める人が一定数いるのはなぜか? これは私の(検証のない)仮説ですが、2つ理由があるのではないかと考えています。

 (1)「ブロードキャスト」の効果 ―― つまり「見せしめ」です。報酬の方は一人一人を「褒める」必要がありますが、「見せしめ」は一人を痛めつければ、その恐怖が別の人間にも伝搬させることができて、非常に効率が良いのです。

 (2)「怒りの発動」を「教育的指導」と言い換えることができる手軽さ ―― 単に「腹を立てて暴力を行っている」という、通常であれば犯罪にもなり得る行動を、「教育的措置を取った」と言い張れる立場を乱用できるわけです(例えば、私が、電車の中で騒いでいるガキを殴ったら、問答無用で、犯罪になります)。

 大体、体罰している人間は「お前たちに腹を立てて、叱っているわけではない」という人がいますが、そんなセリフ信じられますか? ―― 冷静に客観的に黙々と体罰を実施できる人間がいれば、それは、教育者以前に人間ではありません。その人、きっと"AI"エンジンを搭載したアンドロイドです。

 まあ、ともあれ、「体罰には効果がある」と考える人が一定数いる理由は、おおむね上記の2つの仮説で説明可能であると、私は考えています。

 少なくとも、強化学習のQ学習アルゴリズムをそのまま使ってみた限りでは、「(体)罰では効果を発揮できない」ことだけは明らかです。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.