忖度する人工知能～権力にすり寄る計算高い“政治家”：Over the AI ―― AIの向こう側に（20）（8/11 ページ）

» 2018年03月27日 11時30分公開

[江端智一，EE Times Japan]

　では、最後に、超簡単な強化学習のプログラムを作って試してみたので紹介します。名付けて、学校寄付金プログラム ―― 別名、高年収獲得プログラムです。

　このプログラムでは、学費という概念がなく、その代わりに、就職した年収に応じて、その就職に貢献した学校に寄付金（報酬）を渡します。

　各学校は、高所得者を生み出すためだけに存在します。それ以外の目的（道徳とか協調とか信頼とか友情とか）は、一切無視した教育をします。

　このコラムを読んで頂いている皆さんには、ものすごく不愉快だとは思いますけど、強化学習のアルゴリズムを理解するという点では、とても分かりやすい考え方だと思っています。

プログラムはこちらです

　上記の例では、J大学の卒業生以外は、全員年収がないですが、気にしないでください。結果は以下の通りになりました。

　次は、M大学の卒業生も、年収1000万円ビジネスパーソンになるものとしてみました。結果は以下の通りです。

　特に問題なく、強化学習が行えることが分っています。ただし、対象が2倍になると、褒める回数（学習回数）も2倍にしなければならないようです。

　これは、対象が複雑になれば、学習回数も増やさないと十分な効果が得られないことを示唆していると思います。

印刷して読む電子ブックレット

ITmediaはアイティメディア株式会社の登録商標です。