忖度する人工知能～権力にすり寄る計算高い“政治家”：Over the AI ―― AIの向こう側に（20）（3/11 ページ）

» 2018年03月27日 11時30分公開

[江端智一，EE Times Japan]

　では、ここからは、強化学習のQ学習について、数式抜きの解説を試みます。

　ここでは「桶の製造販売をしている工房の社長（兼職人）」を想定します。

　「毎年、なんだか理由は分からんが、やたら桶が売れる」という時期があるとします。その桶の会社の社長としては、桶が売れる理由が分かれば、当然、その時期に桶を増産して売り上げを確保したいと考えるはずです。

　どこかで、何かの状態（状態S）が起こり、そこから、その状態を変える行動（行動a）が起こり、別の状態に遷移して、そこからまた別の行動が起こる―ー。それが繰り返されることで、最終的に「桶が売れた」という状態になるわけです。

　しかし、その社長には、その理由が分かりません。

　実は、この理由は、いわゆる「風が吹けば桶屋がもうかる」で使われている、「行動」と「状態」の連鎖だったのです。

　しかし、桶を作る社長は、このような無数にある世界の「状態」と「行動」から「桶が売れた理由」が、実は「風」だったということや、その途中に「埃の発生」「盲人の増加」「三味線の需要拡大」「ネコの減少」「ネズミの増加」という状態が発生したなど、知りようはずがありません。

印刷して読む電子ブックレット

ITmediaはアイティメディア株式会社の登録商標です。