メディア
連載
» 2018年03月27日 11時30分 公開

Over the AI ―― AIの向こう側に(20):忖度する人工知能 〜権力にすり寄る計算高い“政治家” (3/11)

[江端智一,EE Times Japan]

強化学習を「風が吹けば桶屋がもうかる」で考える

 では、ここからは、強化学習のQ学習について、数式抜きの解説を試みます。

 ここでは「桶の製造販売をしている工房の社長(兼職人)」を想定します。

 「毎年、なんだか理由は分からんが、やたら桶が売れる」という時期があるとします。その桶の会社の社長としては、桶が売れる理由が分かれば、当然、その時期に桶を増産して売り上げを確保したいと考えるはずです。

 どこかで、何かの状態(状態S)が起こり、そこから、その状態を変える行動(行動a)が起こり、別の状態に遷移して、そこからまた別の行動が起こる―ー。それが繰り返されることで、最終的に「桶が売れた」という状態になるわけです。

 しかし、その社長には、その理由が分かりません。

 実は、この理由は、いわゆる「風が吹けば桶屋がもうかる」で使われている、「行動」と「状態」の連鎖だったのです。

 しかし、桶を作る社長は、このような無数にある世界の「状態」と「行動」から「桶が売れた理由」が、実は「風」だったということや、その途中に「埃の発生」「盲人の増加」「三味線の需要拡大」「ネコの減少」「ネズミの増加」という状態が発生したなど、知りようはずがありません。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.