EE Times Japan > 先端技術 > スパイラル学習法でドローンを自動操縦：シミュレー...

スパイラル学習法でドローンを自動操縦：シミュレーターも機械学習で進化

Preferred Networksは、「CEATEC JAPAN 2016」（シーテックジャパン、会期：2016年10月4～7日、会場：千葉市幕張メッセ）で新たな深層強化学習手法を用いて実現したドローンの自動操縦システムのデモを公開する。

» 2016年10月03日 18時52分公開

[竹本達哉，EE Times Japan]

Preferred NetworksがCEATECでデモ公開

　Preferred Networksは、「CEATEC JAPAN 2016」（会期：2016年10月4～7日、会場：千葉市幕張メッセ）で新たな深層強化学習手法「スパイラル学習法」を用いて実現したドローンの自動操縦デモを公開する。

ドローンの自動操縦デモのようす。照明で丸く照らされた部分が目的地でそこへ向かってドローンは自動で飛んでいく。ただ、赤いLEDの線上は飛び越えてはならず、赤い線を避けて飛行する。目的地に着けば報酬を与え、赤い線を飛び越えるなどした場合にはペナルティーを与えるといった具合で、強化学習が行われる。

デモの動画

　新たに構築した深層強化学習手法は、自動操縦に必要な制御に関する深層学習とともに、シミュレーター上の挙動モデルを深層学習する、2つの深層学習を組み合わせ、効率的かつ安全に、制御に関する深層学習を行うというものだ。

自動走行で実績も……

　これまで、Preferred Networksは、深層強化学習により自動車の自動走行制御システムを実現し、2016年1月に米国で開催された展示会「CES」などで、“ぶつからない”ための制御を機械自身で学習し、短時間でぶつからない制御を実現するシステムのデモを実施してきた。

自動車の自動走行制御を実現するために用いた深層強化学習のイメージ（クリックで拡大）

　自動車の自動走行制御のための深層強化学習は、あらかじめシミュレーター上で学習を行い、そこでの学習成果を実際の自動車に適用し、自動走行制御を実現していた。

　Preferred Networksは、CEATEC 2016の出展に合わせて、ドローンの自動操縦を深層強化学習で実現する試みに着手。自動車の自動走行に用いた深層強化学習手法を適用した。

シミュレーターで挙動、再現しきれず

　だが、ドローンの自動操縦制御では、シミュレーターでドローンの挙動を再現しきれず、「シミュレーターで学習した結果を実際のドローンに適用しても、うまく制御できなかった」（Preferred Networks）とする。

　そこで、シミュレーターを構成するドローンの挙動モデルの開発にも、深層学習を取り入れ、シミュレーター自体の再現性を向上させることを発案。「シミュレーター上で自動操縦のための強化学習→実機での挙動モデルに関する深層学習」を、段階的に繰り返す「スパイラル学習法」を構築。実機環境で制御不能となり、大きなトラブルを起こすことなく、効率的、安全に深層学習を行うことができる。

「スパイラル学習法」のイメージ（クリックで拡大）

　Preferred Networksではスパイラル学習法について「実機での深層学習が困難で、挙動が複雑なものでも深層強化学習が無理なく適用できる手法であり、応用範囲は広い」としている。なお、今回のデモレベルの安定性の自動操縦を実現するまでに必要な学習時間は「スパイラル学習法により、一晩程度で、学習できるだろう」とした。