pile·

[ICML 2018] Reinforcement learning

NAVER D2·DEVIEW 2018 2018·

챕터별 상세

010:00 – 2:22

ICML 2018 강화학습 트렌드 — 보상 설계의 한계와 모방 학습

ICML 2018에서 강화학습(RL)이 논문 수·세션 수 모두에서 가장 많았던 분야였음을 짚으며, 한동안 식었던 인기가 다시 크게 주목받는 흐름을 정리하는 리뷰 세션이다. 발표자는 추려낸 30여 편을 중심으로 전체 트렌드를 훑는다.

강화학습은 에이전트가 환경에서 직접 액션을 수행해 경험을 모으고 보상으로 학습하는 구조인데, 보상을 어떻게 설계하느냐(리워드 디자인)가 까다롭고 학습에 샘플이 매우 많이 필요하다는 한계가 있다. 그래서 전문가의 행동을 활용하는 모방 학습(imitation learning)이 부각된다. 전문가의 시연 데이터를 그대로 따라 배우는 방식(behavior cloning)과, 학습 중간에 전문가에게 '어떤 행동을 해야 하는지' 인터랙티브하게 질의하는 방식이 소개된다.

(이 영상은 자동자막 품질이 낮아 전문용어가 다수 깨져 있어, 명확히 식별되는 내용만 정리했다.)