[ICML 2018] Reinforcement learning

NAVER D2·DEVIEW 2018 2018·2018년

AI 요약

ICML 2018에서 가장 큰 비중을 차지한 강화학습(RL) 세션의 트렌드를 추려낸 30여 편 중심으로 정리한 리뷰 영상이다. 보상 설계의 한계에서 출발해 모방 학습·모델 기반 RL·마음 이론·빠른 적응까지, 그해 RL 연구의 큰 흐름을 짚는다.

핵심 포인트

보상 설계와 샘플 비효율이라는 한계를 보완하는 모방 학습(behavior cloning·인터랙티브 질의)의 부상
적은 경험으로 민첩하게 제어하는 모델 기반 RL의 재부상과, 코드 버그가 성능 향상으로 둔갑한 재현성 문제
마음 이론(샐리-앤)·빠른 적응 연구가 가리키는 오브젝트·시맨틱 이해의 중요성

왜 읽나강화학습 연구 동향을 빠르게 따라잡고 싶은 ML 연구자·엔지니어에게 그해 흐름의 지도 역할을 한다. (자동자막 품질 한계로 일부 세부는 생략됨)

챕터별 상세

010:00 – 2:22

ICML 2018 강화학습 트렌드 — 보상 설계의 한계와 모방 학습

ICML 2018에서 강화학습(RL)이 논문 수·세션 수 모두에서 가장 많았던 분야였음을 짚으며, 한동안 식었던 인기가 다시 크게 주목받는 흐름을 정리하는 리뷰 세션이다. 발표자는 추려낸 30여 편을 중심으로 전체 트렌드를 훑는다.

강화학습은 에이전트가 환경에서 직접 액션을 수행해 경험을 모으고 보상으로 학습하는 구조인데, 보상을 어떻게 설계하느냐(리워드 디자인)가 까다롭고 학습에 샘플이 매우 많이 필요하다는 한계가 있다. 그래서 전문가의 행동을 활용하는 모방 학습(imitation learning)이 부각된다. 전문가의 시연 데이터를 그대로 따라 배우는 방식(behavior cloning)과, 학습 중간에 전문가에게 '어떤 행동을 해야 하는지' 인터랙티브하게 질의하는 방식이 소개된다.

(이 영상은 자동자막 품질이 낮아 전문용어가 다수 깨져 있어, 명확히 식별되는 내용만 정리했다.)

이번 학회에서 다시 대두된 모델 기반(model-based) 강화학습을 다룬다. 모델 프리 방식은 다이내믹스(상태 전이) 자체에는 관심이 없고 '어떤 행동을 했을 때 좋은 결과가 나오는가'라는 결과만 학습하지만, 모델 기반은 환경이 어떻게 동작하는지, 내가 어떤 행동을 하면 다음 상태가 어떻게 되는지를 학습한다. 모델 프리는 시뮬레이터가 충분한 환경에서나 쓸 수 있고 샘플이 많이 필요한 반면, 모델 기반은 적은 경험으로도 민첩하게 제어로 이어갈 수 있다는 점이 대비된다. 발표자는 '케이크를 만들려면 빵을 만들 수 있어야 한다'는 비유를 인용하며 자기지도 방식의 모델 학습과 로보틱스 제어로의 연결을 언급한다.

제어 방식을 하나의 스펙트럼으로 보는 관점도 제시한다. 한쪽 끝에는 환경 모델을 정확히 만들어 푸는 방식이, 반대쪽에는 상태-액션을 잔뜩 만들어 정책으로 행동하게 하는 방식이 있고, 그 사이 절충안으로 개략적인 모델을 제공해 실시간 제어를 보장하는 접근이 필요하다고 본다. 더불어 재현성(reproducibility) 이슈를 짚는데, 유명 알고리즘의 공개 코드를 분석해 보니 보고된 성능 향상이 실제 개선이 아니라 코드 버그에서 비롯됐고 버그를 고치자 성능이 떨어진 사례를 들며, 한 세팅에서만 검증된 결과를 일반화할 때의 위험을 경고한다.

사람의 인지 능력을 강화학습에 접목한 연구들로 마무리한다. 먼저 마음 이론(Theory of Mind)을 적용한 연구다. 마음 이론은 다른 사람이 무슨 생각을 하는지 추론하는 능력으로, 대표 검사가 샐리-앤(Sally-Anne) 테스트다. 샐리가 구슬을 바구니에 넣고 자리를 비운 사이 앤이 구슬을 상자로 옮기면, 돌아온 샐리는 구슬이 여전히 바구니에 있다고 잘못 믿는다. 핵심은 실제 위치가 아니라 '샐리가 어떻게 생각하는지'를 묻는 것이다. 이 연구는 다른 에이전트의 행동을 관찰해 그 에이전트의 믿음 상태(belief state)를 예측하고, 틀린 믿음(false belief)까지 맞히는지 테스트한다.

마지막은 사람이 처음 보는 게임에 빠르게 적응하는 능력을 다룬 연구다. RL 알고리즘은 게임을 잘 풀기까지 오랜 학습이 필요하지만 사람은 금방 짐작한다. 연구진이 게임의 표현(representation)을 숨기자 사람도 적응에 훨씬 오랜 시간이 들었고, 결론적으로 오브젝트 단위로 인식하고 시맨틱(의미)을 학습하는 것이 빠른 적응에 매우 중요하다는 방향을 제시하며 발표를 맺는다.