한국어

Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update, NeurIPS 2019

2021.11.01
621

Suyoung Lee, Sungik Choi and Sae-Young Chung

본 논문에서는 신속한 보상값 전달을 통해 효율적인 심층 강화학습을 진행하는 에피소드 후향 업데이트 알고리즘을 제안한다. 균등분포를 사용해 리플레이 메모리에서 스텝 단위로 샘플을 취하는 통상적인 강화학습 방법과 다르게 본 논문에서는 에피소드단위로 샘플을 취한 후 상태값을 시간 역순으로 전달한다. 논문에서 제안한 알고리즘은 샘플의 수가 적고 보상값이 희박한 환경에서도 신속한 보상값 전파가 가능하다. 제안한 알고리즘을 2D MNIST maze 환경과 Atari 2600 환경에서 비교하여 기존 알고리즘에 비해 현저한 성능 개선이 이루어짐을 보였다.