Search
💪🏻

Hierarchical RL

생성일
2025/07/08 07:43
태그
강화학습
작성자

Flat RL (기존의 강화학습)

RL agent는 환경에서 관찰한 state에 따라 하나의 action 을 선택한다. 여기서 action은 예를 들어, "왼쪽으로 이동", "오른쪽으로 이동", "점프", "사다리 타기" 등과 같은 매우 미세한 동작(micro action) 이다.
agent는 각 state에서 가능한 action들 중 하나를 선택하고, 환경은 이에 따른 다음 state를 반환하는 과정을 반복함. 이처럼 flat RL에서는 모든 의사결정을 단일 수준에서 처리한다.
Flat RL
계층적 목표 설정이나 sub-policy가 없다는 점에서 non-hierarchical 또는 flat이라고 부른다

Hierarchical Reinforcement Learning (HRL)

기존 강화학습(flat RL)은 "오른쪽으로 이동", "점프"와 같은 미세한 동작들을 매 순간 선택하는 방식이지만, 인간은 보통 더 높은 수준의 목표를 먼저 설정한 뒤 그 목표를 달성하는 행동들을 계획한다. HRL은 이러한 인간의 행동 방식을 모방하기 위해 계층 구조(hierarchical structure) 를 도입한 학습 방식이다.
HRL에서는 high-level policy 가 먼저 goal을 설정하고, low-level policy 가 해당 goal을 달성하기 위한 구체적인 행동들을 선택한다. 이 goal은 반드시 extrinsic reward를 위한 것이 아닐 수 있으며, 예를 들어 새로운 영역을 탐험하는 등의 intrinsic motivation을 기반으로 설정될 수 있다. 다시 말해, HRL에서는 manager가 흥미롭거나 의미 있다고 판단한 방향으로 목표를 설정하고, worker는 그 목표를 달성하기 위해 행동을 수행하는 방식으로 학습이 이루어진다.
Intrinsic Motivation
extrinsic reward 없이도, agent가 스스로 흥미롭다고 판단하는 방향으로 탐색하거나 행동하게 만든다. intrinsic motivation이 필요한 이유는 복잡한 환경에서는 명시적인 보상이 희귀하거나 sparse할 수 있다. 이런 경우 agent가 아무 행동도 하지 않고 멈출 수 있다. 따라서 agent가 자율적으로 환경을 탐색하고, 간접적인 학습 기회를 얻는다.