1. efficient planning
(연구 논문 일부)
AlphaZero base 모델에서는 state value기반으로 mse해서 얻은 value loss와 mcts 확률과 action 확률의 cross entropy로 구한 policy loss의 합으로 구한다. 그러나 위 모델의 경우 action value based learning 이니까 policy layer update는 제외되어 update된다.
즉, value loss만 사용하여 update한다.
QRDQN의 경우 MSE Loss 계산 → Huber Loss 계산 → quantile value들과 huber loss를 곱한 것의 평균 값을 loss로우리 코드에서는 이미 Return을 알고 있는 case이기 때문에 가 아닌 만 한다. (이건 DQN도 마찬가지 가 아니라 로 한다)
2. Vision Language Model
quantization + pruning (VLM)
PEFT (VLM)