📝

Topic

1. efficient planning

backbone Daisy Paper: https://escholarship.org/uc/item/8wm748d8

추가 공부 자료 : https://www.nature.com/articles/s41593-024-01675-7

(연구 논문 일부)

AlphaZero base 모델에서는 state value기반으로 mse해서 얻은 value loss와 mcts 확률과 action 확률의 cross entropy로 구한 policy loss의 합으로 구한다. 그러나 위 모델의 경우 action value based learning 이니까 policy layer update는 제외되어 update된다. 

즉, value loss만 사용하여 update한다.

QRDQN의 경우 MSE Loss 계산 (r+γ∗Z′−Z)( r + γ * Z' - Z)(r+γ∗Z′−Z) → Huber Loss 계산 → quantile value들과 huber loss를 곱한 것의 평균 값을 loss로우리 코드에서는 이미 Return을 알고 있는 case이기 때문에  (r+γ∗Z′−Z)(r + γ * Z' - Z) (r+γ∗Z′−Z)가 아닌 R−Z R - ZR−Z 만 한다. (이건 DQN도  마찬가지 (r+γ∗Q′−Q)(r + γ * Q' - Q)(r+γ∗Q′−Q) 가 아니라 R−QR - QR−Q로 한다)

2. Vision Language Model

quantization + pruning (VLM)

PEFT (VLM)