Search
📝

Topic

1. efficient planning

(연구 논문 일부) AlphaZero base 모델에서는 state value기반으로 mse해서 얻은 value loss와 mcts 확률과 action 확률의 cross entropy로 구한 policy loss의 합으로 구한다. 그러나 위 모델의 경우 action value based learning 이니까 policy layer update는 제외되어 update된다. 즉, value loss만 사용하여 update한다. QRDQN의 경우 MSE Loss 계산 (r+γZZ)( r + γ * Z' - Z) → Huber Loss 계산 → quantile value들과 huber loss를 곱한 것의 평균 값을 loss로우리 코드에서는 이미 Return을 알고 있는 case이기 때문에 (r+γZZ)(r + γ * Z' - Z) 가 아닌 RZ R - Z 만 한다. (이건 DQN도 마찬가지 (r+γQQ)(r + γ * Q' - Q) 가 아니라 RQR - Q로 한다)

2. Vision Language Model

quantization + pruning (VLM)
PEFT (VLM)