Sequential Preference Ranking for Efficient Reinforcement Learning from Human Feedback

상태

Done

날짜/date

2025/02/21

발표자/presenter

Donggyu Lee

발표자료/file

이동규_발표자료_250221_022920 (1).pdf