Uncategorized

大模型优化利器:RLHF之PPO、DPO