Cookbook
chat-dpo
Eval-first 的 DPO 实验,处理 chat 质量的偏好对。Benchmark 是 held-out 的成对偏好集合,不是带外部评分员的生成式 benchmark。
At a glance
| 算法 | DPO(成对偏好) |
| Base model | Qwen/Qwen3-4B-Instruct-2507 |
| 训练数据 | 本地 data/train/full.jsonl |
| Benchmark | held-out 成对偏好 eval data/eval/full.jsonl |
| Primary metric | METRIC eval_pair_accuracy |
| Upstream README | Open in mint-cookbook → |
环境配置、可执行命令、完整 eval 流程见上游 README。实验遵循共享的 cookbook lifecycle:uv sync → --dry-run → --eval-only → 训练。