chat-dpo

Eval-first 的 DPO 实验，处理 chat 质量的偏好对。Benchmark 是 held-out 的成对偏好集合，不是带外部评分员的生成式 benchmark。

At a glance


算法	DPO（成对偏好）
Base model	`Qwen/Qwen3-4B-Instruct-2507`
训练数据	本地 `data/train/full.jsonl`
Benchmark	held-out 成对偏好 eval `data/eval/full.jsonl`
Primary metric	`METRIC eval_pair_accuracy`
Upstream README	Open in mint-cookbook →

环境配置、可执行命令、完整 eval 流程见上游 README。实验遵循共享的 cookbook lifecycle：uv sync → --dry-run → --eval-only → 训练。