Mind Lab Toolkit (MinT)
Cookbook

chat-dpo

Eval-first 的 DPO 实验,处理 chat 质量的偏好对。Benchmark 是 held-out 的成对偏好集合,不是带外部评分员的生成式 benchmark。

At a glance

算法DPO(成对偏好)
Base modelQwen/Qwen3-4B-Instruct-2507
训练数据本地 data/train/full.jsonl
Benchmarkheld-out 成对偏好 eval data/eval/full.jsonl
Primary metricMETRIC eval_pair_accuracy
Upstream READMEOpen in mint-cookbook →

环境配置、可执行命令、完整 eval 流程见上游 README。实验遵循共享的 cookbook lifecycle:uv sync--dry-run--eval-only → 训练。

本页目录