Cookbook
dapo-aime
自包含 MinT 实验:在 BytedTsinghua-SIA/DAPO-Math-17k 的本地物化版本上跑 direct GRPO,把 AIME 2024 固定为可上报 benchmark。AIME 2025 和 AIME 2026 的 manifest 用同一行合约提供,作为辅助 eval。不做 SFT warm-start。
At a glance
| 算法 | direct GRPO(无 SFT warm-start) |
| Base model | Qwen/Qwen3-4B-Instruct-2507 |
| 训练数据 | BytedTsinghua-SIA/DAPO-Math-17k 的本地物化(data/train/full.jsonl) |
| Benchmark | AIME 2024(data/eval/aime2024.jsonl);辅助:AIME 2025 / 2026 |
| Primary metrics | METRIC eval_accuracy、METRIC eval_greedy_accuracy、METRIC eval_pass_at_k |
| Upstream README | Open in mint-cookbook → |
环境配置、可执行命令、完整 eval 流程见上游 README。实验遵循共享的 cookbook lifecycle:uv sync → --dry-run → --eval-only → 训练。