dapo-aime

自包含 MinT 实验：在 BytedTsinghua-SIA/DAPO-Math-17k 的本地物化版本上跑 direct GRPO，把 AIME 2024 固定为可上报 benchmark。AIME 2025 和 AIME 2026 的 manifest 用同一行合约提供，作为辅助 eval。不做 SFT warm-start。

At a glance


算法	direct GRPO（无 SFT warm-start）
Base model	`Qwen/Qwen3-4B-Instruct-2507`
训练数据	`BytedTsinghua-SIA/DAPO-Math-17k` 的本地物化（`data/train/full.jsonl`）
Benchmark	AIME 2024（`data/eval/aime2024.jsonl`）；辅助：AIME 2025 / 2026
Primary metrics	`METRIC eval_accuracy`、`METRIC eval_greedy_accuracy`、`METRIC eval_pass_at_k`
Upstream README	Open in mint-cookbook →

环境配置、可执行命令、完整 eval 流程见上游 README。实验遵循共享的 cookbook lifecycle：uv sync → --dry-run → --eval-only → 训练。

dapo-aime

At a glance

本页目录