Mind Lab Toolkit (MinT)
Cookbook

dapo-aime

自包含 MinT 实验:在 BytedTsinghua-SIA/DAPO-Math-17k 的本地物化版本上跑 direct GRPO,把 AIME 2024 固定为可上报 benchmark。AIME 2025 和 AIME 2026 的 manifest 用同一行合约提供,作为辅助 eval。不做 SFT warm-start。

At a glance

算法direct GRPO(无 SFT warm-start)
Base modelQwen/Qwen3-4B-Instruct-2507
训练数据BytedTsinghua-SIA/DAPO-Math-17k 的本地物化(data/train/full.jsonl
BenchmarkAIME 2024(data/eval/aime2024.jsonl);辅助:AIME 2025 / 2026
Primary metricsMETRIC eval_accuracyMETRIC eval_greedy_accuracyMETRIC eval_pass_at_k
Upstream READMEOpen in mint-cookbook →

环境配置、可执行命令、完整 eval 流程见上游 README。实验遵循共享的 cookbook lifecycle:uv sync--dry-run--eval-only → 训练。

本页目录