快速开始
几分钟内上手 MinT。本节涵盖安装、环境配置和实操教程。
入门
教程
逐步示例,带你完成 MinT 训练:
- QuickStart 教程 — 用 SFT 训练乘法模型,再用 RL 优化
- 自定义奖励 — 定义和使用自定义 reward function
- Mini RL Trip — 最小化端到端 RL 训练示例
- 多轮训练 — 基于多轮对话数据训练
- RL 最佳实践 — 稳定高效 RL 训练的技巧
- 数学 RL — 训练数学推理模型
- 代码 RL — 训练代码生成模型
- 对话 RL — 用 RL 训练对话模型
- Sampling Log — 查看和分析采样输出
源代码
所有教程代码均可在 mint-quickstart 仓库获取。