MinT: 面向研究者和开发者的 RL 训练 API
MinT 让你专注于 LLM 后训练中真正重要的事——你的数据、loss function 和 RL 环境——而我们来处理分布式训练的重活。
你只需写一个在 CPU 上运行的简单循环,包含数据或环境以及 loss function。我们负责让训练在大量 GPU 上高效运行,精确执行你指定的计算。要换一个模型,你只需改一个字符串。
MinT 给你完整的训练循环控制权和所有算法细节。它不是一个让 fine-tuning 变"简单"的黑盒。它是一层干净的抽象,帮你屏蔽分布式训练的复杂性,同时保留你的控制权。
实际的职责分工如下:
| 你关注 | 你写 | 我们处理 |
|---|---|---|
| 数据集和 RL 环境 你的自定义训练数据 | 简单 Python 脚本 在你的 CPU 上运行 | 大模型高效分布式训练 Qwen3-235B、Qwen3-30B 等 |
| 训练逻辑 你的 loss function、训练循环和评估 | API 调用 forward_backward() optim_step() sample() save_state() | 可靠性 硬件故障透明处理 |
特性
- 支持 0.6B 到 235B+ 参数的开源模型 fine-tune
- 支持视觉语言模型(如 Qwen3-VL)
- LoRA fine-tuning,大模型高效训练
- 分布式数据采集和滚动训练
- 权重管理、模型发布与下载
- 标准 CPU 集群上的在线评估
核心 API
forward_backward:计算并累积梯度optim_step:使用累积梯度更新模型参数sample:从训练后的模型生成输出save_state/load_state:持久化和恢复 weight 与 optimizer 状态save_weights_and_get_sampling_client:发布权重用于推理
Tinker 兼容
MinT 的 API 兼容 ThinkingMachines Tinker。如果你有现成的 Tinker 代码,可以用最小改动迁移到 MinT。
# 方式 1:直接使用 MinT
import mint
client = mint.ServiceClient()
# 方式 2:MinT 作为 Tinker 平替
import mint as tinker
client = tinker.ServiceClient()详细迁移说明和当前兼容状态见 Tinker 兼容性。
联系我们
扫码添加 MinT 微信小助手,获取最新动态和技术支持: