Mind Lab Toolkit (MinT)

Mind Lab Toolkit (MinT)

RL 概览 Math RL Chat RL Code RL Custom Environment Multi-Turn RL Multi-Agent RL Prompt Distillation RL Hyperparameters

Async Patterns VLA VLM

Customize

VLM

Vision-Language Model 微调在 MinT 上 Coming Soon。MinT 服务端的 VLM 基础模型正在上线；本页描述的客户端 SDK 路径会在 mint.macaron.xin 和 mint-cn.macaron.xin 提供 VLM 模型后启用。

如需登记需求，发邮件到 sales@mindlab.ltd 或在 Schedule a Demo 中注明 VLM。

本页未来覆盖的内容

VLM 上线后，本页和其它算法页同样按四段结构展开：

配置 —— mint.ServiceClient、面向 VLM 基础模型的 create_lora_training_client、image processor 的选择、image token 预算。
Prompting Guide —— 在 chat-template 消息中放置 <image> 占位符；多图与分辨率的注意点。
输出格式 —— assistant 回复在以图像为根据时如何被解析；视觉问答里的 bounding-box / region-of-interest 抽取。
全部参数 —— VLM 特有的旋钮（vision encoder 冻结、image patch size、最大 image token 数）叠加在标准 SFT / RL 参数之上。

相关阅读

VLM 上线前，最接近的已发布部分：

Concepts → Rendering —— 介绍 VLM 训练复用的 renderer 抽象。
VLA —— vision-language-action 具身训练通过 OpenPI 集成已经上线。

VLA

OpenPI vision-language-action 集成，SDK 或 HTTP 两条路。MinT 上做具身训练的两种入口。

Export to HuggingFace

下载合并后的 weights，把训练好的 model 发布到 HuggingFace Hub。

本页目录

VLM 本页未来覆盖的内容相关阅读