Customize
VLM
Vision-Language Model 微调在 MinT 上 Coming Soon。MinT 服务端的 VLM 基础模型正在上线;本页描述的客户端 SDK 路径会在 mint.macaron.xin 和 mint-cn.macaron.xin 提供 VLM 模型后启用。
如需登记需求,发邮件到 sales@mindlab.ltd 或在 Schedule a Demo 中注明 VLM。
本页未来覆盖的内容
VLM 上线后,本页和其它算法页同样按四段结构展开:
- 配置 ——
mint.ServiceClient、面向 VLM 基础模型的create_lora_training_client、image processor 的选择、image token 预算。 - Prompting Guide —— 在 chat-template 消息中放置
<image>占位符;多图与分辨率的注意点。 - 输出格式 —— assistant 回复在以图像为根据时如何被解析;视觉问答里的 bounding-box / region-of-interest 抽取。
- 全部参数 —— VLM 特有的旋钮(vision encoder 冻结、image patch size、最大 image token 数)叠加在标准 SFT / RL 参数之上。
相关阅读
VLM 上线前,最接近的已发布部分:
- Concepts → Rendering —— 介绍 VLM 训练复用的 renderer 抽象。
- VLA —— vision-language-action 具身训练通过 OpenPI 集成已经上线。