Mind Lab Toolkit (MinT)
Get started

Supported Models

MinT 服务端的基础模型按访问计划分两个 lineup 池,外加可申请加入 lineup 的技术兼容集合:

  • 社区版可用模型 —— 通过 mint.macaron.xin 共享托管端点访问,需申请 API key。
  • 企业版专属模型 —— 通过企业版套餐在专属集群上预留算力获得。

社区版可用模型

下表里这些 Qwen3 基础模型在 mint.macaron.xin 上有预留算力,并在 mint-quickstart 里有测试覆盖。列表与一次 live preflight(service_client.get_server_capabilities().supported_models)返回的 Qwen 条目一致。如果没有特别偏好,用 lineup 里任意一个跑 smoke run 即可。

Qwen3 基础模型

具体型号Training TypeArchitectureSizeContext脚本默认已测试算法
Qwen/Qwen3-0.6BHybridDenseTiny32kSFT、GRPO
Qwen/Qwen3-4B-Instruct-2507InstructionDenseCompact32kcookbookSFT、DPO、GRPO
Qwen/Qwen3-4B-Thinking-2507ReasoningDenseCompact32kSFT、GRPO
Qwen/Qwen3-30B-A3B-Instruct-2507InstructionMoEMedium32k可选SFT、GRPO
Qwen/Qwen3-235B-A22B-Instruct-2507InstructionMoELarge32kSFT、GRPO

逐模型说明

  • Qwen3-0.6B —— 轻量默认。quickstart、custom_reward、custom_loss、sampling_log 全跑这个。
  • Qwen3-4B-Instruct-2507 —— 四个维护中的 cookbook recipe(dapo-aime、chat-dpo、fingpt、lawbench)的基础模型。
  • Qwen3-4B-Thinking-2507 —— 4B 模型的推理 / chain-of-thought 变体。
  • Qwen3-30B-A3B-Instruct-2507 —— 中等规模 instruction following。
  • Qwen3-235B-A22B-Instruct-2507 —— 大规模 instruction tuning。Volcano A800 集群参数:inference_tp=16, train_tp=4, train_pp=1, train_ep=8

字段说明

  • Training Type —— Hybrid 同时支持 thinking 和 non-thinking 两种模式;Instruction 是不带 chain-of-thought 的 chat 微调;Reasoning 总是在可见输出前先生成 chain-of-thought。
  • Architecture —— Dense 每个 token 激活全部参数;MoE 是稀疏 mixture-of-experts。
  • Size —— 指总参数量,不是激活参数量。Tiny < 1B;Compact 1B–4B;Medium 30B–32B;Large 70B+。
  • Context —— 不使用 YaRN 扩展时的原生上下文窗口。
  • 脚本默认 —— 表示 quickstart 的默认;cookbook 表示维护中的 cookbook recipe 的默认;可选 表示脚本通过 MINT_BASE_MODEL 接受这个模型; 表示仅按需使用。

要覆盖默认模型,跑 quickstart 脚本前设置 MINT_BASE_MODEL

export MINT_BASE_MODEL=Qwen/Qwen3-30B-A3B-Instruct-2507
python quickstart/quickstart.py

具身 / VLA

具体型号已测试算法备注
mintx.OPENPI_FAST_MODEL(常量)VLA 经 SDK / HTTP具身智能体轨道。详见 VLA

企业版专属模型

下列模型需要 企业版套餐。算力按客户专属集群预留,不在社区版的共享端点上提供。HuggingFace 规范化 ID 在开通时确认。

模型族具体型号已测试算法备注
GLMGLM-5SFT、RL智谱 GLM-5 家族。客户专属集群按需开通。
GLMGLM-5.1SFT、RLGLM-5 后继版本;按客户预留算力。
KimiKimi-K2SFT、RLMoonshot Kimi-K2。长上下文工作负载。
KimiKimi-K2.5SFT、RLKimi-K2 后继版本。
DeepSeekDeepSeek-V3SFT、RLDeepSeek V3 基础模型。

需要为以上任意一个预留算力,请发邮件到 sales@mindlab.ltdSchedule a Demo,注明模型与工作负载类型。

Technically Compatible

MinT 服务端接受任何符合 HuggingFace Hub 风格、且架构属于下面列出的 transformer 家族的 model 字符串。Lineup 是已显式测试的子集。理论上可工作的其它 model 家族包括:

  • Qwen 系列(Qwen2.5、Qwen3 —— Instruct、Thinking、Coder 变体)
  • Llama 3.x 家族
  • Gemma 2.x 和 3.x
  • DeepSeek 家族

仓库里目前没有这些模型在 MinT 上端到端跑通的证据。如果你需要其中一个进入 lineup 并预留算力,按下面的方式申请。

Request a Model

如果你需要的模型不在列表里:

VLM(Vision-Language Model)基础模型按"服务端能力"单独追踪 —— 详见 VLM 页的当前状态。

如何知道你的 endpoint 实际服务哪些模型? preflight 成功后会返回一个 capabilities.supported_models 列表。quickstart.py 默认会打印 Auth preflight: OK (N supported models) —— 在你自己的脚本里调 service_client.get_server_capabilities() 即可枚举。

本页目录