Mind Lab Toolkit (MinT)
使用指南

模型列表

MinT 按可用性状态列出模型。

可用模型

模型名称训练类型架构规模上下文
Qwen/Qwen3-0.6BHybridDenseTiny32k
Qwen/Qwen3-4B-Instruct-2507InstructionDenseCompact32k
Qwen/Qwen3-30B-A3B-Instruct-2507InstructionMoEMedium32k
Qwen/Qwen3-235B-A22B-Instruct-2507InstructionMoELarge32k
moonshotai/Kimi-K2-Instruct*InstructionMoELarge32k
zai-org/GLM-5*ReasoningMoELarge32k

*Kimi-K2 和 GLM5 访问权限请联系销售

即将上线

模型名称训练类型架构规模上下文
Qwen/Qwen3-30B-A3BHybridMoEMedium32k
Qwen/Qwen3-30B-A3B-BaseBaseMoEMedium32k
Qwen/Qwen3-8BHybridDenseSmall32k
Qwen/Qwen3-8B-BaseBaseDenseSmall32k
deepseek-ai/DeepSeek-V3.1HybridMoELarge32k
deepseek-ai/DeepSeek-V3.1-BaseBaseMoELarge32k
Qwen/Qwen3-VL-30B-A3B-InstructVisionMoEMedium32k
Qwen/Qwen3-VL-235B-A22B-InstructVisionMoELarge32k
π0RoboticsDenseSmall32k

选型建议

  • 低延迟场景:Qwen3-0.6B 或 Qwen3-4B-Instruct-2507
  • 均衡质量:Qwen3-30B-A3B-Instruct-2507
  • 更高规模:Qwen3-235B-A22B-Instruct-2507

模型分类

按训练类型

  • Hybrid:通用 + 指令能力兼顾
  • Instruction:针对指令遵循 fine-tune

按架构

  • Dense:传统 Transformer 架构
  • MoE(Mixture of Experts):稀疏激活,更高效

按规模

  • Tiny:1B 以下参数
  • Compact:1-4B 参数
  • Medium:~30B 参数
  • Large:200B+ 参数

成本效率

MoE 模型成本更优:定价按激活参数计算,而非总参数。例如 235B MoE 模型(22B 激活参数)与 22B Dense 模型成本相同。

本页目录