使用指南
模型列表
MinT 按可用性状态列出模型。
可用模型
| 模型名称 | 训练类型 | 架构 | 规模 | 上下文 |
|---|---|---|---|---|
| Qwen/Qwen3-0.6B | Hybrid | Dense | Tiny | 32k |
| Qwen/Qwen3-4B-Instruct-2507 | Instruction | Dense | Compact | 32k |
| Qwen/Qwen3-30B-A3B-Instruct-2507 | Instruction | MoE | Medium | 32k |
| Qwen/Qwen3-235B-A22B-Instruct-2507 | Instruction | MoE | Large | 32k |
| moonshotai/Kimi-K2-Instruct* | Instruction | MoE | Large | 32k |
| zai-org/GLM-5* | Reasoning | MoE | Large | 32k |
*Kimi-K2 和 GLM5 访问权限请联系销售
即将上线
| 模型名称 | 训练类型 | 架构 | 规模 | 上下文 |
|---|---|---|---|---|
| Qwen/Qwen3-30B-A3B | Hybrid | MoE | Medium | 32k |
| Qwen/Qwen3-30B-A3B-Base | Base | MoE | Medium | 32k |
| Qwen/Qwen3-8B | Hybrid | Dense | Small | 32k |
| Qwen/Qwen3-8B-Base | Base | Dense | Small | 32k |
| deepseek-ai/DeepSeek-V3.1 | Hybrid | MoE | Large | 32k |
| deepseek-ai/DeepSeek-V3.1-Base | Base | MoE | Large | 32k |
| Qwen/Qwen3-VL-30B-A3B-Instruct | Vision | MoE | Medium | 32k |
| Qwen/Qwen3-VL-235B-A22B-Instruct | Vision | MoE | Large | 32k |
| π0 | Robotics | Dense | Small | 32k |
选型建议
- 低延迟场景:Qwen3-0.6B 或 Qwen3-4B-Instruct-2507
- 均衡质量:Qwen3-30B-A3B-Instruct-2507
- 更高规模:Qwen3-235B-A22B-Instruct-2507
模型分类
按训练类型
- Hybrid:通用 + 指令能力兼顾
- Instruction:针对指令遵循 fine-tune
按架构
- Dense:传统 Transformer 架构
- MoE(Mixture of Experts):稀疏激活,更高效
按规模
- Tiny:1B 以下参数
- Compact:1-4B 参数
- Medium:~30B 参数
- Large:200B+ 参数
成本效率
MoE 模型成本更优:定价按激活参数计算,而非总参数。例如 235B MoE 模型(22B 激活参数)与 22B Dense 模型成本相同。