lawbench

自包含 MinT 实验：LawBench。在一份固定的本地 benchmark 合约下评估官方 20 任务 LawBench，并维护一条围绕 Qwen/Qwen3-4B-Instruct-2507 + LoRA SFT 的本地执行 baseline。不声称对 Qzhou-Law 或 DISC-LawLLM 做 paper-faithful 复现 —— 官方 scorer 和 benchmark 合约保持固定，但维护的可跑线是较小的本地执行 baseline。

At a glance


算法	LoRA SFT
Base model	`Qwen/Qwen3-4B-Instruct-2507`
训练数据	公开的 `DISC-Law-SFT` train artifact
Benchmark	全 20 任务 LawBench（`data/eval/full.jsonl`，约 10000 行）
Primary metric	`METRIC eval_lawbench_avg`
Upstream README	Open in mint-cookbook →

环境配置、可执行命令、完整 eval 流程见上游 README。实验遵循共享的 cookbook lifecycle：uv sync → --dry-run → --eval-only → 训练。

lawbench

At a glance

本页目录