dflash_z-lab

dflash

DFlash 是一个轻量级的“块扩散（block diffusion）”推测解码模型，用于为大语言模型提供高效且高质量的并行草稿生成，从而加速推理服务。项目已提供多种主流模型的 DFlash 草稿模型（如 Gemma、Qwen、Kimi、LLaMA、gpt-oss 等），并支持在 Transformers、SGLang、vLLM 以及 Apple Silicon 的 MLX 后端中部署与使用。仓库包含安装说明、各后端快速启动示例，以及统一的基准评测工具（覆盖 gsm8k、math500、humaneval、mbpp、mt-bench）。此外，项目计划开源训练配方，支持用户为任意 LLM 训练自己的 DFlash 草稿模型。

dflash ​

dflash