RTX4090单卡跑满血版DeepSeekR1清华amp趋境科技联合推出KTransfor
在一周前的《 手把手教你本地部署DeepSeek-R1:3步搞定,有手就行! 》一文里,我详细介绍了如何在本地部署 DeepSeek-R1 模型。
本地部署的优势在于灵活和数据隐私,但对硬件的要求实在太高,个人想要部署参数量为671B(6710亿)的满血版 DeepSeek-R1 模型几乎是不现实的。
附上7个不同参数量的 DeepSeek-R1 各自所需的配置。

可以看到,现阶段最强的面向个人用户的消费级显卡 NVIDIA GeForce RTX 4090 (不算刚刚发布的5090的话),只能跑得动参数量为32B的 DeepSeek-R1 。实在有点不够看。
那么问题来了,能不能用最小的成本办最大的事?比如在 RTX 4090 上跑满血版 DeepSeek-R1 ?
还真可以。最近, 清华大学MADSys团队 联合 趋境科技(Approaching.AI) 给出了KTransformers这个全新的开源解决方案。不需要A100/H100多卡集群,单张RTX 4090也能跑满血版 DeepSeek-R1 。
KTransformers 是什么
KTransformers是一个基于 Hugging Face Transformers 的高性能LLM推理优化框架,其核心技术是“ 注入(Injection)机制 ”。这一机制允许用户通过YAML配置文件,自动将PyTorch计算图中的标准算子替换为更高效的优化内核,如Llamafile、Marlin和即将开源的AMX,从而 降低显存占用、提升推理速度 ,即便在有限的本地环境下也能运行大规模LLM。

KTransformers的 关键特点 包括:
支持DeepSeek-R1、DeepSeek-V2/V3、Qwen2-57B、Mixtral 8x7B/22B等SOTA大模型
兼容OpenAI API,可作为VSCode Copilot、Tabby等AI助手的后端
支持自动量化(Q4_K_M)、MoE(专家模型)优化,极限压缩显存占用
Prefill+Decode双阶段优化,相比llama.cpp最高提升27.79×的推理速度
RESTful API & Web UI交互,支持本地部署和云端推理
根据该项目文档2月10日的更新,KTransformers团队成功在资源受限的本地环境( 24GB VRAM , 382GB DRAM )下运行了DeepSeek-R1/V3的Q4_K_M量化版本,并通过AMX优化和选择性专家激活策略,使推理速度相比llama.cpp,Prefill最高提升 27.79 倍,Decode提升 3.03 倍。

接下来附上详细的操作步骤。
KTransformers项目地址 :https://github.com/kvcache-ai/ktransformers
本地部署满血版DeepSeek模型文档 :https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
环境配置
硬件要求
GPU: NVIDIA RTX 4090(24GB VRAM)
CPU: Intel Xeon Gold 6454S或同级别CPU
内存: 推荐382GB DRAM
软件环境
V0.3-Preview 版本
V0.2/V0.2.1 版本
操作系统
Ubuntu 20.04/22.04
Ubuntu 20.04/22.04
CUDA 版本
12.6
12.x(建议参考官方文档)
Python 版本
3.11(推荐)
3.10 及以上
PyTorch 版本
2.6
2.1 及以上
KTransformers
0.3.0rc0
最新稳定版
安装 KTransformers
1. 安装系统依赖
sudo apt update && sudo apt install -y build-essential git wget curl
2. 安装 Python 及 Pip
V0.3版本推荐Python 3.11。
sudo apt install -y python3.11 python3.11-pip python3.11-venvpython3.11 -m venv venvsource venv/bin/activate
V0.2/V0.2.1版本支持Python 3.10及以上。
sudo apt install -y python3 python3-pip python3-venvpython3 -m venv venvsource venv/bin/activate
3. 安装 CUDA 及 PyTorch
V0.3-Preview(CUDA 12.6 + PyTorch 2.6)
pip install torch==2.6.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
V0.2/V0.2.1(根据CUDA版本安装PyTorch)
# 如果使用 CUDA 12.xpip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu12x# 如果使用 CUDA 11.x(如 11.8)pip install torch==2.1.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
4. 安装 KTransformers
最佳性能,V0.3-Preview推荐
wget https://github.com/kvcache-ai/ktransformers/releases/download/v0.3/ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whlpip install ./ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whl
最新稳定版,V0.2/V0.2.1
pip install ktransformers
适合开发者,源码安装
git clone https://github.com/kvcache-ai/ktransformers.gitcd ktransformersgit submodule initgit submodule updatesh ./install.sh # 或 make dev_install
5. 下载 DeepSeek-R1/V3
# 使用 --depth 1 参数,只克隆最新版本,减少下载量git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-R1git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V3
或者,也可以从Hugging Face直接下载GGUF量化版本。
# 以DeepSeek-V3的Q4_K_M量化版本为例wget https://huggingface.co/deepseek-ai/DeepSeek-V3-GGUF/resolve/main/deepseek-v3-q4_k_m.gguf
运行 DeepSeek-R1/V3
1. 4090单GPU运行
python -m ktransformers.local_chat --model_path <模型路径或 Hugging Face Hub ID> --gguf_path <GGUF 文件路径或 Hugging Face Hub 文件名> --prompt_file <提示文件路径(可选)> --cpu_infer 33 --max_new_tokens 1000
参数解析
--cpu_infer 33 :使用33线程进行推理(可根据CPU调整)
--max_new_tokens 1000 :最大生成Token数
2. 多GPU运行
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/332.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论