RTX4090单卡跑满血版DeepSeekR1清华amp趋境科技联合推出KTransfor

在一周前的《 手把手教你本地部署DeepSeek-R1:3步搞定,有手就行! 》一文里,我详细介绍了如何在本地部署 DeepSeek-R1 模型。

本地部署的优势在于灵活和数据隐私,但对硬件的要求实在太高,个人想要部署参数量为671B(6710亿)的满血版 DeepSeek-R1 模型几乎是不现实的。

附上7个不同参数量的 DeepSeek-R1 各自所需的配置。

小火箭shadowrocket

可以看到,现阶段最强的面向个人用户的消费级显卡 NVIDIA GeForce RTX 4090 (不算刚刚发布的5090的话),只能跑得动参数量为32B的 DeepSeek-R1 。实在有点不够看。

那么问题来了,能不能用最小的成本办最大的事?比如在 RTX 4090 上跑满血版 DeepSeek-R1 ?

还真可以。最近, 清华大学MADSys团队 联合 趋境科技(Approaching.AI) 给出了KTransformers这个全新的开源解决方案。不需要A100/H100多卡集群,单张RTX 4090也能跑满血版 DeepSeek-R1 。

KTransformers 是什么

KTransformers是一个基于 Hugging Face Transformers 的高性能LLM推理优化框架,其核心技术是“ 注入(Injection)机制 ”。这一机制允许用户通过YAML配置文件,自动将PyTorch计算图中的标准算子替换为更高效的优化内核,如Llamafile、Marlin和即将开源的AMX,从而 降低显存占用、提升推理速度 ,即便在有限的本地环境下也能运行大规模LLM。

小火箭shadowrocket

KTransformers的 关键特点 包括:

支持DeepSeek-R1、DeepSeek-V2/V3、Qwen2-57B、Mixtral 8x7B/22B等SOTA大模型

兼容OpenAI API,可作为VSCode Copilot、Tabby等AI助手的后端

支持自动量化(Q4_K_M)、MoE(专家模型)优化,极限压缩显存占用

Prefill+Decode双阶段优化,相比llama.cpp最高提升27.79×的推理速度

RESTful API & Web UI交互,支持本地部署和云端推理

根据该项目文档2月10日的更新,KTransformers团队成功在资源受限的本地环境( 24GB VRAM , 382GB DRAM )下运行了DeepSeek-R1/V3的Q4_K_M量化版本,并通过AMX优化和选择性专家激活策略,使推理速度相比llama.cpp,Prefill最高提升 27.79 倍,Decode提升 3.03 倍。

小火箭shadowrocket

接下来附上详细的操作步骤。

KTransformers项目地址 :https://github.com/kvcache-ai/ktransformers

本地部署满血版DeepSeek模型文档 :https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

环境配置

硬件要求

GPU: NVIDIA RTX 4090(24GB VRAM)

CPU: Intel Xeon Gold 6454S或同级别CPU

内存: 推荐382GB DRAM

软件环境

V0.3-Preview 版本

V0.2/V0.2.1 版本

操作系统

Ubuntu 20.04/22.04

Ubuntu 20.04/22.04

CUDA 版本

12.6

12.x(建议参考官方文档)

Python 版本

3.11(推荐)

3.10 及以上

PyTorch 版本

2.6

2.1 及以上

KTransformers

0.3.0rc0

最新稳定版

安装 KTransformers

1. 安装系统依赖

sudo apt update && sudo apt install -y build-essential git wget curl

2. 安装 Python 及 Pip

V0.3版本推荐Python 3.11。

sudo apt install -y python3.11 python3.11-pip python3.11-venvpython3.11 -m venv venvsource venv/bin/activate

V0.2/V0.2.1版本支持Python 3.10及以上。

sudo apt install -y python3 python3-pip python3-venvpython3 -m venv venvsource venv/bin/activate

3. 安装 CUDA 及 PyTorch

V0.3-Preview(CUDA 12.6 + PyTorch 2.6)

pip install torch==2.6.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

V0.2/V0.2.1(根据CUDA版本安装PyTorch)

# 如果使用 CUDA 12.xpip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu12x# 如果使用 CUDA 11.x(如 11.8)pip install torch==2.1.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

4. 安装 KTransformers

最佳性能,V0.3-Preview推荐

wget https://github.com/kvcache-ai/ktransformers/releases/download/v0.3/ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whlpip install ./ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whl

最新稳定版,V0.2/V0.2.1

pip install ktransformers

适合开发者,源码安装

git clone https://github.com/kvcache-ai/ktransformers.gitcd ktransformersgit submodule initgit submodule updatesh ./install.sh  # 或 make dev_install

5. 下载 DeepSeek-R1/V3

# 使用 --depth 1 参数,只克隆最新版本,减少下载量git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-R1git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V3

或者,也可以从Hugging Face直接下载GGUF量化版本。

# 以DeepSeek-V3的Q4_K_M量化版本为例wget https://huggingface.co/deepseek-ai/DeepSeek-V3-GGUF/resolve/main/deepseek-v3-q4_k_m.gguf

运行 DeepSeek-R1/V3

1. 4090单GPU运行

python -m ktransformers.local_chat     --model_path <模型路径或 Hugging Face Hub ID>     --gguf_path <GGUF 文件路径或 Hugging Face Hub 文件名>     --prompt_file <提示文件路径(可选)>     --cpu_infer 33     --max_new_tokens 1000

参数解析

--cpu_infer 33 :使用33线程进行推理(可根据CPU调整)

--max_new_tokens 1000 :最大生成Token数

2. 多GPU运行

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/332.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>