RTX4090单卡跑满血版DeepSeekR1清华amp趋境科技联合推出KTransfor

小火箭shadowrocket • 2026年1月2日 am8:02 • 小火箭

在一周前的《手把手教你本地部署DeepSeek-R1：3步搞定，有手就行！》一文里，我详细介绍了如何在本地部署 DeepSeek-R1 模型。

本地部署的优势在于灵活和数据隐私，但对硬件的要求实在太高，个人想要部署参数量为671B（6710亿）的满血版 DeepSeek-R1 模型几乎是不现实的。

附上7个不同参数量的 DeepSeek-R1 各自所需的配置。

可以看到，现阶段最强的面向个人用户的消费级显卡 NVIDIA GeForce RTX 4090 （不算刚刚发布的5090的话），只能跑得动参数量为32B的 DeepSeek-R1 。实在有点不够看。

那么问题来了，能不能用最小的成本办最大的事？比如在 RTX 4090 上跑满血版 DeepSeek-R1 ？

还真可以。最近，清华大学MADSys团队联合趋境科技（Approaching.AI）给出了KTransformers这个全新的开源解决方案。不需要A100/H100多卡集群，单张RTX 4090也能跑满血版 DeepSeek-R1 。

KTransformers 是什么

KTransformers是一个基于 Hugging Face Transformers 的高性能LLM推理优化框架，其核心技术是“ 注入（Injection）机制 ”。这一机制允许用户通过YAML配置文件，自动将PyTorch计算图中的标准算子替换为更高效的优化内核，如Llamafile、Marlin和即将开源的AMX，从而降低显存占用、提升推理速度，即便在有限的本地环境下也能运行大规模LLM。

KTransformers的关键特点包括：

支持DeepSeek-R1、DeepSeek-V2/V3、Qwen2-57B、Mixtral 8x7B/22B等SOTA大模型

兼容OpenAI API，可作为VSCode Copilot、Tabby等AI助手的后端

支持自动量化（Q4_K_M）、MoE（专家模型）优化，极限压缩显存占用

Prefill+Decode双阶段优化，相比llama.cpp最高提升27.79×的推理速度

RESTful API & Web UI交互，支持本地部署和云端推理

根据该项目文档2月10日的更新，KTransformers团队成功在资源受限的本地环境（ 24GB VRAM ， 382GB DRAM ）下运行了DeepSeek-R1/V3的Q4_K_M量化版本，并通过AMX优化和选择性专家激活策略，使推理速度相比llama.cpp，Prefill最高提升 27.79 倍，Decode提升 3.03 倍。

接下来附上详细的操作步骤。

KTransformers项目地址：https://github.com/kvcache-ai/ktransformers

本地部署满血版DeepSeek模型文档：https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

环境配置

硬件要求

GPU: NVIDIA RTX 4090（24GB VRAM）

CPU: Intel Xeon Gold 6454S或同级别CPU

内存: 推荐382GB DRAM

软件环境

V0.3-Preview 版本

V0.2/V0.2.1 版本

操作系统

Ubuntu 20.04/22.04

CUDA 版本

12.6

12.x（建议参考官方文档）

Python 版本

3.11（推荐）

3.10 及以上

PyTorch 版本

2.6

2.1 及以上

KTransformers

0.3.0rc0

搜索内容

RTX4090单卡跑满血版DeepSeekR1清华amp趋境科技联合推出KTransfor

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章