DeepSeek创始人梁文锋亲自署名的论文长啥样

最近,一篇 DeepSeek 团队发表的技术论文火出了圈。

小火箭shadowrocket

截至我写文章时,DeepSeek 官方发的这个介绍帖阅读数已超过200万。

更更重要的是,这篇题为《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》的论文,作者列表里赫然有着 DeepSeek 创始人梁文锋的亲自署名!

小火箭shadowrocket

那么,由这位量化投资领军人物、国内 AGI 先锋、技术领袖亲自操刀的论文,究竟说了些什么?

当前的 AI,无论是聊天机器人、代码生成,还是创意写作,都属于“ 生成式 AI ”,因为它们的核心功能都是“生成”。

AI 模型的生成能力,来自于对海量 训练数据 的学习和理解,然后通过 神经网络架构 来预测和生成与输入最相关的内容。在这一过程中,有一个至关重要的技术—— 注意力机制(Attention Mechanism) 。

注意力机制这个概念最早源于《 Attention is All You Need 》这篇著名论文。就像人在阅读长文时,我们不会逐字逐句记住所有内容,而是自动聚焦在最关键信息上。AI 模型也是这样。在处理输入信息时,模型并不一视同仁地关注所有信息,而是通过注意力机制,动态决定哪些输入信息对当前任务最重要,从而优先关注这些关键信息。这样,模型不仅能更好地处理长文本,还能提高计算效率。

关于《 Attention is All You Need 》论文详细解读,可以看这里: 常学常新:《Attention Is All You Need》万字解读!

小火箭shadowrocket

然而,传统的 完整注意力机制(Full Attention) 有一个致命缺点—— 计算量太大 。在处理长文本输入时,传统注意力机制需要计算每两个词之间的关系(即: 全连接计算 ),这就导致计算量呈指数级增长。这种情况下,即使已经是只关注“重点信息”了,但整个计算过程会变得非常缓慢,计算成本非常高,模型的效率受到限制。

为了解决这个问题,DeepSeek 团队提出了一种新的优化方法—— NSA(Natively Sparse Attention,原生稀疏注意力) 。NSA 通过智能筛选和压缩关键信息,让模型在处理长文本时能够跳过冗余计算,既保持上下文理解能力,又大幅提高计算效率。

大白话,NSA 就像是让 AI 模型学会了进阶版的“ 快速阅读 ”。它使模型能迅速扫过文章,抓住关键点,跳过不重要的部分,而不是像初学者一样,逐字逐句地费劲阅读每一个字。

实验表明,NSA 在处理超长文本(如 64k tokens)时,速度提升了 9 倍以上 ,同时在多个任务上超越了传统的完整注意力模型。

小火箭shadowrocket

NSA(Natively Sparse Attention)有三大核心技术: 动态分层稀疏策略 、 粗粒度 token 压缩 、以及 细粒度 token 选择 。

1. 动态分层稀疏策略

动态分层稀疏策略,就是让 AI 学会“选择性跳过”。

你可以把它想象成一个人读书时,不是每一页都翻得那么细致,而是根据每一页的内容,来决定重点关注哪些部分。比如,当你阅读网文时,可能会对情节发展的部分更加关注,而忽略一些背景描述性的内容。

同样地,在 NSA 中, 动态分层稀疏策略 帮助 AI 模型在处理文本时,只集中计算最重要的信息,其他部分则被 忽略 。这个“动态”就是指,模型在每次处理时,能够根据当前任务的需求来调整关注的内容,这样就避免了无谓的计算,提升了效率。

举个简单的例子,假设你在阅读一篇文章,文章分为几个部分——介绍、背景、结论。如果你正在寻找这篇文章的结论,你可能会 跳过 介绍和背景部分,直接关注结论部分。 动态分层稀疏策略 就相当于让 AI 模型也能“跳读”这些不重要的部分,直接集中精力处理最有用的内容。

小火箭shadowrocket

2. 粗粒度 token 压缩

粗粒度 token 压缩,就是让 AI 学会“抓大放小”。

在传统的注意力机制中,模型需要对文本中的每一个词语都进行全面计算。这就好像是我们在阅读文章时,要记住文章中的每一个单词,虽然这些单词中有很多并不重要。 粗粒度 token 压缩 就是让模型能“看”得更大一点,把相关的词汇“压缩”成一个大块的知识,从而减少计算量。

举个例子,假设我们要处理一段关于天气的文章:“今天的天气晴,温度适宜,适合外出游玩。”模型可能会把“今天的天气晴”这一部分压缩为“天气晴”——也就是忽略不那么重要的“今天”和“适合外出游玩”部分。通过这种压缩,模型能快速捕捉到关键信息,提高处理速度。

3. 细粒度 token 选择

细粒度 token 选择,就是让 AI 学会“挑选重点”。

当你在阅读一篇论文时,通常不会每个句子都详细阅读一遍,而是快速挑选出那些能直接帮助你理解论文核心观点的句子。这就是 细粒度 token 选择 的工作方式——它帮助 AI 模型决定哪些词是“核心”,哪些是“附加”信息,从而提高计算的准确性和效率。

比如在处理一篇关于“人工智能发展历程”的文章时,模型可能会重点关注“人工智能”这个词,而忽略“历程”的细节描述。通过 选择性计算 ,模型不仅保留了关键信息的准确性,还节省了大量不必要的计算。

最后,总结一下,NSA 带来的好处。

更快 :计算速度大幅提升,特别是在处理长文本时。

更省 :减少了大量计算成本,让训练和推理变得更加高效。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/328.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>