2025AI工程进阶指南解锁十大核心领域精选50篇必读论文

小火箭shadowrocket • 2026年1月8日 am8:03 • 小火箭

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“ 外挂 ”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于 AI科普， AI工具测评， AI效率提升， AI行业洞察。关注我，AI之路不迷路，2025我们继续出发。

这是一份由AI工程社区 Latent Space 发布的阅读清单，其中精选了 50篇 AI工程领域极具价值的论文、模型和博客，覆盖了十大AI工程核心模块，旨在帮助AI工程师和爱好者构建系统的AI知识体系，提升实战能力。

关于 Latent Space

Latent Space是一个专注于AI工程领域的技术社区，以其高质量的时事通讯、顶尖播客（在美国技术类播客中排名前十！）和活跃的线上线下社区而闻名，被誉为“排名第一的AI工程播客”。Latent Space在X平台拥有13.1K的关注者，其中包括Elon Musk和知名播客主持人Lex Fridman！

话不多说，我们直接开始。

1. 前沿 LLM

这一部分聚焦于大语言模型 (LLM)，包括 GPT 系列 (特别是 GPT-4o 的系统卡片)、Claude 3 系列、Gemini 系列等，以及 LLaMA 系列等开源模型。

清单：

OpenAI 系列：引领多次技术革新

GPT-1: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf (开启了预训练语言模型的新时代)

GPT-2: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf (展示了大语言模型的能力)

GPT-3: https://arxiv.org/abs/2005.14165 ( 里程碑式模型，具备少样本学习能力)

Codex: https://arxiv.org/abs/2107.03374 (专注于代码生成)

InstructGPT: https://arxiv.org/abs/2203.02155 (通过人类反馈强化学习，提升了模型的指令遵循能力)

GPT-4 Technical Report: https://arxiv.org/abs/2303.08774 ( 经典多模态模型 )

GPT 3.5: https://openai.com/index/chatgpt/ (曾经 ChatGPT 背后的模型)

GPT-4o : https://openai.com/index/hello-gpt-4o/ ( 最新发布，支持更强的多模态实时交互)

o1: https://openai.com/index/introducing-openai-o1-preview/ (第一代推理模型)

o3: https://openai.com/index/deliberative-alignment/ (第二代推理模型)

Anthropic 系列：OpenAI 有力竞争者之一

Claude 3 : https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf (在多个评估基准上表现优异)

Claude 3.5 Sonnet : https://www.anthropic.com/news/claude-3-5-sonnet (最新模型，性能和速度进一步提升)

Google 系列：性能和多模态方面表现突出

Gemini 1 : https://arxiv.org/abs/2312.11805 ( 多模态大模型，支持文本、图像、音频等多种输入)

Gemini 2.0 Flash: https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0-flash (更轻量级、更快速的版本)

Gemini 2.0 Flash Thinking: https://ai.google.dev/gemini-api/docs/thinking-mode (解锁模型的推理能力)

Gemma 2: https://arxiv.org/abs/2408.00118 （Google 最新的开源模型）

Meta 系列：开源和高性能

LLaMA: https://arxiv.org/abs/2302.13971 (开源大语言模型的先驱)

Llama 2 : https://arxiv.org/abs/2307.09288 (性能大幅提升，支持商用)

Llama 3 : https://arxiv.org/abs/2407.21783 ( 最新开源模型，性能达到当前 SOTA 水平)

Mistral AI 系列：欧洲的OpenAI

Mistral 7B : https://arxiv.org/abs/2310.06825 (小而美的典范)

Mixtral of Experts: https://arxiv.org/abs/2401.04088 (采用 MOE 架构)

Pixtral 12B: https://arxiv.org/abs/2410.07073 (120亿参数的多模态模型)

DeepSeek 系列：中国AI领域的当红炸子鸡

DeepSeek V1: https://arxiv.org/abs/2401.02954 (DeepSeek 一代)

DeepSeek Coder: https://arxiv.org/abs/2401.14196 (专注于代码生成)

DeepSeek MoE: https://arxiv.org/abs/2401.06066 （DeepSeek MoE）

DeepSeek V2: https://arxiv.org/abs/2405.04434 (DeepSeek 二代)

DeepSeek V3 : https://github.com/deepseek-ai/DeepSeek-V3 （ DeepSeek 最新最强模型）

Apple 系列：端侧智能

Apple Intelligence : https://arxiv.org/abs/2407.21075 (苹果入局，端侧智能)

2. 基准测试和评估

如何客观衡量AI模型的“智商”？这一部分将介绍主流的模型评估基准测试和评估框架。就像真实世界里学生的考试，基准测试可以相对客观地评估AI模型在特定任务上的能力，帮助我们更好地理解模型的优缺点。

清单：

通用知识与推理能力评估

评估模型在各学科知识领域的理解和推理能力。

MMLU (Massive Multitask Language Understanding): https://arxiv.org/abs/2009.03300 ( 应用最广泛的知识型测试之一，涵盖 57 个学科，包括人文、STEM、社科等)

MMLU Pro (Professional-Level MMLU): https://arxiv.org/abs/2406.01574 ( MMLU 的升级版，难度更高，更接近专业水平测试)

GPQA & GPQA Diamond : https://arxiv.org/abs/2311.12022 (针对研究生水平的问题进行测试，题目质量和难度极高, GPQA Diamond 是其增强版本 )

BIG-Bench : https://arxiv.org/abs/2206.04615 (包含 200 多个不同类型的任务，全面评估模型的各项能力)

BIG-Bench Hard : https://arxiv.org/abs/2210.09261 ( BIG-Bench 的增强版本，筛选了最具挑战性的任务)

长文本推理能力评估

评估模型处理长文本和进行复杂推理的能力。

MuSR (Multi-Step Reasoning): https://arxiv.org/abs/2310.16049 (评估模型在长文档中进行多步推理的能力)

LongBench : https://arxiv.org/abs/2412.15204 ( 多任务、中英双语、长文本理解的基准测试)

BABILong : https://arxiv.org/abs/2406.10149 (合成的长文本推理数据集)

Lost in the Middle : https://arxiv.org/abs/2307.03172 (研究长文本中信息的利用情况)

Needle in a Haystack : https://github.com/gkamradt/LLMTest_NeedleInAHaystack ( “大海捞针”测试，评估模型从长文本中提取关键信息的能力)

数学能力评估

评估模型的数学推理和解题能力。

MATH : https://arxiv.org/abs/2103.03874 (包含 12,500 道竞赛级别数学题目，涵盖代数、几何、概率等多个领域)

AIME (American Invitational Mathematics Examination): https://www.kaggle.com/datasets/hemishveeraboina/aime-problem-set-1983-2024 ( 美国数学邀请赛，难度介于 AMC 和 IMO 之间)

FrontierMath : https://arxiv.org/abs/2411.04872 (更关注高级数学推理能力，例如大学数学竞赛题目)

AMC10 & AMC12 : https://github.com/ryanrudes/amc ( 美国数学竞赛，AMC10 面向 10 年级及以下学生，AMC12 面向 12 年级及以下学生)

指令遵循能力评估

评估模型理解和执行指令的能力。

IFEval (Instruction Following Evaluation): https://arxiv.org/abs/2311.07911 (评估模型遵循各种类型指令的能力)

MT-Bench (Multi-Turn Benchmark): https://arxiv.org/abs/2306.05685 ( 多轮对话场景下评估模型的指令遵循能力)

抽象推理能力评估

评估模型的抽象推理和模式识别能力。

ARC AGI (Abstraction and Reasoning Corpus): https://arcprize.org/arc (评估模型的通用智能，挑战模型像人类一样进行抽象推理)

3. 提示工程、上下文学习和思维链

如何通过提示词技术来引导模型生成更符合需求的结果？这一部分介绍提示工程、上下文学习 (ICL) 和思维链 (Chain of Thought) 等技术，帮助我们更好地与AI模型进行交互。

清单：

实战教程

The Prompt Report : https://arxiv.org/abs/2406.06608 ( 最新的提示工程综述报告 )

Lilian Weng 的博客 : https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/ (Lilian Weng 对提示工程的系统性总结)

Eugene Yan 的博客 : https://eugeneyan.com/writing/prompting/ (Eugene Yan 分享的提示工程技巧)

Anthropic 的提示工程教程 : https://github.com/anthropics/prompt-eng-interactive-tutorial (Anthropic官方带你一步步学习如何构建高效的提示)

AI Engineer Workshop : https://www.youtube.com/watch?v=hkhDdcM5V94 (提示工程实战经验分享的视频)

核心技术

Chain-of-Thought (CoT) : https://arxiv.org/abs/2201.11903 ( 思维链技术的开山之作 )

Scratchpads : https://arxiv.org/abs/2112.00114 (为模型提供“草稿纸”，提升其推理能力)

Let’s Think Step By Step : https://arxiv.org/abs/2205.11916 (经典提示词，思维链技术的标志性语句)

Tree of Thoughts (ToT) : https://arxiv.org/abs/2305.10601 ( 思维树，增强模型的推理和规划能力)

Prompt Tuning : https://aclanthology.org/2021.emnlp-main.243/ ( 软提示/Soft Prompt ，调整模型的行为)

Prefix-Tuning : https://arxiv.org/abs/2101.00190 (添加可训练的前缀/Prefix，实现模型输出的调优)

Adjust Decoding : https://arxiv.org/abs/2402.10200 (通过调整解码策略来提高模型性能)

Representation Engineering : https://vgel.me/posts/representation-engineering/ ( 表征工程，通过直接修改模型的隐藏状态来引导生成)

自动提示工程

Automatic Prompt Engineering (APE) : https://arxiv.org/abs/2211.01910 ( 自动生成和优化提示 )

DSPy : https://arxiv.org/abs/2310.03714 ( DSPy 框架，通过编程，而非手动编写提示词，来构建复杂的 AI 系统)

4. 检索增强生成 (RAG)

RAG，全称 Retrieval-Augmented Generation，结合了检索和生成模型的优势，利用外部知识库来增强模型的性能。这一部分介绍 Meta 的 RAG 论文、MTEB 嵌入基准测试、GraphRAG 等，以及 RAGAS 评估框架。向量数据库作为目前 RAG 应用的重要基础设施，也推荐了解。

清单：

基础理论

Introduction to Information Retrieval : https://nlp.stanford.edu/IR-book/information-retrieval-book.html (信息检索领域的经典教材 )

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks : https://arxiv.org/abs/2005.11401 ( Meta 的 RAG 论文，RAG 技术的开山之作)

RAG 2.0 : https://contextual.ai/introducing-rag2/ (RAG 技术的演进)

核心技术

HyDE (Hypothetical Document Embeddings): https://docs.llamaindex.ai/en/stable/optimizing/advanced_retrieval/query_transformations/ (通过假设性文档增强查询效果)

Chunking : https://research.trychroma.com/evaluating-chunking (分块策略)

Rerank : https://cohere.com/blog/rerank-3pt5 (重排，优化检索结果的排序)

MTEB (Massive Text Embedding Benchmark): https://arxiv.org/abs/2210.07316 (评估文本嵌入模型性能的基准测试)

高级技术

GraphRAG : https://arxiv.org/pdf/2404.16130 (结合知识图谱和 RAG，提升 RAG 的知识推理能力)

RAGAS : https://arxiv.org/abs/2309.15217 ( 评估 RAG 系统性能的自动化框架)

实践指南

LlamaIndex : https://docs.llamaindex.ai/en/stable/understanding/rag/ (LlamaIndex 提供的 RAG 实战教程和工具)

LangChain : https://python.langchain.com/docs/tutorials/rag/ (LangChain 提供的 RAG 的集成方案和示例代码)

5. 智能体 (AI Agent)

2025年的大热门，AI的未来形态，能够像人类一样感知环境、做出决策并采取行动。这一部分介绍 SWE-Bench、ReAct、MemGPT、Voyager 等重要的智能体相关论文。

清单：

基准测试

SWE-Bench : https://arxiv.org/abs/2310.06770 (评估 Agent 解决真实世界 GitHub 软件工程问题的能力)

SWE-Agent : https://arxiv.org/abs/2405.15793 (基于LLM的软件工程师Agent)

SWE-Bench Multimodal : https://arxiv.org/abs/2410.03859 (多模态 SWE-Bench)

Konwinski Prize : https://kprize.ai/ (奖励在软件工程自动化方面有突出贡献的 Agent)

核心技术

ReAct: Synergizing Reasoning and Acting in Language Models : https://arxiv.org/abs/2210.03629 ( ReAct 框架 , 结合了推理 (Reasoning) 和行动 (Acting))

MemGPT: Towards LLMs as Operating Systems : https://arxiv.org/abs/2310.08560 (赋予 Agent 长期记忆能力)

MetaGPT: The Multi-Agent Framework : https://arxiv.org/abs/2308.00352 ( 多智能体元编程框架 , 通过角色分配和协作，使多个 Agent 能够像一个团队一样工作)

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation : https://arxiv.org/abs/2308.08155 ( 微软的开源框架，支持通过定义和组合多个 Agent 来构建复杂的 LLM 应用)

Smallville: Generative Agents: Interactive Simulacra of Human Behavior : https://arxiv.org/abs/2304.03442 & https://github.com/joonspk-research/generative_agents (来自斯坦福和谷歌, 创建具有社交行为的模拟智能体)

Voyager: An Open-Ended Embodied Agent with Large Language Models : https://arxiv.org/abs/2305.16291 ( NVIDIA 的 Minecraft Agent , 能够在 Minecraft 世界中持续学习、探索和发现)

Agent Workflow Memory : https://arxiv.org/abs/2409.07429 (通过引入工作流记忆机制来提高Agent的规划和执行能力)

实践指南

Building Effective Agents : https://www.anthropic.com/research/building-effective-agents (Anthropic 分享的构建高效 Agent 的实践经验和思考)

OpenAI Swarm : https://github.com/openai/swarm (OpenAI 推出的多智能体工具)

6. 代码生成

这一部分介绍 The Stack 代码数据集、HumanEval/Codex 基准测试、AlphaCodeium 论文等。

清单：

数据集

The Stack : https://arxiv.org/abs/2211.15533 ( 大规模、多语言的源代码数据集， 3 TB )

代码生成模型

DeepSeek-Coder : https://arxiv.org/abs/2401.14196 (DeepSeek-Coder 模型论文)

Code Llama : https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/ (Meta 开源的一系列代码生成模型)

Qwen2.5-Coder : https://arxiv.org/abs/2409.12186 （通义千问2.5系列的代码生成模型）

AlphaCodium : https://arxiv.org/abs/2401.08500 (DeepMind 开发的代码生成模型)

评估基准

HumanEval/Codex : https://arxiv.org/abs/2107.03374 (评估代码生成模型解决基本编程问题的能力 )

Aider : https://aider.chat/docs/leaderboards/ (Aider 整理的多个代码生成基准测试的排行榜 )

Codeforces : https://arxiv.org/abs/2312.02143 (用于评估模型的竞赛级编程能力)

BigCodeBench : https://huggingface.co/spaces/bigcode/bigcodebench-leaderboard (BigCode 项目推出的代码生成多维度评估套件 )

LiveCodeBench : https://livecodebench.github.io/ (关注代码生成模型输出的正确性和运行时行为 )

SciCode : https://buttondown.com/ainews/archive/ainews-to-be-named-5745/ (评估代码生成模型在科学计算领域的性能)

AI代码审查

CriticGPT : https://criticgpt.org/criticgpt-openai/ (OpenAI 内部用来帮助人类程序员发现代码缺陷的工具)

7. 视觉模型

这一部分介绍 CLIP、Segment Anything Model 等视觉模型，以及多模态大模型的发展趋势。

清单：

目标检测

YOLO (You Only Look Once): https://arxiv.org/abs/1506.02640 ( 经典的目标检测模型，以速度和准确性而闻名)

DETRs Beat YOLOs on Object Detection : https://arxiv.org/abs/2304.08069 (DETR 系列模型，一种基于 Transformer 的目标检测方法，性能更优)

视觉-语言预训练

CLIP (Contrastive Language-Image Pre-training): https://arxiv.org/abs/2103.00020 ( OpenAI 的里程碑式工作，通过对比学习将图像和文本联系起来)

MMVP Benchmark: Multimodal Video Pretraining for Video Action Recognition : https://arxiv.org/abs/2401.06209 (多模态视频基准测试)

图像分割

Segment Anything Model (SAM) : https://arxiv.org/abs/2304.02643 ( Meta 的图像分割模型，可以通过提示 (prompt) 分割出图像中的任意物体)

多模态大模型

Flamingo: a Visual Language Model for Few-Shot Learning : https://huyenchip.com/2023/10/10/multimodal.html (DeepMind 的多模态模型，支持少样本学习 )

Chameleon: Mixed-Modal Early-Fusion Foundation Models : https://arxiv.org/abs/2405.09818 (Meta 的多模态模型 , 采用早融合的方式)

GPT-4V system card : https://cdn.openai.com/papers/GPTV_System_Card.pdf (GPT-4V 的系统卡片 )

8. 语音模型

从语音识别到语音合成，AI 正在改变我们与机器交互的方式。这一部分介绍 Whisper、AudioPaLM、NaturalSpeech 等语音模型，以及相关的应用案例。

清单：

语音识别 (ASR)

Whisper : https://arxiv.org/abs/2212.04356 ( OpenAI 开源的语音识别模型，支持多种语言)

语音合成 (TTS)

NaturalSpeech : https://arxiv.org/abs/2205.04421 (微软的高质量语音合成模型 )

语音大模型

AudioPaLM : https://audiopalm.github.io/ (Google 的音频-文本多模态大模型，可以处理和生成音频和文本内容)

实时语音技术

Kyutai Moshi : https://arxiv.org/html/2410.00037v2 (支持全双工语音-文本转换的开源模型，低延迟)

OpenAI Realtime API : https://platform.openai.com/docs/guides/realtime (OpenAI 推出的实时 API )

9. 图像/视频模型

Stable Diffusion、Sora 等生成模型，让我们看到了 AI 在图像和视频生成方面的巨大潜力。这一部分介绍图像和视频模型相关的论文，以及 ComfyUI 等工具。

清单：

扩散模型 (Diffusion Models)

Latent Diffusion Models : https://arxiv.org/abs/2112.10752 ( Stable Diffusion 的核心技术 )

Consistency Models : https://arxiv.org/abs/2303.01469 (引入一致性约束，加快扩散模型的采样速度，大幅减少采样步骤)

DiT (Diffusion Transformers): https://arxiv.org/abs/2212.09748 ( Sora 的核心技术 , 将 Transformer 架构应用于扩散模型，为生成高质量视频奠定了基础)

图像生成模型

DALL-E : https://arxiv.org/abs/2102.12092 (OpenAI 的开创性工作，根据文本描述生成图像 )

DALL-E 2 : https://arxiv.org/abs/2204.06125 (DALL-E 的升级版，生成图像的分辨率和质量更高 )

DALL-E 3 : https://cdn.openai.com/papers/dall-e-3.pdf (进一步提升图像生成质量，并更好地理解和遵循文本描述 )

Imagen : https://arxiv.org/abs/2205.11487 (Google 的文本到图像生成模型)

Imagen 2 : https://deepmind.google/technologies/imagen-2/ (Imagen 的升级版，支持更多样化的图像编辑功能 )

Imagen 3 : https://arxiv.org/abs/2408.07009 (Google 最新的图像生成模型 )

视频生成模型

Sora : https://openai.com/index/sora/ (OpenAI 的文本转视频生成模型，现已发布)

工具

ComfyUI : https://github.com/comfyanonymous/ComfyUI ( 基于节点流程的 Stable Diffusion WebUI, 提供了灵活可控的图像和视频生成流程)

10. 模型微调

如何根据特定领域的特定需求来定制化模型？这部分介绍 LoRA/QLoRA、DPO 等微调技术，以及如何利用这些技术来提高模型的性能。

清单：

参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT)

LoRA: Low-Rank Adaptation of Large Language Models : https://arxiv.org/abs/2106.09685 ( 参数高效微调的经典之作，通过低秩适配器在大型语言模型中插入少量可训练参数，即可实现高效微调)

QLoRA: Efficient Finetuning of Quantized LLMs : http://arxiv.org/abs/2305.14314 (将 LoRA 与 4 位量化相结合，进一步降低了微调所需的计算资源)

偏好对齐微调 (Preference Alignment Fine-Tuning)

DPO: Direct Preference Optimization: Your Language Model is Secretly a Reward Model : https://arxiv.org/abs/2305.18290 (一种直接优化策略的算法，无需训练奖励模型即可将 LLM 与人类偏好对齐)

ReFT: Representation Finetuning for Language Models : https://arxiv.org/abs/2404.03592 (通过微调模型的隐藏层表征来进行模型对齐, 可作为 DPO 的补充)

数据构建

Orca 3/AgentInstruct: Agentic Instruction Generation https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/ (利用智能体生成指令数据来进行模型微调)

强化学习微调 (RL Fine-Tuning)

RL Finetuning for o1 : https://www.interconnects.ai/p/openais-reinforcement-finetuning (OpenAI 近期推出的基于强化学习的微调技术)

Let’s Verify Step By Step : https://arxiv.org/abs/2305.20050 (通过逐步验证的方式，提升 RLHF 的效果 )

教程

版权声明：
作者：小火箭shadowrocket
链接：https://www.shadowrocket888.vip/373.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

DeepSeekVSChatGPT普通人如何赚到第一个1000万

< <上一篇

OpenAI直播发布第4天ChatGPTCanvas全面升级免费开放

下一篇>>

搜索内容

2025AI工程进阶指南解锁十大核心领域精选50篇必读论文

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章