2025AI工程进阶指南解锁十大核心领域精选50篇必读论文

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关注我,AI之路不迷路,2025我们继续出发。

这是一份由AI工程社区 Latent Space 发布的阅读清单,其中精选了 50篇 AI工程领域极具价值的论文、模型和博客,覆盖了十大AI工程核心模块,旨在帮助AI工程师和爱好者构建系统的AI知识体系,提升实战能力。

关于 Latent Space

Latent Space是一个专注于AI工程领域的技术社区,以其 高质量的时事通讯、顶尖播客(在美国技术类播客中排名前十!) 和 活跃的线上线下社区 而闻名,被誉为“排名第一的AI工程播客”。Latent Space在X平台拥有13.1K的关注者,其中包括Elon Musk和知名播客主持人Lex Fridman!

小火箭shadowrocket

话不多说,我们直接开始。

1. 前沿 LLM

这一部分聚焦于大语言模型 (LLM),包括 GPT 系列 (特别是 GPT-4o 的系统卡片)、Claude 3 系列、Gemini 系列 等,以及 LLaMA 系列等开源模型 。

清单:

OpenAI 系列:引领多次技术革新

GPT-1: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf (开启了预训练语言模型的新时代)

GPT-2: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf (展示了大语言模型的能力)

GPT-3: https://arxiv.org/abs/2005.14165 ( 里程碑式模型 ,具备少样本学习能力)

Codex: https://arxiv.org/abs/2107.03374 (专注于代码生成)

InstructGPT: https://arxiv.org/abs/2203.02155 (通过人类反馈强化学习,提升了模型的指令遵循能力)

GPT-4 Technical Report: https://arxiv.org/abs/2303.08774 ( 经典多模态模型 )

GPT 3.5: https://openai.com/index/chatgpt/ (曾经 ChatGPT 背后的模型)

GPT-4o : https://openai.com/index/hello-gpt-4o/ ( 最新发布 ,支持更强的多模态实时交互)

o1: https://openai.com/index/introducing-openai-o1-preview/ (第一代推理模型)

o3: https://openai.com/index/deliberative-alignment/ (第二代推理模型)

Anthropic 系列:OpenAI 有力竞争者之一

Claude 3 : https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf (在多个评估基准上表现优异)

Claude 3.5 Sonnet : https://www.anthropic.com/news/claude-3-5-sonnet (最新模型,性能和速度进一步提升)

Google 系列:性能和多模态方面表现突出

Gemini 1 : https://arxiv.org/abs/2312.11805 ( 多模态大模型 ,支持文本、图像、音频等多种输入)

Gemini 2.0 Flash: https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0-flash (更轻量级、更快速的版本)

Gemini 2.0 Flash Thinking: https://ai.google.dev/gemini-api/docs/thinking-mode (解锁模型的推理能力)

Gemma 2: https://arxiv.org/abs/2408.00118 (Google 最新的开源模型)

Meta 系列:开源和高性能

LLaMA: https://arxiv.org/abs/2302.13971 (开源大语言模型的先驱)

Llama 2 : https://arxiv.org/abs/2307.09288 (性能大幅提升,支持商用)

Llama 3 : https://arxiv.org/abs/2407.21783 ( 最新开源模型 ,性能达到当前 SOTA 水平)

Mistral AI 系列:欧洲的OpenAI

Mistral 7B : https://arxiv.org/abs/2310.06825 (小而美的典范)

Mixtral of Experts: https://arxiv.org/abs/2401.04088 (采用 MOE 架构)

Pixtral 12B: https://arxiv.org/abs/2410.07073 (120亿参数的多模态模型)

DeepSeek 系列:中国AI领域的当红炸子鸡

DeepSeek V1: https://arxiv.org/abs/2401.02954 (DeepSeek 一代)

DeepSeek Coder: https://arxiv.org/abs/2401.14196 (专注于代码生成)

DeepSeek MoE: https://arxiv.org/abs/2401.06066 (DeepSeek MoE)

DeepSeek V2: https://arxiv.org/abs/2405.04434 (DeepSeek 二代)

DeepSeek V3 : https://github.com/deepseek-ai/DeepSeek-V3 ( DeepSeek 最新最强模型 )

Apple 系列:端侧智能

Apple Intelligence : https://arxiv.org/abs/2407.21075 (苹果入局,端侧智能)

2. 基准测试和评估

如何客观衡量AI模型的“智商”?这一部分将介绍主流的模型评估 基准测试 和 评估框架 。就像真实世界里学生的考试,基准测试可以相对客观地评估AI模型在特定任务上的能力,帮助我们更好地理解模型的优缺点。

清单:

通用知识与推理能力评估

评估模型在各学科知识领域的理解和推理能力。

MMLU (Massive Multitask Language Understanding): https://arxiv.org/abs/2009.03300 ( 应用最广泛的知识型测试之一 ,涵盖 57 个学科,包括人文、STEM、社科等)

MMLU Pro (Professional-Level MMLU): https://arxiv.org/abs/2406.01574 ( MMLU 的升级版 ,难度更高,更接近专业水平测试)

GPQA & GPQA Diamond : https://arxiv.org/abs/2311.12022 (针对研究生水平的问题进行测试,题目质量和难度极高, GPQA Diamond 是其增强版本 )

BIG-Bench : https://arxiv.org/abs/2206.04615 (包含 200 多个不同类型的任务,全面评估模型的各项能力)

BIG-Bench Hard : https://arxiv.org/abs/2210.09261 ( BIG-Bench 的增强版本 ,筛选了最具挑战性的任务)

长文本推理能力评估

评估模型处理长文本和进行复杂推理的能力。

MuSR (Multi-Step Reasoning): https://arxiv.org/abs/2310.16049 (评估模型在 长文档 中进行多步推理的能力)

LongBench : https://arxiv.org/abs/2412.15204 ( 多任务、中英双语、长文本理解 的基准测试)

BABILong : https://arxiv.org/abs/2406.10149 (合成的长文本推理数据集)

Lost in the Middle : https://arxiv.org/abs/2307.03172 (研究长文本中信息的利用情况)

Needle in a Haystack : https://github.com/gkamradt/LLMTest_NeedleInAHaystack ( “大海捞针”测试 ,评估模型从长文本中提取关键信息的能力)

数学能力评估

评估模型的数学推理和解题能力。

MATH : https://arxiv.org/abs/2103.03874 (包含 12,500 道 竞赛级别 数学题目,涵盖代数、几何、概率等多个领域)

AIME (American Invitational Mathematics Examination): https://www.kaggle.com/datasets/hemishveeraboina/aime-problem-set-1983-2024 ( 美国数学邀请赛 ,难度介于 AMC 和 IMO 之间)

FrontierMath : https://arxiv.org/abs/2411.04872 (更关注 高级数学推理 能力,例如大学数学竞赛题目)

AMC10 & AMC12 : https://github.com/ryanrudes/amc ( 美国数学竞赛 ,AMC10 面向 10 年级及以下学生,AMC12 面向 12 年级及以下学生)

指令遵循能力评估

评估模型理解和执行指令的能力。

IFEval (Instruction Following Evaluation): https://arxiv.org/abs/2311.07911 (评估模型遵循各种类型指令的能力)

MT-Bench (Multi-Turn Benchmark): https://arxiv.org/abs/2306.05685 ( 多轮对话场景 下评估模型的指令遵循能力)

抽象推理能力评估

评估模型的抽象推理和模式识别能力。

ARC AGI (Abstraction and Reasoning Corpus): https://arcprize.org/arc (评估模型的 通用智能 ,挑战模型像人类一样进行抽象推理)

3. 提示工程、上下文学习和思维链

如何通过提示词技术来引导模型生成更符合需求的结果?这一部分介绍 提示工程、上下文学习 (ICL) 和思维链 (Chain of Thought) 等技术,帮助我们更好地与AI模型进行交互。

清单:

实战教程

The Prompt Report : https://arxiv.org/abs/2406.06608 ( 最新的提示工程综述报告 )

Lilian Weng 的博客 : https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/ (Lilian Weng 对提示工程的系统性总结)

Eugene Yan 的博客 : https://eugeneyan.com/writing/prompting/ (Eugene Yan 分享的提示工程技巧)

Anthropic 的提示工程教程 : https://github.com/anthropics/prompt-eng-interactive-tutorial (Anthropic官方带你一步步学习如何构建高效的提示)

AI Engineer Workshop : https://www.youtube.com/watch?v=hkhDdcM5V94 (提示工程实战经验分享的视频)

核心技术

Chain-of-Thought (CoT) : https://arxiv.org/abs/2201.11903 ( 思维链技术的开山之作 )

Scratchpads : https://arxiv.org/abs/2112.00114 (为模型提供“草稿纸”,提升其推理能力)

Let’s Think Step By Step : https://arxiv.org/abs/2205.11916 (经典提示词,思维链技术的标志性语句)

Tree of Thoughts (ToT) : https://arxiv.org/abs/2305.10601 ( 思维树 ,增强模型的推理和规划能力)

Prompt Tuning : https://aclanthology.org/2021.emnlp-main.243/ ( 软提示/Soft Prompt ,调整模型的行为)

Prefix-Tuning : https://arxiv.org/abs/2101.00190 (添加可训练的前缀/Prefix,实现模型输出的调优)

Adjust Decoding : https://arxiv.org/abs/2402.10200 (通过调整解码策略来提高模型性能)

Representation Engineering : https://vgel.me/posts/representation-engineering/ ( 表征工程 ,通过直接修改模型的隐藏状态来引导生成)

自动提示工程

Automatic Prompt Engineering (APE) : https://arxiv.org/abs/2211.01910 ( 自动生成和优化提示 )

DSPy : https://arxiv.org/abs/2310.03714 ( DSPy 框架 ,通过编程,而非手动编写提示词,来构建复杂的 AI 系统)

4. 检索增强生成 (RAG)

RAG,全称 Retrieval-Augmented Generation,结合了 检索 和 生成模型 的优势,利用外部知识库来增强模型的性能。这一部分介绍 Meta 的 RAG 论文、MTEB 嵌入基准测试、GraphRAG 等,以及 RAGAS 评估框架 。 向量数据库 作为目前 RAG 应用的重要基础设施,也推荐了解。

清单:

基础理论

Introduction to Information Retrieval : https://nlp.stanford.edu/IR-book/information-retrieval-book.html (信息检索领域的 经典教材 )

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks : https://arxiv.org/abs/2005.11401 ( Meta 的 RAG 论文 ,RAG 技术的开山之作)

RAG 2.0 : https://contextual.ai/introducing-rag2/ (RAG 技术的演进)

核心技术

HyDE (Hypothetical Document Embeddings): https://docs.llamaindex.ai/en/stable/optimizing/advanced_retrieval/query_transformations/ (通过假设性文档增强查询效果)

Chunking : https://research.trychroma.com/evaluating-chunking (分块策略)

Rerank : https://cohere.com/blog/rerank-3pt5 (重排,优化检索结果的排序)

MTEB (Massive Text Embedding Benchmark): https://arxiv.org/abs/2210.07316 (评估文本嵌入模型性能的基准测试)

高级技术

GraphRAG : https://arxiv.org/pdf/2404.16130 (结合 知识图谱 和 RAG,提升 RAG 的知识推理能力)

RAGAS : https://arxiv.org/abs/2309.15217 ( 评估 RAG 系统性能 的自动化框架)

实践指南

LlamaIndex : https://docs.llamaindex.ai/en/stable/understanding/rag/ (LlamaIndex 提供的 RAG 实战教程和工具)

LangChain : https://python.langchain.com/docs/tutorials/rag/ (LangChain 提供的 RAG 的集成方案和示例代码)

5. 智能体 (AI Agent)

2025年的大热门,AI的未来形态,能够像人类一样感知环境、做出决策并采取行动。这一部分介绍 SWE-Bench、ReAct、MemGPT、Voyager 等重要的智能体相关论文。

清单:

基准测试

SWE-Bench : https://arxiv.org/abs/2310.06770 (评估 Agent 解决真实世界 GitHub 软件工程问题 的能力)

SWE-Agent : https://arxiv.org/abs/2405.15793 (基于LLM的软件工程师Agent)

SWE-Bench Multimodal : https://arxiv.org/abs/2410.03859 (多模态 SWE-Bench)

Konwinski Prize : https://kprize.ai/ (奖励在 软件工程自动化 方面有突出贡献的 Agent)

核心技术

ReAct: Synergizing Reasoning and Acting in Language Models : https://arxiv.org/abs/2210.03629 ( ReAct 框架 , 结合了推理 (Reasoning) 和行动 (Acting))

MemGPT: Towards LLMs as Operating Systems : https://arxiv.org/abs/2310.08560 (赋予 Agent 长期记忆 能力)

MetaGPT: The Multi-Agent Framework : https://arxiv.org/abs/2308.00352 ( 多智能体元编程框架 , 通过角色分配和协作,使多个 Agent 能够像一个团队一样工作)

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation : https://arxiv.org/abs/2308.08155 ( 微软的开源框架 ,支持通过定义和组合多个 Agent 来构建复杂的 LLM 应用)

Smallville: Generative Agents: Interactive Simulacra of Human Behavior : https://arxiv.org/abs/2304.03442 & https://github.com/joonspk-research/generative_agents (来自斯坦福和谷歌, 创建具有社交行为的模拟智能体)

Voyager: An Open-Ended Embodied Agent with Large Language Models : https://arxiv.org/abs/2305.16291 ( NVIDIA 的 Minecraft Agent , 能够在 Minecraft 世界中持续学习、探索和发现)

Agent Workflow Memory : https://arxiv.org/abs/2409.07429 (通过引入 工作流记忆机制 来提高Agent的规划和执行能力)

实践指南

Building Effective Agents : https://www.anthropic.com/research/building-effective-agents (Anthropic 分享的构建高效 Agent 的实践经验和思考)

OpenAI Swarm : https://github.com/openai/swarm (OpenAI 推出的多智能体工具)

6. 代码生成

这一部分介绍 The Stack 代码数据集、HumanEval/Codex 基准测试、AlphaCodeium 论文 等。

清单:

数据集

The Stack : https://arxiv.org/abs/2211.15533 ( 大规模、多语言 的源代码数据集, 3 TB )

代码生成模型

DeepSeek-Coder : https://arxiv.org/abs/2401.14196 (DeepSeek-Coder 模型论文)

Code Llama : https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/ (Meta 开源的一系列代码生成模型)

Qwen2.5-Coder : https://arxiv.org/abs/2409.12186 (通义千问2.5系列的代码生成模型)

AlphaCodium : https://arxiv.org/abs/2401.08500 (DeepMind 开发的代码生成模型)

评估基准

HumanEval/Codex : https://arxiv.org/abs/2107.03374 (评估代码生成模型 解决基本编程问题的能力 )

Aider : https://aider.chat/docs/leaderboards/ (Aider 整理的多个代码生成基准测试的 排行榜 )

Codeforces : https://arxiv.org/abs/2312.02143 (用于评估模型的竞赛级编程能力)

BigCodeBench : https://huggingface.co/spaces/bigcode/bigcodebench-leaderboard (BigCode 项目推出的代码生成 多维度评估套件 )

LiveCodeBench : https://livecodebench.github.io/ (关注代码生成模型输出的 正确性和运行时行为 )

SciCode : https://buttondown.com/ainews/archive/ainews-to-be-named-5745/ (评估代码生成模型在 科学计算 领域的性能)

AI代码审查

CriticGPT : https://criticgpt.org/criticgpt-openai/ (OpenAI 内部用来帮助人类程序员 发现代码缺陷 的工具)

7. 视觉模型

这一部分介绍 CLIP、Segment Anything Model 等视觉模型,以及多模态大模型的发展趋势。

清单:

目标检测

YOLO (You Only Look Once): https://arxiv.org/abs/1506.02640 ( 经典的目标检测模型 ,以速度和准确性而闻名)

DETRs Beat YOLOs on Object Detection : https://arxiv.org/abs/2304.08069 (DETR 系列模型,一种 基于 Transformer 的目标检测方法 ,性能更优)

视觉-语言预训练

CLIP (Contrastive Language-Image Pre-training): https://arxiv.org/abs/2103.00020 ( OpenAI 的里程碑式工作 ,通过对比学习将图像和文本联系起来)

MMVP Benchmark: Multimodal Video Pretraining for Video Action Recognition : https://arxiv.org/abs/2401.06209 (多模态视频基准测试)

图像分割

Segment Anything Model (SAM) : https://arxiv.org/abs/2304.02643 ( Meta 的图像分割模型 ,可以通过提示 (prompt) 分割出图像中的任意物体)

多模态大模型

Flamingo: a Visual Language Model for Few-Shot Learning : https://huyenchip.com/2023/10/10/multimodal.html (DeepMind 的多模态模型,支持 少样本学习 )

Chameleon: Mixed-Modal Early-Fusion Foundation Models : https://arxiv.org/abs/2405.09818 (Meta 的 多模态模型 , 采用 早融合 的方式)

GPT-4V system card : https://cdn.openai.com/papers/GPTV_System_Card.pdf (GPT-4V 的 系统卡片 )

8. 语音模型

从语音识别到语音合成,AI 正在改变我们与机器交互的方式。这一部分介绍 Whisper、AudioPaLM、NaturalSpeech 等语音模型,以及相关的应用案例。

清单:

语音识别 (ASR)

Whisper : https://arxiv.org/abs/2212.04356 ( OpenAI 开源的语音识别模型 ,支持多种语言)

语音合成 (TTS)

NaturalSpeech : https://arxiv.org/abs/2205.04421 (微软的 高质量语音合成模型 )

语音大模型

AudioPaLM : https://audiopalm.github.io/ (Google 的 音频-文本多模态大模型 ,可以处理和生成音频和文本内容)

实时语音技术

Kyutai Moshi : https://arxiv.org/html/2410.00037v2 (支持 全双工语音-文本转换 的开源模型,低延迟)

OpenAI Realtime API : https://platform.openai.com/docs/guides/realtime (OpenAI 推出的 实时 API )

9. 图像/视频模型

Stable Diffusion、Sora 等生成模型,让我们看到了 AI 在图像和视频生成方面的巨大潜力。这一部分介绍图像和视频模型相关的论文,以及 ComfyUI 等工具。

清单:

扩散模型 (Diffusion Models)

Latent Diffusion Models : https://arxiv.org/abs/2112.10752 ( Stable Diffusion 的核心技术 )

Consistency Models : https://arxiv.org/abs/2303.01469 (引入一致性约束, 加快扩散模型的采样速度 ,大幅减少采样步骤)

DiT (Diffusion Transformers): https://arxiv.org/abs/2212.09748 ( Sora 的核心技术 , 将 Transformer 架构应用于扩散模型,为生成高质量视频奠定了基础)

图像生成模型

DALL-E : https://arxiv.org/abs/2102.12092 (OpenAI 的开创性工作, 根据文本描述生成图像 )

DALL-E 2 : https://arxiv.org/abs/2204.06125 (DALL-E 的升级版, 生成图像的分辨率和质量更高 )

DALL-E 3 : https://cdn.openai.com/papers/dall-e-3.pdf (进一步提升图像生成质量,并 更好地理解和遵循文本描述 )

Imagen : https://arxiv.org/abs/2205.11487 (Google 的文本到图像生成模型)

Imagen 2 : https://deepmind.google/technologies/imagen-2/ (Imagen 的升级版, 支持更多样化的图像编辑功能 )

Imagen 3 : https://arxiv.org/abs/2408.07009 (Google 最新的图像生成模型 )

视频生成模型

Sora : https://openai.com/index/sora/ (OpenAI 的 文本转视频生成模型 ,现已发布)

工具

ComfyUI : https://github.com/comfyanonymous/ComfyUI ( 基于节点流程 的 Stable Diffusion WebUI, 提供了灵活可控的图像和视频生成流程)

10. 模型微调

如何根据特定领域的特定需求来定制化模型?这部分介绍 LoRA/QLoRA、DPO 等微调技术,以及如何利用这些技术来提高模型的性能。

清单:

参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT)

LoRA: Low-Rank Adaptation of Large Language Models : https://arxiv.org/abs/2106.09685 ( 参数高效微调的经典之作 ,通过低秩适配器在大型语言模型中插入少量可训练参数,即可实现高效微调)

QLoRA: Efficient Finetuning of Quantized LLMs : http://arxiv.org/abs/2305.14314 (将 LoRA 与 4 位量化 相结合,进一步降低了微调所需的计算资源)

偏好对齐微调 (Preference Alignment Fine-Tuning)

DPO: Direct Preference Optimization: Your Language Model is Secretly a Reward Model : https://arxiv.org/abs/2305.18290 (一种 直接优化策略的算法 ,无需训练奖励模型即可将 LLM 与人类偏好对齐)

ReFT: Representation Finetuning for Language Models : https://arxiv.org/abs/2404.03592 (通过微调模型的 隐藏层表征 来进行模型对齐, 可作为 DPO 的补充)

数据构建

Orca 3/AgentInstruct: Agentic Instruction Generation https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/ (利用 智能体生成指令数据 来进行模型微调)

强化学习微调 (RL Fine-Tuning)

RL Finetuning for o1 : https://www.interconnects.ai/p/openais-reinforcement-finetuning (OpenAI 近期推出的基于强化学习的微调技术)

Let’s Verify Step By Step : https://arxiv.org/abs/2305.20050 (通过逐步验证的方式, 提升 RLHF 的效果 )

教程

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/373.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>