AI Agent 算法工程师学习路线图（研究型）

目标岗位：AI Agent 算法工程师（研究/创新型）
学习时长：9 周（全职投入）
最终产出：1-2 个算法创新型项目 + 1 篇高质量论文/高星开源项目

一、你能获得什么

时间紧迫！用9周，打造从理论到创新的完整算法能力

✅ 9周系统学习：从经典论文到前沿算法，构建坚实的理论体系

✅ 每周代码实战：手撕核心算法，将理论转化为代码

✅ 2个创新项目：完成从问题定义、算法设计到实验分析、论文撰写的完整科研流程

✅ 独享学习路径：专为算法研究岗定制，区别于应用开发岗

✅ 顶级面试能力：掌握算法岗面试核心，从容应对深度追问

✅ 科研产出能力：完成具备顶会投稿/高星开源水平的创新项目

二、算法岗核心要求

你需要具备的能力

理论深度

能徒手推导核心算法
精通背后数学原理
掌握领域前沿论文
能设计创新性算法

实验能力

设计严谨的对比实验
设计全面的消融实验
选择有说服力的 Baseline
科学分析与验证指标提升

产出能力

撰写高质量学术论文
开源高影响力代码
撰写专业技术报告
为顶级算法库贡献代码

算法岗简历必备

✅ 至少1篇高质量论文：顶会/顶刊在投或已发表
✅ 至少1个高星开源项目：300+ Stars 且有持续维护
✅ 2-3个算法深度优化项目：有严谨的实验数据支撑
✅ 扎实的理论基础：能从第一性原理层面回答深度问题

三、推荐学习资源与工具

📚 核心课程与书籍

课程: 《动手学深度学习》 - 深度学习基础的最佳入门
课程: 清华大模型公开课第二季 - 系统了解大模型历史与前沿
课程: Stanford CS224N: NLP with Deep Learning - NLP经典课程
书籍: 《大语言模型》 - 大模型最佳中文书籍
书籍: 《Build a Large Language Model (From Scratch)》 - 从零构建大模型
教程: 《动手学大模型Dive into LLMs》 - 上海交大编程实践教程（含PPT、视频）
教程: 《面向开发者的 LLM 入门教程》 - 吴恩达课程中文版
教程: 《从零开始的大语言模型原理与实践》 - Datawhale系统教程

📝 必读论文

基础: "Attention Is All You Need" - Transformer开山之作
Agent: ReAct, Reflexion, Tree of Thoughts
RAG: DPR, Self-RAG, GraphRAG
RL: DPO, GRPO, DeepSeek-R1

🛠️ 研究工具与框架

训练框架: LLaMA-Factory, TRL, OpenRLHF
微调教程: 大模型微调系列 - 从基础到实战的完整指南
评估工具: lm-evaluation-harness, OpenCompass, RAGAs
Agent框架: LangChain, AutoGen, AgentScope

🌐 学习社区与资源

论文库: Huggingface Daily Papers, Cool Papers, ML Papers Explained
博客: Lil'Log (OpenAI), 科学空间（苏剑林）, Andrej Karpathy
综述: 大语言模型综述, Awesome LLM Reasoning
资源库: Awesome LLM Resources

🎨 可视化学习资源（强烈推荐！）

100+ LLM/RL 算法原理图 ⭐ 算法岗必看！
- 作者：《大模型算法：强化学习、微调与对齐》作者余昌叶
- 内容：100+张原创算法原理图，涵盖Transformer、注意力机制、SFT、LoRA/QLoRA、DPO/PPO/GRPO、RLHF、推理优化等
- 价值：通过可视化图解深入理解算法的数学推导和实现细节，让复杂算法一目了然
- 书籍：《大模型算法：强化学习、微调与对齐》

四、9周详细学习计划

第 1 周：大模型必备基础 + 手撕Transformer

学习内容:

基础速通：

Python 核心语法、NumPy/Pandas 基础

神经网络核心概念：前向传播、反向传播、损失函数

PyTorch 框架速通：Tensor 操作、自动求导、模型搭建

Transformer架构：

Transformer 架构详解：Encoder、Decoder 结构、Self-Attention 机制、Multi-Head Attention

核心组件剖析：Attention、Positional Encoding、Layer Normalization、残差连接、FFN

MOE架构初探：专家网络、门控网络、Top-K激活

手撕系列:

PyTorch 手撕神经网络训练

EXCEL实现Transformer矩阵计算

手撕 Multi-Head Attention

手撕 Transformer 关键模块

解锁技能:

熟练运用 Python 和 PyTorch 进行开发

精通 Transformer 模型的核心架构与组件

具备手撕关键模块的能力

完全理解Bert、T5、GPT架构的工作原理

🌟 每日学习计划

天数	学习主题	资源链接	目标
1	Python & PyTorch 基础	课程: 《动手学深度学习》 (B站视频) 数学: 3Blue1Brown - 线性代数的精髓补充: 台湾大学李宏毅深度学习	掌握 Python 基础语法、PyTorch 张量操作与训练循环
2	手撕神经网络训练	教程: Neural Networks from Scratch 课程: Andrej Karpathy: Neural Networks Zero to Hero	从零实现一个简单的前馈神经网络，理解反向传播
3	Transformer 宏观理解	博客: The Illustrated Transformer 论文: "Attention Is All You Need" 可视化: Interactive Transformer 图解: Transformer算法原理图	掌握 Encoder/Decoder 结构、Multi-Head Attention
4	Transformer 矩阵计算	教程: Transformer from scratch in Excel 详解: Transformer 数学原理图解: 算法原理图	逐个公式推导 Q/K/V 计算流程
5	手撕 Multi-Head Attention	教程: Let's build GPT: from scratch 代码: nanoGPT, build nanoGPT	纯 PyTorch 实现 Multi-Head Attention 和 FFN
6	手撕 Transformer 关键模块	参考: pytorch-llama, LLMs-from-scratch	组合已实现模块，完成一个完整的 Transformer Block
7	MOE 架构与模型家族	论文: Outrageously Large Neural Networks 指南: A Visual Guide to Mixture of Experts	理解 MOE 架构，并梳理 Bert、T5、GPT 架构的差异

第 2 周：Agent 核心理论 + ReAct 框架

学习内容:

Agent 核心概念：

什么是 AI Agent？

Agent 的核心组件：Planning、Memory、Tool Use

Agent vs. LLM vs. RAG 的本质区别

ReAct 框架：

ReAct 核心思想：Reasoning + Acting 交替进行

必读论文:

ReAct (必读!): Agent 的 "Hello World"

论文: https://arxiv.org/abs/2210.03629

手撕与学习任务:

阅读 ReAct 论文，手绘算法流程图

基于 LangChain 或 LlamaIndex 复现一个基础的 ReAct Agent

面试准备:

Q: 请解释 ReAct 框架的工作原理。

Q: ReAct 和传统的 Chain-of-Thought 有什么区别？

解锁技能:

深刻理解 Agent 的基本工作范式

掌握 ReAct 框架的算法原理

🌟 每日学习计划

天数	学习主题	资源链接	目标
8	Agent 核心概念	博客: LLM Powered Autonomous Agents 综述: 大语言模型综述课程: 清华NLP大模型公开课	建立 Agent 的宏观认知，理解其与 LLM 的区别
9-10	ReAct 论文精读与复现	论文: ReAct 代码: LangChain ReAct Agent 解读: ReAct解读	深度理解 "Thought, Action, Observation" 循环，并用框架实现
11-12	ReAct 算法复现与思考	博客: 深入理解 ReAct 框架: Lagent, Qwen-Agent	总结 ReAct 的优缺点，思考其在复杂任务中的局限性
13-14	预留时间 & 周度复盘	书籍: 《大语言模型》技术报告: State of GPT 教程: 《动手学大模型Dive into LLMs》	巩固本周知识，完成所有编码任务

第 3 周：高级 Agent 架构：规划、反思与搜索

学习内容:

高级 Agent 架构：

Reflexion：自我反思机制

Tree of Thoughts：树状思维搜索

Self-Consistency：一致性采样

Multi-Agent 协作：

Multi-Agent 通信协议与协作策略（辩论、投票、层级）

任务分解与分配算法

必读论文:

Reflexion: 核心思想是通过自我反思改进决策。

论文: https://arxiv.org/abs/2303.11366

Tree of Thoughts: 核心思想是搜索算法 + LLM。

论文: https://arxiv.org/abs/2305.10601

AutoGen Framework: 对话驱动的多智能体系统。

论文: https://arxiv.org/abs/2308.08155

学习任务:

对比 ReAct、Reflexion、ToT 的算法差异，分析各自优缺点

用 Python 实现一个 ToT 节点，并结合 LLM API 设计一个简单的评估函数来解决 24点游戏问题

使用 AutoGen 框架实现一个简单的 "coder" 与 "critic" 协作的 Multi-Agent 系统

面试准备:

Q: Reflexion 的自我反思机制如何实现？它和 RL 中的 "Credit Assignment" 有什么关系？

Q: Tree of Thoughts 和传统 MCTS (蒙特卡洛树搜索) 的区别是什么？

Q: 在 Multi-Agent 系统中，如何解决 "责任分散" 和 "目标冲突" 的问题？

解锁技能:

掌握 Reflexion, ToT 等高级 Agent 架构的算法思想

能够分析不同 Agent 架构的优缺点和适用场景

理解多智能体系统的设计理念和协作模式

具备初步设计复杂 Agent 系统的能力

🌟 每日学习计划

天数	学习主题	资源链接	目标
15	Reflexion 论文精读	论文: Reflexion 解读: Reflexion 论文解读扩展: Self-Refine	掌握其"Actor -> Evaluator -> Self-Reflection"的算法流程
16	Reflexion 算法分析	伪代码: Reflexion 官方伪代码相关: Chain of Thought	分析反思机制如何帮助 Agent 从失败中学习，并尝试用伪代码实现
17	Tree of Thoughts 论文精读	论文: Tree of Thoughts 代码: ToT 开源代码实现相关: Self-Consistency	理解如何将 LLM 作为搜索算法的启发式函数
18	ToT 算法实战	任务: 24点游戏博客: Prompt Engineering Guide	实现一个简化的 ToT 搜索策略来解决 24点游戏
19	Multi-Agent 协作模式	论文: MetaGPT 论文: Communicative Agents 论文: AutoGen	学习 MetaGPT 中角色定义 (SOPs) 和协作模式
20	AutoGen 框架实战	文档: AutoGen 官方教程替代: AgentScope, CrewAI	使用 AutoGen 搭建一个简单的 Coder 和 Critic Agent
21	周度总结与对比分析	综述: Awesome Agent Reasoning	绘制 ReAct, Reflexion, ToT 的算法流程对比图，总结优劣

第 4 周：RAG 核心算法：从密集检索到图检索

学习内容:

检索算法原理：

Naive RAG 的算法流程

检索算法：BM25、Dense Retrieval、Hybrid Search

Reranker 算法原理

Advanced RAG 算法：

GraphRAG 算法创新

Agentic RAG 与多跳推理

必读论文:

Dense Passage Retrieval (DPR): 现代 RAG 的基础，对比密集检索与稀疏检索。

论文: https://arxiv.org/abs/2004.04906

GraphRAG: 基于知识图谱的检索，关注其子图采样、路径排序等创新。

报告: https://www.microsoft.com/en-us/research/project/graphrag/

Self-RAG: 让 Agent 自主规划检索策略。

论文: https://arxiv.org/abs/2310.11511

手撕与学习任务:

Python 手撕 BM25 算法

使用 FAISS 构建一个向量索引并进行相似度搜索

使用 RAGAs 或 trulens-eval 对一个基础 RAG 系统进行评估

设计一个简单的 Agentic RAG 查询规划模块伪代码

面试准备:

Q: GraphRAG 相比传统 RAG 的算法改进是什么？它适用于什么场景？

Q: 如何设计一个 Agentic RAG 的规划策略？如何评估规划的好坏？

Q: 密集检索和稀疏检索的优缺点分别是什么？为什么 Hybrid Search 通常效果更好？

解锁技能:

深入理解现代 RAG 系统的检索算法基石

掌握 GraphRAG、Agentic RAG 等前沿 RAG 算法的创新点

具备手撕核心检索算法和评估 RAG 系统的能力

能够设计和评估 RAG 系统的检索模块

🌟 每日学习计划

天数	学习主题	资源链接	目标
22	检索算法基础 (BM25)	教程: BM25 from scratch 论文: TF-IDF	理解 TF-IDF 和 BM25 的原理，并手动实现
23	DPR 与密集检索	论文: DPR 教程: Sentence Transformers 论文: ColBERT	掌握双编码器架构，并使用 Sentence Transformers 训练一个模型
24	Reranker 与混合检索	教程: LlamaIndex Reranking 论文: Modular RAG 技术: RAG Techniques	理解 Reranker 的作用，并实现一个 BM25 + Embedding 的混合检索流程
25	GraphRAG 技术解读	报告: Microsoft GraphRAG 博客: GraphRAG 详解实现: LightRAG, nano-GraphRAG	理解其基于图的社群检测、摘要和问答流程
26	RAG 评估体系	文档: RAGAs 评估框架工具: FlashRAG 概览: Awesome Evaluation	学习 Faithfulness, Answer Relevancy 等 RAG 评估指标，并用 RAGAs 进行评估
27	Self-RAG 论文精读	论文: Self-RAG 相关: CRAG, Adaptive-RAG	学习如何通过 "reflection tokens" 让 LLM 自主决定何时检索、检索什么内容
28	Agentic RAG 算法设计	教程: Learn RAG From Scratch 课程: OpenRAG	思考如何设计一个能进行多步推理的 Agentic RAG 策略，并绘制流程图

第 5 周：Agent Memory 与上下文工程算法

学习内容:

Memory 算法设计：

短期记忆 vs 长期记忆

记忆重要性评分算法 (语义相似度 + 任务相关性 + 时效性)

记忆压缩与总结策略 (聚类 + 摘要 + 去重)

记忆检索优化 (向量检索 + 时间衰减 + 重要性加权)

上下文工程算法：

上下文选择策略 (语义相关性、逻辑依赖、时效性)

上下文压缩算法 (层级笔记、QA对转换、总结算法)

动态上下文构建

必读论文:

Generative Agents: 经典的 Agent Memory 模拟社会行为研究。

论文: https://arxiv.org/abs/2304.03442

MemGPT: 通过分层记忆和函数调用管理虚拟上下文。

论文: https://arxiv.org/abs/2310.08560

学习任务:

基于 MemGPT 开源库，修改其配置以处理一个长文档问答任务

实现一个自定义的 NodePostprocessor (LlamaIndex) 来根据关键词或时间戳过滤上下文

设计一个分层记忆架构伪代码，包含评分、压缩、检索的完整 Agent Memory 算法方案

面试准备:

Q: 如何设计 Agent 的长期记忆机制？请阐述其写入、更新、读取的全流程。

Q: 记忆压缩和检索的trade-off如何平衡？如何通过实验评估你的压缩算法没有损失关键信息？

Q: MemGPT 和传统的 RAG 在处理长上下文时有何本质区别？

解锁技能:

掌握 Agent 记忆系统的核心算法设计

能够设计高效的上下文选择与压缩策略

理解如何平衡信息保真度与上下文长度的限制

具备从算法层面优化 Agent 长对话能力的视野

🌟 每日学习计划

天数	学习主题	资源链接	目标
29	Agent Memory 概述	博客: LLM Powered Agents - Memory 工具: Mem0, MemoryScope 论文: Agent Memory 综述	梳理 Agent 记忆的分类和挑战
30	Generative Agents 论文精读	论文: Generative Agents 博客: Generative Agents 解读	学习其对记忆进行评分 (Recency, Importance, Relevance) 和检索的机制
31	MemGPT 论文精读	论文: MemGPT 代码: MemGPT 开源库相关: Anthropic Context	学习其分层记忆和函数调用管理虚拟上下文的方法
32	MemGPT 实战	教程: MemGPT Tutorial 扩展: LangMem	运行 MemGPT 官方示例，理解其工作流程
33	上下文压缩技术	教程: LlamaIndex Context Stuffing 论文: LongLLMLingua	学习并实现不同的上下文填充和压缩策略
34	上下文选择与过滤	教程: LlamaIndex Node Postprocessors 论文: Lost in the Middle	实现一个自定义的后处理器来优化上下文选择
35	周度总结与方案设计		设计一个包含评分、压缩、检索的完整 Agent Memory 算法方案，并绘制架构图

第 6 周：基于强化学习的 Agent 决策优化

学习内容:

RL 基础理论：

RL 基础：MDP、Q-learning、Policy Gradient

Agent + RL 的结合点

奖励函数设计 (稀疏奖励 vs 密集奖励, Reward Model)

策略优化算法 (PPO vs DPO vs GRPO)

必读论文:

DPO: 无需显式奖励模型的偏好对齐方法。

论文: https://arxiv.org/abs/2305.18290

GRPO: 最新的 RLHF 算法，核心思想是 Group Relative Policy Optimization，算法创新点在于相对偏好建模。

论文: https://arxiv.org/pdf/2402.03300

手撕与学习任务:

推导 DPO 的损失函数

使用 TRL 库中的 DPOTrainer 对一个 SFT 模型进行 DPO 微调

设计一个 Agent 工具调用任务的奖励函数

面试准备:

Q: 如何用强化学习优化 Agent 的决策？请举例说明 State, Action, Reward 如何定义。

Q: DPO 和 PPO 在 Agent 场景下的选择和优劣势是什么？为什么 DPO 更稳定？

Q: 在一个稀疏奖励的 Agent 任务中（例如，只有任务最终成功才有奖励），如何设计 Reward Shaping 或辅助任务来帮助模型学习？

解锁技能:

掌握将 Agent 决策过程建模为 RL 问题的能力

深刻理解 PPO/DPO/GRPO 等主流对齐算法的原理

能够为 Agent 任务设计合理的奖励函数

具备使用强化学习优化 Agent 策略的理论基础

🌟 每日学习计划

天数	学习主题	资源链接	目标
36	RL 基础入门	教程: Hugging Face Deep RL Course 课程: 《动手学强化学习》书籍: Reinforcement Learning: An Introduction	掌握 MDP, Policy, Value Function 等核心概念
37	Policy Gradient & PPO	博客: Understanding PPO 论文: PPO 教程: RL课程图解: PPO算法图解	理解 PPO 的目标函数和裁剪机制
38	DPO 论文精读与推导	论文: DPO 博客: DPO 详解教程: Preference Optimization	掌握 DPO 如何从偏好数据中隐式学习奖励并优化策略，并推导其损失函数
39	DPO 实战	教程: Hugging Face TRL DPO 框架: OpenRLHF, RL-Factory, VeRL	使用 `TRL` 库完成一次 DPO 训练
40	GRPO 理论解读	论文: GRPO 相关: DeepSeek-R1 综合: Open o1推理	理解 GRPO 如何将 DPO 扩展到组级别的偏好
41	RL for Tool Learning	论文: Toolformer 论文: ReAct RL 资源: Agent+RL项目汇总	学习如何用 RL 思想让模型学会使用工具
42	奖励模型设计	教程: TRL Reward Modeling 框架: RM-Gallery 书籍: RLHF Book	学习如何为 Agent 任务设计奖励函数/训练奖励模型

第 7-8 周：算法创新项目实战

根据阿东提供的方向进行选择

核心目标：完成 1-2 个算法创新型项目，从问题定义到实验分析，产出论文初稿或开源代码。

项目方向1：Agentic RAG with Self-Correction

问题定义: 传统 RAG "一次检索定成败"，无法处理需要多步推理或信息汇总的复杂问题。

算法创新点:

Iterative Retrieval: 构建一个 Agent，能对初步检索结果进行评估。

Self-Correction: 如果 Agent 认为信息不足或有矛盾，能自主生成新的、更精确的查询，进行多轮检索。

Adaptive Planning: (进阶) 使用 RL 训练查询生成策略，最大化最终答案的准确性。

实验设计:

数据集: HotpotQA, QASPER (需要多跳推理的数据集)

Baseline: Naive RAG, ReAct Agent

评估指标: F1, Recall@K, Answer Correctness, # of Queries (效率)

消融实验: 验证 Self-Correction 模块和 Iterative Retrieval 模块的贡献。

项目方向2：Hierarchical Memory Agent for Long-Term Tasks

问题定义: 现有 Agent 的 Memory 机制通常是扁平的向量存储，难以在长期、多任务的场景中有效组织和检索记忆。

算法创新点:

Hierarchical Memory: 设计一个分层记忆结构，例如 Event Memory (高层事件总结) 和 Working Memory (底层原始信息)。

Autonomous Summarization: Agent 能够在对话或任务结束后，自动将 Working Memory 中的内容进行总结，并存入 Event Memory。

Layered Retrieval: 检索时，Agent 首先在高层 Event Memory 中定位相关事件，再深入底层的 Working Memory 获取细节，提高效率和准确性。

实验设计:

数据集: 构建一个长对话、多主题的数据集 (如整理多场会议纪要)。

Baseline: Sliding Window Memory, Naive Vector Store Memory

评估指标: Information Recall (信息保留率), Compression Ratio (压缩率), Retrieval Speed (检索速度)

消融实验: 验证 Hierarchical 结构和 Summarization 模块的有效性。

🌟 学习计划 (2周)

天数	学习主题	目标
43-44	项目选题与文献调研	选定一个项目方向，精读 5-7 篇核心论文，完成 Related Work 初稿
45-46	算法与实验方案设计	完成算法流程图绘制，确定数据集、Baseline、评估指标和消融实验方案
47-51	编码：框架与 Baseline	搭建实验框架 (数据处理、评估脚本)，并实现 Baseline 方法
52-55	编码：核心算法实现	实现自己设计的核心创新算法模块
56-58	实验与结果分析	运行所有实验，收集数据，使用图表进行可视化，撰写初步的实验结论
59-60	论文撰写 (Method & Exp)	完成论文中方法和实验部分的核心内容撰写

第 9 周：论文撰写/开源与面试冲刺

学习内容:

论文/开源准备:

论文撰写: 学习 Introduction, Method, Experiments, Conclusion 的写法。

开源准备: 代码整理与注释，撰写 README，准备示例代码和技术博客。

面试准备:

简历撰写: 学习如何突出算法创新、实验验证和论文/开源产出。

算法面试题: 刷算法设计类、实验设计类、理论深度类题目。

模拟面试: 准备自我介绍和项目介绍的逐字稿，进行模拟面试。

面试话术准备 (STAR - 算法版):

Situation: 问题背景，现有方法的局限性。

Task: 你要解决的问题和优化目标。

Action: 你设计的算法，创新点，为什么这样设计。

Result: 实验结果，对比了哪些 baseline，提升了多少，有什么产出。

解锁技能:

掌握学术论文的撰写规范与技巧

能够将自己的研究成果进行开源分享

拥有一份极具竞争力的算法项目经历

具备在面试中清晰、深入地阐述自己工作的能力

🌟 每日学习计划

天数	学习主题	资源链接	目标
61	论文撰写 (Intro & Conclusion)	模板: Overleaf ACL Template 指南: 论文写作技巧	完成引言、结论和摘要部分的初稿，并进行全文校对
62	代码开源与博客撰写	指南: 如何写好 README 平台: Huggingface, GitHub	整理代码，撰写 README，并写一篇技术博客解读你的项目
63	简历项目经历打磨	指南: Tech Resume Guide 参考: AI面试指南	按照 STAR-算法版模板，将你的项目经历写入简历
64	准备项目介绍逐字稿	模板: STAR方法	准备一个 3-5 分钟的项目介绍，覆盖 S/T/A/R 各个环节
65	模拟项目深挖	题库: LLM系统设计面试题	针对 "为什么不用XX方法"、"算法的局限性" 等问题准备回答
66	算法理论题复习	题库: AI Interview Questions 笔记: LLMs Interview Note 课程: ML Papers Explained	复习 Transformer, RL, RAG 等核心理论高频面试题
67	模拟面试与总结	资源: LLM Evaluation: A Complete Course 社区: AI研究社群	进行 1v1 模拟面试，复盘并改进

📚 核心学习资源推荐

精选业界最优质的学习资源，助你快速提升算法能力

🤖 智能体开发

Hello-Agents - Datawhale

⭐ 推荐指数: ★★★★★
📖 内容: Agent 开发完整教程，从基础到进阶
🎯 适合: 入门 Agent 算法开发，了解核心原理
💡 亮点: 中文友好、实战导向、Datawhale 出品

📊 RAG 算法优化

All-in-RAG - Datawhale

⭐ 推荐指数: ★★★★★
📖 内容: RAG 全流程算法优化，涵盖检索、重排、GraphRAG
🎯 适合: RAG 算法研究、检索优化、算法创新
💡 亮点: 系统化 RAG 教程、算法改进方向、实战案例

🔧 模型微调

Unsloth - 高效微调框架

⭐ 推荐指数: ★★★★★
📖 内容: 2-5倍微调加速，显存优化，支持 LoRA/QLoRA
🎯 适合: 高效微调、资源受限场景、快速实验
💡 亮点: 速度快、显存省、易上手

LLaMA-Factory - 一站式微调平台

⭐ 推荐指数: ★★★★★
📖 内容: 支持100+ LLM微调，Web UI + CLI，SFT/DPO/PPO
🎯 适合: 算法实验、Function Call微调、模型对齐
💡 亮点: 功能全面、社区活跃、文档完善

🗃️ 数据处理

Easy-Dataset - 数据处理工具集

⭐ 推荐指数: ★★★★☆
📖 内容: 数据清洗、格式转换、质量评估
🎯 适合: 微调数据准备、数据质量提升
💡 亮点: 自动化数据处理、提升数据质量

🧠 从零构建大模型（理论深度）

nanoGPT - Karpathy

⭐ 推荐指数: ★★★★★（算法岗必看）
📖 内容: 从零实现 GPT，代码简洁、注释详细
🎯 适合: 深入理解 Transformer、预训练原理
💡 亮点: Karpathy 亲自编写、500行核心代码、理解模型本质

nanochat - Karpathy

⭐ 推荐指数: ★★★★★（算法岗必看）
📖 内容: 从零构建对话模型，涵盖训练、推理、部署
🎯 适合: 理解对话系统、端到端模型构建
💡 亮点: 完整的训练流程、实战导向、算法细节

🎯 完整学习路径

AgentGuide - AI Agent 完整学习路线

⭐ 推荐指数: ★★★★★
📖 内容: Agent 开发、RAG 系统、上下文工程、面试指南
🎯 适合: 系统化学习、求职准备、技术路线规划
💡 亮点: 算法岗/开发岗双路线、面试题库、简历模板

💡 学习建议

入门阶段（第1-2周）

先学习 Hello-Agents 建立 Agent 开发基础
阅读 nanoGPT 源码理解模型原理

进阶阶段（第3-6周）

深入 All-in-RAG 学习检索算法优化
使用 LLaMA-Factory 进行微调实验
用 Unsloth 提升训练效率

实战阶段（第7-9周）

参考 nanochat 构建对话系统
使用 Easy-Dataset 处理训练数据
跟随 AgentGuide 完成项目和面试准备

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AI Agent 算法工程师学习路线图（研究型）

一、你能获得什么

二、算法岗核心要求

你需要具备的能力

算法岗简历必备

三、推荐学习资源与工具

📚 核心课程与书籍

📝 必读论文

🛠️ 研究工具与框架

🌐 学习社区与资源

🎨 可视化学习资源（强烈推荐！）

四、9周详细学习计划

第 1 周：大模型必备基础 + 手撕Transformer

第 2 周：Agent 核心理论 + ReAct 框架

第 3 周：高级 Agent 架构：规划、反思与搜索

第 4 周：RAG 核心算法：从密集检索到图检索

第 5 周：Agent Memory 与上下文工程算法

第 6 周：基于强化学习的 Agent 决策优化

第 7-8 周：算法创新项目实战

项目方向1：Agentic RAG with Self-Correction

项目方向2：Hierarchical Memory Agent for Long-Term Tasks

第 9 周：论文撰写/开源与面试冲刺

📚 核心学习资源推荐

🤖 智能体开发

📊 RAG 算法优化

🔧 模型微调

🗃️ 数据处理

🧠 从零构建大模型（理论深度）

🎯 完整学习路径

💡 学习建议

入门阶段（第1-2周）

进阶阶段（第3-6周）

实战阶段（第7-9周）

👉 返回主文档：README.md

FilesExpand file tree

learning-roadmap-algorithm.md

Latest commit

History

learning-roadmap-algorithm.md

File metadata and controls

AI Agent 算法工程师学习路线图（研究型）

一、你能获得什么

二、算法岗核心要求

你需要具备的能力

算法岗简历必备

三、推荐学习资源与工具

📚 核心课程与书籍

📝 必读论文

🛠️ 研究工具与框架

🌐 学习社区与资源

🎨 可视化学习资源（强烈推荐！）

四、9周详细学习计划

第 1 周：大模型必备基础 + 手撕Transformer

第 2 周：Agent 核心理论 + ReAct 框架

第 3 周：高级 Agent 架构：规划、反思与搜索

第 4 周：RAG 核心算法：从密集检索到图检索

第 5 周：Agent Memory 与上下文工程算法

第 6 周：基于强化学习的 Agent 决策优化

第 7-8 周：算法创新项目实战

项目方向1：Agentic RAG with Self-Correction

项目方向2：Hierarchical Memory Agent for Long-Term Tasks

第 9 周：论文撰写/开源与面试冲刺

📚 核心学习资源推荐

🤖 智能体开发

📊 RAG 算法优化

🔧 模型微调

🗃️ 数据处理

🧠 从零构建大模型（理论深度）

🎯 完整学习路径

💡 学习建议

入门阶段（第1-2周）

进阶阶段（第3-6周）

实战阶段（第7-9周）

👉 返回主文档：README.md