Skip to content

Latest commit

 

History

History
575 lines (477 loc) · 43.9 KB

File metadata and controls

575 lines (477 loc) · 43.9 KB

AI Agent 算法工程师学习路线图(研究型)

目标岗位:AI Agent 算法工程师(研究/创新型)
学习时长:9 周(全职投入)
最终产出:1-2 个算法创新型项目 + 1 篇高质量论文/高星开源项目


一、你能获得什么

时间紧迫!用9周,打造从理论到创新的完整算法能力

9周系统学习:从经典论文到前沿算法,构建坚实的理论体系

每周代码实战:手撕核心算法,将理论转化为代码

2个创新项目:完成从问题定义、算法设计到实验分析、论文撰写的完整科研流程

独享学习路径:专为算法研究岗定制,区别于应用开发岗

顶级面试能力:掌握算法岗面试核心,从容应对深度追问

科研产出能力:完成具备顶会投稿/高星开源水平的创新项目


二、算法岗核心要求

你需要具备的能力

理论深度

  • 能徒手推导核心算法
  • 精通背后数学原理
  • 掌握领域前沿论文
  • 能设计创新性算法

实验能力

  • 设计严谨的对比实验
  • 设计全面的消融实验
  • 选择有说服力的 Baseline
  • 科学分析与验证指标提升

产出能力

  • 撰写高质量学术论文
  • 开源高影响力代码
  • 撰写专业技术报告
  • 为顶级算法库贡献代码

算法岗简历必备

至少1篇高质量论文:顶会/顶刊在投或已发表
至少1个高星开源项目:300+ Stars 且有持续维护
2-3个算法深度优化项目:有严谨的实验数据支撑
扎实的理论基础:能从第一性原理层面回答深度问题


三、推荐学习资源与工具

📚 核心课程与书籍

📝 必读论文

🛠️ 研究工具与框架

🌐 学习社区与资源

🎨 可视化学习资源(强烈推荐!)

  • 100+ LLM/RL 算法原理图 ⭐ 算法岗必看!
    • 作者:《大模型算法:强化学习、微调与对齐》作者余昌叶
    • 内容:100+张原创算法原理图,涵盖Transformer、注意力机制、SFT、LoRA/QLoRA、DPO/PPO/GRPO、RLHF、推理优化等
    • 价值:通过可视化图解深入理解算法的数学推导和实现细节,让复杂算法一目了然
    • 书籍:《大模型算法:强化学习、微调与对齐》

四、9周详细学习计划

第 1 周:大模型必备基础 + 手撕Transformer

学习内容:

基础速通:

  • Python 核心语法、NumPy/Pandas 基础
  • 神经网络核心概念:前向传播、反向传播、损失函数
  • PyTorch 框架速通:Tensor 操作、自动求导、模型搭建

Transformer架构:

  • Transformer 架构详解:Encoder、Decoder 结构、Self-Attention 机制、Multi-Head Attention
  • 核心组件剖析:Attention、Positional Encoding、Layer Normalization、残差连接、FFN
  • MOE架构初探:专家网络、门控网络、Top-K激活

手撕系列:

  • PyTorch 手撕神经网络训练
  • EXCEL实现Transformer矩阵计算
  • 手撕 Multi-Head Attention
  • 手撕 Transformer 关键模块

解锁技能:

  • 熟练运用 Python 和 PyTorch 进行开发
  • 精通 Transformer 模型的核心架构与组件
  • 具备手撕关键模块的能力
  • 完全理解Bert、T5、GPT架构的工作原理

🌟 每日学习计划

天数 学习主题 资源链接 目标
1 Python & PyTorch 基础 课程: 《动手学深度学习》 (B站视频)
数学: 3Blue1Brown - 线性代数的精髓
补充: 台湾大学李宏毅深度学习
掌握 Python 基础语法、PyTorch 张量操作与训练循环
2 手撕神经网络训练 教程: Neural Networks from Scratch
课程: Andrej Karpathy: Neural Networks Zero to Hero
从零实现一个简单的前馈神经网络,理解反向传播
3 Transformer 宏观理解 博客: The Illustrated Transformer
论文: "Attention Is All You Need"
可视化: Interactive Transformer
图解: Transformer算法原理图
掌握 Encoder/Decoder 结构、Multi-Head Attention
4 Transformer 矩阵计算 教程: Transformer from scratch in Excel
详解: Transformer 数学原理
图解: 算法原理图
逐个公式推导 Q/K/V 计算流程
5 手撕 Multi-Head Attention 教程: Let's build GPT: from scratch
代码: nanoGPT, build nanoGPT
纯 PyTorch 实现 Multi-Head Attention 和 FFN
6 手撕 Transformer 关键模块 参考: pytorch-llama, LLMs-from-scratch 组合已实现模块,完成一个完整的 Transformer Block
7 MOE 架构与模型家族 论文: Outrageously Large Neural Networks
指南: A Visual Guide to Mixture of Experts
理解 MOE 架构,并梳理 Bert、T5、GPT 架构的差异

第 2 周:Agent 核心理论 + ReAct 框架

学习内容:

Agent 核心概念:

  • 什么是 AI Agent?
  • Agent 的核心组件:Planning、Memory、Tool Use
  • Agent vs. LLM vs. RAG 的本质区别

ReAct 框架:

  • ReAct 核心思想:Reasoning + Acting 交替进行

必读论文:

手撕与学习任务:

  • 阅读 ReAct 论文,手绘算法流程图
  • 基于 LangChain 或 LlamaIndex 复现一个基础的 ReAct Agent

面试准备:

  • Q: 请解释 ReAct 框架的工作原理。
  • Q: ReAct 和传统的 Chain-of-Thought 有什么区别?

解锁技能:

  • 深刻理解 Agent 的基本工作范式
  • 掌握 ReAct 框架的算法原理

🌟 每日学习计划

天数 学习主题 资源链接 目标
8 Agent 核心概念 博客: LLM Powered Autonomous Agents
综述: 大语言模型综述
课程: 清华NLP大模型公开课
建立 Agent 的宏观认知,理解其与 LLM 的区别
9-10 ReAct 论文精读与复现 论文: ReAct
代码: LangChain ReAct Agent
解读: ReAct解读
深度理解 "Thought, Action, Observation" 循环,并用框架实现
11-12 ReAct 算法复现与思考 博客: 深入理解 ReAct
框架: Lagent, Qwen-Agent
总结 ReAct 的优缺点,思考其在复杂任务中的局限性
13-14 预留时间 & 周度复盘 书籍: 《大语言模型》
技术报告: State of GPT
教程: 《动手学大模型Dive into LLMs》
巩固本周知识,完成所有编码任务

第 3 周:高级 Agent 架构:规划、反思与搜索

学习内容:

高级 Agent 架构:

  • Reflexion:自我反思机制
  • Tree of Thoughts:树状思维搜索
  • Self-Consistency:一致性采样

Multi-Agent 协作:

  • Multi-Agent 通信协议与协作策略(辩论、投票、层级)
  • 任务分解与分配算法

必读论文:

学习任务:

  • 对比 ReAct、Reflexion、ToT 的算法差异,分析各自优缺点
  • 用 Python 实现一个 ToT 节点,并结合 LLM API 设计一个简单的评估函数来解决 24点游戏 问题
  • 使用 AutoGen 框架实现一个简单的 "coder" 与 "critic" 协作的 Multi-Agent 系统

面试准备:

  • Q: Reflexion 的自我反思机制如何实现?它和 RL 中的 "Credit Assignment" 有什么关系?
  • Q: Tree of Thoughts 和传统 MCTS (蒙特卡洛树搜索) 的区别是什么?
  • Q: 在 Multi-Agent 系统中,如何解决 "责任分散" 和 "目标冲突" 的问题?

解锁技能:

  • 掌握 Reflexion, ToT 等高级 Agent 架构的算法思想
  • 能够分析不同 Agent 架构的优缺点和适用场景
  • 理解多智能体系统的设计理念和协作模式
  • 具备初步设计复杂 Agent 系统的能力

🌟 每日学习计划

天数 学习主题 资源链接 目标
15 Reflexion 论文精读 论文: Reflexion
解读: Reflexion 论文解读
扩展: Self-Refine
掌握其"Actor -> Evaluator -> Self-Reflection"的算法流程
16 Reflexion 算法分析 伪代码: Reflexion 官方伪代码
相关: Chain of Thought
分析反思机制如何帮助 Agent 从失败中学习,并尝试用伪代码实现
17 Tree of Thoughts 论文精读 论文: Tree of Thoughts
代码: ToT 开源代码实现
相关: Self-Consistency
理解如何将 LLM 作为搜索算法的启发式函数
18 ToT 算法实战 任务: 24点游戏
博客: Prompt Engineering Guide
实现一个简化的 ToT 搜索策略来解决 24点游戏
19 Multi-Agent 协作模式 论文: MetaGPT
论文: Communicative Agents
论文: AutoGen
学习 MetaGPT 中角色定义 (SOPs) 和协作模式
20 AutoGen 框架实战 文档: AutoGen 官方教程
替代: AgentScope, CrewAI
使用 AutoGen 搭建一个简单的 Coder 和 Critic Agent
21 周度总结与对比分析 综述: Awesome Agent Reasoning 绘制 ReAct, Reflexion, ToT 的算法流程对比图,总结优劣

第 4 周:RAG 核心算法:从密集检索到图检索

学习内容:

检索算法原理:

  • Naive RAG 的算法流程
  • 检索算法:BM25、Dense Retrieval、Hybrid Search
  • Reranker 算法原理

Advanced RAG 算法:

  • GraphRAG 算法创新
  • Agentic RAG 与多跳推理

必读论文:

手撕与学习任务:

  • Python 手撕 BM25 算法
  • 使用 FAISS 构建一个向量索引并进行相似度搜索
  • 使用 RAGAs 或 trulens-eval 对一个基础 RAG 系统进行评估
  • 设计一个简单的 Agentic RAG 查询规划模块伪代码

面试准备:

  • Q: GraphRAG 相比传统 RAG 的算法改进是什么?它适用于什么场景?
  • Q: 如何设计一个 Agentic RAG 的规划策略?如何评估规划的好坏?
  • Q: 密集检索和稀疏检索的优缺点分别是什么?为什么 Hybrid Search 通常效果更好?

解锁技能:

  • 深入理解现代 RAG 系统的检索算法基石
  • 掌握 GraphRAG、Agentic RAG 等前沿 RAG 算法的创新点
  • 具备手撕核心检索算法和评估 RAG 系统的能力
  • 能够设计和评估 RAG 系统的检索模块

🌟 每日学习计划

天数 学习主题 资源链接 目标
22 检索算法基础 (BM25) 教程: BM25 from scratch
论文: TF-IDF
理解 TF-IDF 和 BM25 的原理,并手动实现
23 DPR 与密集检索 论文: DPR
教程: Sentence Transformers
论文: ColBERT
掌握双编码器架构,并使用 Sentence Transformers 训练一个模型
24 Reranker 与混合检索 教程: LlamaIndex Reranking
论文: Modular RAG
技术: RAG Techniques
理解 Reranker 的作用,并实现一个 BM25 + Embedding 的混合检索流程
25 GraphRAG 技术解读 报告: Microsoft GraphRAG
博客: GraphRAG 详解
实现: LightRAG, nano-GraphRAG
理解其基于图的社群检测、摘要和问答流程
26 RAG 评估体系 文档: RAGAs 评估框架
工具: FlashRAG
概览: Awesome Evaluation
学习 Faithfulness, Answer Relevancy 等 RAG 评估指标,并用 RAGAs 进行评估
27 Self-RAG 论文精读 论文: Self-RAG
相关: CRAG, Adaptive-RAG
学习如何通过 "reflection tokens" 让 LLM 自主决定何时检索、检索什么内容
28 Agentic RAG 算法设计 教程: Learn RAG From Scratch
课程: OpenRAG
思考如何设计一个能进行多步推理的 Agentic RAG 策略,并绘制流程图

第 5 周:Agent Memory 与上下文工程算法

学习内容:

Memory 算法设计:

  • 短期记忆 vs 长期记忆
  • 记忆重要性评分算法 (语义相似度 + 任务相关性 + 时效性)
  • 记忆压缩与总结策略 (聚类 + 摘要 + 去重)
  • 记忆检索优化 (向量检索 + 时间衰减 + 重要性加权)

上下文工程算法:

  • 上下文选择策略 (语义相关性、逻辑依赖、时效性)
  • 上下文压缩算法 (层级笔记、QA对转换、总结算法)
  • 动态上下文构建

必读论文:

学习任务:

  • 基于 MemGPT 开源库,修改其配置以处理一个长文档问答任务
  • 实现一个自定义的 NodePostprocessor (LlamaIndex) 来根据关键词或时间戳过滤上下文
  • 设计一个分层记忆架构伪代码,包含评分、压缩、检索的完整 Agent Memory 算法方案

面试准备:

  • Q: 如何设计 Agent 的长期记忆机制?请阐述其写入、更新、读取的全流程。
  • Q: 记忆压缩和检索的trade-off如何平衡?如何通过实验评估你的压缩算法没有损失关键信息?
  • Q: MemGPT 和传统的 RAG 在处理长上下文时有何本质区别?

解锁技能:

  • 掌握 Agent 记忆系统的核心算法设计
  • 能够设计高效的上下文选择与压缩策略
  • 理解如何平衡信息保真度与上下文长度的限制
  • 具备从算法层面优化 Agent 长对话能力的视野

🌟 每日学习计划

天数 学习主题 资源链接 目标
29 Agent Memory 概述 博客: LLM Powered Agents - Memory
工具: Mem0, MemoryScope
论文: Agent Memory 综述
梳理 Agent 记忆的分类和挑战
30 Generative Agents 论文精读 论文: Generative Agents
博客: Generative Agents 解读
学习其对记忆进行评分 (Recency, Importance, Relevance) 和检索的机制
31 MemGPT 论文精读 论文: MemGPT
代码: MemGPT 开源库
相关: Anthropic Context
学习其分层记忆和函数调用管理虚拟上下文的方法
32 MemGPT 实战 教程: MemGPT Tutorial
扩展: LangMem
运行 MemGPT 官方示例,理解其工作流程
33 上下文压缩技术 教程: LlamaIndex Context Stuffing
论文: LongLLMLingua
学习并实现不同的上下文填充和压缩策略
34 上下文选择与过滤 教程: LlamaIndex Node Postprocessors
论文: Lost in the Middle
实现一个自定义的后处理器来优化上下文选择
35 周度总结与方案设计 设计一个包含评分、压缩、检索的完整 Agent Memory 算法方案,并绘制架构图

第 6 周:基于强化学习的 Agent 决策优化

学习内容:

RL 基础理论:

  • RL 基础:MDP、Q-learning、Policy Gradient
  • Agent + RL 的结合点
  • 奖励函数设计 (稀疏奖励 vs 密集奖励, Reward Model)
  • 策略优化算法 (PPO vs DPO vs GRPO)

必读论文:

手撕与学习任务:

  • 推导 DPO 的损失函数
  • 使用 TRL 库中的 DPOTrainer 对一个 SFT 模型进行 DPO 微调
  • 设计一个 Agent 工具调用任务的奖励函数

面试准备:

  • Q: 如何用强化学习优化 Agent 的决策?请举例说明 State, Action, Reward 如何定义。
  • Q: DPO 和 PPO 在 Agent 场景下的选择和优劣势是什么?为什么 DPO 更稳定?
  • Q: 在一个稀疏奖励的 Agent 任务中(例如,只有任务最终成功才有奖励),如何设计 Reward Shaping 或辅助任务来帮助模型学习?

解锁技能:

  • 掌握将 Agent 决策过程建模为 RL 问题的能力
  • 深刻理解 PPO/DPO/GRPO 等主流对齐算法的原理
  • 能够为 Agent 任务设计合理的奖励函数
  • 具备使用强化学习优化 Agent 策略的理论基础

🌟 每日学习计划

天数 学习主题 资源链接 目标
36 RL 基础入门 教程: Hugging Face Deep RL Course
课程: 《动手学强化学习》
书籍: Reinforcement Learning: An Introduction
掌握 MDP, Policy, Value Function 等核心概念
37 Policy Gradient & PPO 博客: Understanding PPO
论文: PPO
教程: RL课程
图解: PPO算法图解
理解 PPO 的目标函数和裁剪机制
38 DPO 论文精读与推导 论文: DPO
博客: DPO 详解
教程: Preference Optimization
掌握 DPO 如何从偏好数据中隐式学习奖励并优化策略,并推导其损失函数
39 DPO 实战 教程: Hugging Face TRL DPO
框架: OpenRLHF, RL-Factory, VeRL
使用 TRL 库完成一次 DPO 训练
40 GRPO 理论解读 论文: GRPO
相关: DeepSeek-R1
综合: Open o1推理
理解 GRPO 如何将 DPO 扩展到组级别的偏好
41 RL for Tool Learning 论文: Toolformer
论文: ReAct RL
资源: Agent+RL项目汇总
学习如何用 RL 思想让模型学会使用工具
42 奖励模型设计 教程: TRL Reward Modeling
框架: RM-Gallery
书籍: RLHF Book
学习如何为 Agent 任务设计奖励函数/训练奖励模型

第 7-8 周:算法创新项目实战

根据阿东提供的方向进行选择

核心目标:完成 1-2 个算法创新型项目,从问题定义到实验分析,产出论文初稿或开源代码。

项目方向1:Agentic RAG with Self-Correction

问题定义: 传统 RAG "一次检索定成败",无法处理需要多步推理或信息汇总的复杂问题。

算法创新点:

  1. Iterative Retrieval: 构建一个 Agent,能对初步检索结果进行评估。
  2. Self-Correction: 如果 Agent 认为信息不足或有矛盾,能自主生成新的、更精确的查询,进行多轮检索。
  3. Adaptive Planning: (进阶) 使用 RL 训练查询生成策略,最大化最终答案的准确性。

实验设计:

  • 数据集: HotpotQA, QASPER (需要多跳推理的数据集)
  • Baseline: Naive RAG, ReAct Agent
  • 评估指标: F1, Recall@K, Answer Correctness, # of Queries (效率)
  • 消融实验: 验证 Self-Correction 模块和 Iterative Retrieval 模块的贡献。

项目方向2:Hierarchical Memory Agent for Long-Term Tasks

问题定义: 现有 Agent 的 Memory 机制通常是扁平的向量存储,难以在长期、多任务的场景中有效组织和检索记忆。

算法创新点:

  1. Hierarchical Memory: 设计一个分层记忆结构,例如 Event Memory (高层事件总结) 和 Working Memory (底层原始信息)。
  2. Autonomous Summarization: Agent 能够在对话或任务结束后,自动将 Working Memory 中的内容进行总结,并存入 Event Memory
  3. Layered Retrieval: 检索时,Agent 首先在高层 Event Memory 中定位相关事件,再深入底层的 Working Memory 获取细节,提高效率和准确性。

实验设计:

  • 数据集: 构建一个长对话、多主题的数据集 (如整理多场会议纪要)。
  • Baseline: Sliding Window Memory, Naive Vector Store Memory
  • 评估指标: Information Recall (信息保留率), Compression Ratio (压缩率), Retrieval Speed (检索速度)
  • 消融实验: 验证 Hierarchical 结构和 Summarization 模块的有效性。

🌟 学习计划 (2周)

天数 学习主题 目标
43-44 项目选题与文献调研 选定一个项目方向,精读 5-7 篇核心论文,完成 Related Work 初稿
45-46 算法与实验方案设计 完成算法流程图绘制,确定数据集、Baseline、评估指标和消融实验方案
47-51 编码:框架与 Baseline 搭建实验框架 (数据处理、评估脚本),并实现 Baseline 方法
52-55 编码:核心算法实现 实现自己设计的核心创新算法模块
56-58 实验与结果分析 运行所有实验,收集数据,使用图表进行可视化,撰写初步的实验结论
59-60 论文撰写 (Method & Exp) 完成论文中方法和实验部分的核心内容撰写

第 9 周:论文撰写/开源与面试冲刺

学习内容:

论文/开源准备:

  • 论文撰写: 学习 Introduction, Method, Experiments, Conclusion 的写法。
  • 开源准备: 代码整理与注释,撰写 README,准备示例代码和技术博客。

面试准备:

  • 简历撰写: 学习如何突出算法创新、实验验证和论文/开源产出。
  • 算法面试题: 刷算法设计类、实验设计类、理论深度类题目。
  • 模拟面试: 准备自我介绍和项目介绍的逐字稿,进行模拟面试。

面试话术准备 (STAR - 算法版):

  • Situation: 问题背景,现有方法的局限性。
  • Task: 你要解决的问题和优化目标。
  • Action: 你设计的算法,创新点,为什么这样设计。
  • Result: 实验结果,对比了哪些 baseline,提升了多少,有什么产出。

解锁技能:

  • 掌握学术论文的撰写规范与技巧
  • 能够将自己的研究成果进行开源分享
  • 拥有一份极具竞争力的算法项目经历
  • 具备在面试中清晰、深入地阐述自己工作的能力

🌟 每日学习计划

天数 学习主题 资源链接 目标
61 论文撰写 (Intro & Conclusion) 模板: Overleaf ACL Template
指南: 论文写作技巧
完成引言、结论和摘要部分的初稿,并进行全文校对
62 代码开源与博客撰写 指南: 如何写好 README
平台: Huggingface, GitHub
整理代码,撰写 README,并写一篇技术博客解读你的项目
63 简历项目经历打磨 指南: Tech Resume Guide
参考: AI面试指南
按照 STAR-算法版 模板,将你的项目经历写入简历
64 准备项目介绍逐字稿 模板: STAR方法 准备一个 3-5 分钟的项目介绍,覆盖 S/T/A/R 各个环节
65 模拟项目深挖 题库: LLM系统设计面试题 针对 "为什么不用XX方法"、"算法的局限性" 等问题准备回答
66 算法理论题复习 题库: AI Interview Questions
笔记: LLMs Interview Note
课程: ML Papers Explained
复习 Transformer, RL, RAG 等核心理论高频面试题
67 模拟面试与总结 资源: LLM Evaluation: A Complete Course
社区: AI研究社群
进行 1v1 模拟面试,复盘并改进

📚 核心学习资源推荐

精选业界最优质的学习资源,助你快速提升算法能力

🤖 智能体开发

Hello-Agents - Datawhale

  • 推荐指数: ★★★★★
  • 📖 内容: Agent 开发完整教程,从基础到进阶
  • 🎯 适合: 入门 Agent 算法开发,了解核心原理
  • 💡 亮点: 中文友好、实战导向、Datawhale 出品

📊 RAG 算法优化

All-in-RAG - Datawhale

  • 推荐指数: ★★★★★
  • 📖 内容: RAG 全流程算法优化,涵盖检索、重排、GraphRAG
  • 🎯 适合: RAG 算法研究、检索优化、算法创新
  • 💡 亮点: 系统化 RAG 教程、算法改进方向、实战案例

🔧 模型微调

Unsloth - 高效微调框架

  • 推荐指数: ★★★★★
  • 📖 内容: 2-5倍微调加速,显存优化,支持 LoRA/QLoRA
  • 🎯 适合: 高效微调、资源受限场景、快速实验
  • 💡 亮点: 速度快、显存省、易上手

LLaMA-Factory - 一站式微调平台

  • 推荐指数: ★★★★★
  • 📖 内容: 支持100+ LLM微调,Web UI + CLI,SFT/DPO/PPO
  • 🎯 适合: 算法实验、Function Call微调、模型对齐
  • 💡 亮点: 功能全面、社区活跃、文档完善

🗃️ 数据处理

Easy-Dataset - 数据处理工具集

  • 推荐指数: ★★★★☆
  • 📖 内容: 数据清洗、格式转换、质量评估
  • 🎯 适合: 微调数据准备、数据质量提升
  • 💡 亮点: 自动化数据处理、提升数据质量

🧠 从零构建大模型(理论深度)

nanoGPT - Karpathy

  • 推荐指数: ★★★★★(算法岗必看)
  • 📖 内容: 从零实现 GPT,代码简洁、注释详细
  • 🎯 适合: 深入理解 Transformer、预训练原理
  • 💡 亮点: Karpathy 亲自编写、500行核心代码、理解模型本质

nanochat - Karpathy

  • 推荐指数: ★★★★★(算法岗必看)
  • 📖 内容: 从零构建对话模型,涵盖训练、推理、部署
  • 🎯 适合: 理解对话系统、端到端模型构建
  • 💡 亮点: 完整的训练流程、实战导向、算法细节

🎯 完整学习路径

AgentGuide - AI Agent 完整学习路线

  • 推荐指数: ★★★★★
  • 📖 内容: Agent 开发、RAG 系统、上下文工程、面试指南
  • 🎯 适合: 系统化学习、求职准备、技术路线规划
  • 💡 亮点: 算法岗/开发岗双路线、面试题库、简历模板

💡 学习建议

入门阶段(第1-2周)

  1. 先学习 Hello-Agents 建立 Agent 开发基础
  2. 阅读 nanoGPT 源码理解模型原理

进阶阶段(第3-6周)

  1. 深入 All-in-RAG 学习检索算法优化
  2. 使用 LLaMA-Factory 进行微调实验
  3. Unsloth 提升训练效率

实战阶段(第7-9周)

  1. 参考 nanochat 构建对话系统
  2. 使用 Easy-Dataset 处理训练数据
  3. 跟随 AgentGuide 完成项目和面试准备

👉 返回主文档:README.md