目标岗位:AI Agent 算法工程师(研究/创新型)
学习时长:9 周(全职投入)
最终产出:1-2 个算法创新型项目 + 1 篇高质量论文/高星开源项目
时间紧迫!用9周,打造从理论到创新的完整算法能力
✅ 9周系统学习:从经典论文到前沿算法,构建坚实的理论体系
✅ 每周代码实战:手撕核心算法,将理论转化为代码
✅ 2个创新项目:完成从问题定义、算法设计到实验分析、论文撰写的完整科研流程
✅ 独享学习路径:专为算法研究岗定制,区别于应用开发岗
✅ 顶级面试能力:掌握算法岗面试核心,从容应对深度追问
✅ 科研产出能力:完成具备顶会投稿/高星开源水平的创新项目
|
理论深度
|
实验能力
|
产出能力
|
✅ 至少1篇高质量论文:顶会/顶刊在投或已发表
✅ 至少1个高星开源项目:300+ Stars 且有持续维护
✅ 2-3个算法深度优化项目:有严谨的实验数据支撑
✅ 扎实的理论基础:能从第一性原理层面回答深度问题
- 课程: 《动手学深度学习》 - 深度学习基础的最佳入门
- 课程: 清华大模型公开课第二季 - 系统了解大模型历史与前沿
- 课程: Stanford CS224N: NLP with Deep Learning - NLP经典课程
- 书籍: 《大语言模型》 - 大模型最佳中文书籍
- 书籍: 《Build a Large Language Model (From Scratch)》 - 从零构建大模型
- 教程: 《动手学大模型Dive into LLMs》 - 上海交大编程实践教程(含PPT、视频)
- 教程: 《面向开发者的 LLM 入门教程》 - 吴恩达课程中文版
- 教程: 《从零开始的大语言模型原理与实践》 - Datawhale系统教程
- 基础: "Attention Is All You Need" - Transformer开山之作
- Agent: ReAct, Reflexion, Tree of Thoughts
- RAG: DPR, Self-RAG, GraphRAG
- RL: DPO, GRPO, DeepSeek-R1
- 训练框架: LLaMA-Factory, TRL, OpenRLHF
- 微调教程: 大模型微调系列 - 从基础到实战的完整指南
- 评估工具: lm-evaluation-harness, OpenCompass, RAGAs
- Agent框架: LangChain, AutoGen, AgentScope
- 论文库: Huggingface Daily Papers, Cool Papers, ML Papers Explained
- 博客: Lil'Log (OpenAI), 科学空间(苏剑林), Andrej Karpathy
- 综述: 大语言模型综述, Awesome LLM Reasoning
- 资源库: Awesome LLM Resources
- 100+ LLM/RL 算法原理图 ⭐ 算法岗必看!
- 作者:《大模型算法:强化学习、微调与对齐》作者余昌叶
- 内容:100+张原创算法原理图,涵盖Transformer、注意力机制、SFT、LoRA/QLoRA、DPO/PPO/GRPO、RLHF、推理优化等
- 价值:通过可视化图解深入理解算法的数学推导和实现细节,让复杂算法一目了然
- 书籍:《大模型算法:强化学习、微调与对齐》
学习内容:
基础速通:
- Python 核心语法、NumPy/Pandas 基础
- 神经网络核心概念:前向传播、反向传播、损失函数
- PyTorch 框架速通:Tensor 操作、自动求导、模型搭建
Transformer架构:
- Transformer 架构详解:Encoder、Decoder 结构、Self-Attention 机制、Multi-Head Attention
- 核心组件剖析:Attention、Positional Encoding、Layer Normalization、残差连接、FFN
- MOE架构初探:专家网络、门控网络、Top-K激活
手撕系列:
- PyTorch 手撕神经网络训练
- EXCEL实现Transformer矩阵计算
- 手撕 Multi-Head Attention
- 手撕 Transformer 关键模块
解锁技能:
- 熟练运用 Python 和 PyTorch 进行开发
- 精通 Transformer 模型的核心架构与组件
- 具备手撕关键模块的能力
- 完全理解Bert、T5、GPT架构的工作原理
🌟 每日学习计划
| 天数 | 学习主题 | 资源链接 | 目标 |
|---|---|---|---|
| 1 | Python & PyTorch 基础 | 课程: 《动手学深度学习》 (B站视频) 数学: 3Blue1Brown - 线性代数的精髓 补充: 台湾大学李宏毅深度学习 |
掌握 Python 基础语法、PyTorch 张量操作与训练循环 |
| 2 | 手撕神经网络训练 | 教程: Neural Networks from Scratch 课程: Andrej Karpathy: Neural Networks Zero to Hero |
从零实现一个简单的前馈神经网络,理解反向传播 |
| 3 | Transformer 宏观理解 | 博客: The Illustrated Transformer 论文: "Attention Is All You Need" 可视化: Interactive Transformer 图解: Transformer算法原理图 |
掌握 Encoder/Decoder 结构、Multi-Head Attention |
| 4 | Transformer 矩阵计算 | 教程: Transformer from scratch in Excel 详解: Transformer 数学原理 图解: 算法原理图 |
逐个公式推导 Q/K/V 计算流程 |
| 5 | 手撕 Multi-Head Attention | 教程: Let's build GPT: from scratch 代码: nanoGPT, build nanoGPT |
纯 PyTorch 实现 Multi-Head Attention 和 FFN |
| 6 | 手撕 Transformer 关键模块 | 参考: pytorch-llama, LLMs-from-scratch | 组合已实现模块,完成一个完整的 Transformer Block |
| 7 | MOE 架构与模型家族 | 论文: Outrageously Large Neural Networks 指南: A Visual Guide to Mixture of Experts |
理解 MOE 架构,并梳理 Bert、T5、GPT 架构的差异 |
学习内容:
Agent 核心概念:
- 什么是 AI Agent?
- Agent 的核心组件:Planning、Memory、Tool Use
- Agent vs. LLM vs. RAG 的本质区别
ReAct 框架:
- ReAct 核心思想:Reasoning + Acting 交替进行
必读论文:
- ReAct (必读!): Agent 的 "Hello World"
手撕与学习任务:
- 阅读 ReAct 论文,手绘算法流程图
- 基于 LangChain 或 LlamaIndex 复现一个基础的 ReAct Agent
面试准备:
- Q: 请解释 ReAct 框架的工作原理。
- Q: ReAct 和传统的 Chain-of-Thought 有什么区别?
解锁技能:
- 深刻理解 Agent 的基本工作范式
- 掌握 ReAct 框架的算法原理
🌟 每日学习计划
| 天数 | 学习主题 | 资源链接 | 目标 |
|---|---|---|---|
| 8 | Agent 核心概念 | 博客: LLM Powered Autonomous Agents 综述: 大语言模型综述 课程: 清华NLP大模型公开课 |
建立 Agent 的宏观认知,理解其与 LLM 的区别 |
| 9-10 | ReAct 论文精读与复现 | 论文: ReAct 代码: LangChain ReAct Agent 解读: ReAct解读 |
深度理解 "Thought, Action, Observation" 循环,并用框架实现 |
| 11-12 | ReAct 算法复现与思考 | 博客: 深入理解 ReAct 框架: Lagent, Qwen-Agent |
总结 ReAct 的优缺点,思考其在复杂任务中的局限性 |
| 13-14 | 预留时间 & 周度复盘 | 书籍: 《大语言模型》 技术报告: State of GPT 教程: 《动手学大模型Dive into LLMs》 |
巩固本周知识,完成所有编码任务 |
学习内容:
高级 Agent 架构:
- Reflexion:自我反思机制
- Tree of Thoughts:树状思维搜索
- Self-Consistency:一致性采样
Multi-Agent 协作:
- Multi-Agent 通信协议与协作策略(辩论、投票、层级)
- 任务分解与分配算法
必读论文:
- Reflexion: 核心思想是通过自我反思改进决策。
- Tree of Thoughts: 核心思想是搜索算法 + LLM。
- AutoGen Framework: 对话驱动的多智能体系统。
学习任务:
- 对比 ReAct、Reflexion、ToT 的算法差异,分析各自优缺点
- 用 Python 实现一个 ToT 节点,并结合 LLM API 设计一个简单的评估函数来解决 24点游戏 问题
- 使用 AutoGen 框架实现一个简单的 "coder" 与 "critic" 协作的 Multi-Agent 系统
面试准备:
- Q: Reflexion 的自我反思机制如何实现?它和 RL 中的 "Credit Assignment" 有什么关系?
- Q: Tree of Thoughts 和传统 MCTS (蒙特卡洛树搜索) 的区别是什么?
- Q: 在 Multi-Agent 系统中,如何解决 "责任分散" 和 "目标冲突" 的问题?
解锁技能:
- 掌握 Reflexion, ToT 等高级 Agent 架构的算法思想
- 能够分析不同 Agent 架构的优缺点和适用场景
- 理解多智能体系统的设计理念和协作模式
- 具备初步设计复杂 Agent 系统的能力
🌟 每日学习计划
| 天数 | 学习主题 | 资源链接 | 目标 |
|---|---|---|---|
| 15 | Reflexion 论文精读 | 论文: Reflexion 解读: Reflexion 论文解读 扩展: Self-Refine |
掌握其"Actor -> Evaluator -> Self-Reflection"的算法流程 |
| 16 | Reflexion 算法分析 | 伪代码: Reflexion 官方伪代码 相关: Chain of Thought |
分析反思机制如何帮助 Agent 从失败中学习,并尝试用伪代码实现 |
| 17 | Tree of Thoughts 论文精读 | 论文: Tree of Thoughts 代码: ToT 开源代码实现 相关: Self-Consistency |
理解如何将 LLM 作为搜索算法的启发式函数 |
| 18 | ToT 算法实战 | 任务: 24点游戏 博客: Prompt Engineering Guide |
实现一个简化的 ToT 搜索策略来解决 24点游戏 |
| 19 | Multi-Agent 协作模式 | 论文: MetaGPT 论文: Communicative Agents 论文: AutoGen |
学习 MetaGPT 中角色定义 (SOPs) 和协作模式 |
| 20 | AutoGen 框架实战 | 文档: AutoGen 官方教程 替代: AgentScope, CrewAI |
使用 AutoGen 搭建一个简单的 Coder 和 Critic Agent |
| 21 | 周度总结与对比分析 | 综述: Awesome Agent Reasoning | 绘制 ReAct, Reflexion, ToT 的算法流程对比图,总结优劣 |
学习内容:
检索算法原理:
- Naive RAG 的算法流程
- 检索算法:BM25、Dense Retrieval、Hybrid Search
- Reranker 算法原理
Advanced RAG 算法:
- GraphRAG 算法创新
- Agentic RAG 与多跳推理
必读论文:
- Dense Passage Retrieval (DPR): 现代 RAG 的基础,对比密集检索与稀疏检索。
- GraphRAG: 基于知识图谱的检索,关注其子图采样、路径排序等创新。
- Self-RAG: 让 Agent 自主规划检索策略。
手撕与学习任务:
- Python 手撕 BM25 算法
- 使用 FAISS 构建一个向量索引并进行相似度搜索
- 使用 RAGAs 或
trulens-eval对一个基础 RAG 系统进行评估- 设计一个简单的 Agentic RAG 查询规划模块伪代码
面试准备:
- Q: GraphRAG 相比传统 RAG 的算法改进是什么?它适用于什么场景?
- Q: 如何设计一个 Agentic RAG 的规划策略?如何评估规划的好坏?
- Q: 密集检索和稀疏检索的优缺点分别是什么?为什么 Hybrid Search 通常效果更好?
解锁技能:
- 深入理解现代 RAG 系统的检索算法基石
- 掌握 GraphRAG、Agentic RAG 等前沿 RAG 算法的创新点
- 具备手撕核心检索算法和评估 RAG 系统的能力
- 能够设计和评估 RAG 系统的检索模块
🌟 每日学习计划
| 天数 | 学习主题 | 资源链接 | 目标 |
|---|---|---|---|
| 22 | 检索算法基础 (BM25) | 教程: BM25 from scratch 论文: TF-IDF |
理解 TF-IDF 和 BM25 的原理,并手动实现 |
| 23 | DPR 与密集检索 | 论文: DPR 教程: Sentence Transformers 论文: ColBERT |
掌握双编码器架构,并使用 Sentence Transformers 训练一个模型 |
| 24 | Reranker 与混合检索 | 教程: LlamaIndex Reranking 论文: Modular RAG 技术: RAG Techniques |
理解 Reranker 的作用,并实现一个 BM25 + Embedding 的混合检索流程 |
| 25 | GraphRAG 技术解读 | 报告: Microsoft GraphRAG 博客: GraphRAG 详解 实现: LightRAG, nano-GraphRAG |
理解其基于图的社群检测、摘要和问答流程 |
| 26 | RAG 评估体系 | 文档: RAGAs 评估框架 工具: FlashRAG 概览: Awesome Evaluation |
学习 Faithfulness, Answer Relevancy 等 RAG 评估指标,并用 RAGAs 进行评估 |
| 27 | Self-RAG 论文精读 | 论文: Self-RAG 相关: CRAG, Adaptive-RAG |
学习如何通过 "reflection tokens" 让 LLM 自主决定何时检索、检索什么内容 |
| 28 | Agentic RAG 算法设计 | 教程: Learn RAG From Scratch 课程: OpenRAG |
思考如何设计一个能进行多步推理的 Agentic RAG 策略,并绘制流程图 |
学习内容:
Memory 算法设计:
- 短期记忆 vs 长期记忆
- 记忆重要性评分算法 (语义相似度 + 任务相关性 + 时效性)
- 记忆压缩与总结策略 (聚类 + 摘要 + 去重)
- 记忆检索优化 (向量检索 + 时间衰减 + 重要性加权)
上下文工程算法:
- 上下文选择策略 (语义相关性、逻辑依赖、时效性)
- 上下文压缩算法 (层级笔记、QA对转换、总结算法)
- 动态上下文构建
必读论文:
- Generative Agents: 经典的 Agent Memory 模拟社会行为研究。
- MemGPT: 通过分层记忆和函数调用管理虚拟上下文。
学习任务:
- 基于
MemGPT开源库,修改其配置以处理一个长文档问答任务- 实现一个自定义的
NodePostprocessor(LlamaIndex) 来根据关键词或时间戳过滤上下文- 设计一个分层记忆架构伪代码,包含评分、压缩、检索的完整 Agent Memory 算法方案
面试准备:
- Q: 如何设计 Agent 的长期记忆机制?请阐述其写入、更新、读取的全流程。
- Q: 记忆压缩和检索的trade-off如何平衡?如何通过实验评估你的压缩算法没有损失关键信息?
- Q: MemGPT 和传统的 RAG 在处理长上下文时有何本质区别?
解锁技能:
- 掌握 Agent 记忆系统的核心算法设计
- 能够设计高效的上下文选择与压缩策略
- 理解如何平衡信息保真度与上下文长度的限制
- 具备从算法层面优化 Agent 长对话能力的视野
🌟 每日学习计划
| 天数 | 学习主题 | 资源链接 | 目标 |
|---|---|---|---|
| 29 | Agent Memory 概述 | 博客: LLM Powered Agents - Memory 工具: Mem0, MemoryScope 论文: Agent Memory 综述 |
梳理 Agent 记忆的分类和挑战 |
| 30 | Generative Agents 论文精读 | 论文: Generative Agents 博客: Generative Agents 解读 |
学习其对记忆进行评分 (Recency, Importance, Relevance) 和检索的机制 |
| 31 | MemGPT 论文精读 | 论文: MemGPT 代码: MemGPT 开源库 相关: Anthropic Context |
学习其分层记忆和函数调用管理虚拟上下文的方法 |
| 32 | MemGPT 实战 | 教程: MemGPT Tutorial 扩展: LangMem |
运行 MemGPT 官方示例,理解其工作流程 |
| 33 | 上下文压缩技术 | 教程: LlamaIndex Context Stuffing 论文: LongLLMLingua |
学习并实现不同的上下文填充和压缩策略 |
| 34 | 上下文选择与过滤 | 教程: LlamaIndex Node Postprocessors 论文: Lost in the Middle |
实现一个自定义的后处理器来优化上下文选择 |
| 35 | 周度总结与方案设计 | 设计一个包含评分、压缩、检索的完整 Agent Memory 算法方案,并绘制架构图 |
学习内容:
RL 基础理论:
- RL 基础:MDP、Q-learning、Policy Gradient
- Agent + RL 的结合点
- 奖励函数设计 (稀疏奖励 vs 密集奖励, Reward Model)
- 策略优化算法 (PPO vs DPO vs GRPO)
必读论文:
- DPO: 无需显式奖励模型的偏好对齐方法。
- GRPO: 最新的 RLHF 算法,核心思想是 Group Relative Policy Optimization,算法创新点在于相对偏好建模。
手撕与学习任务:
- 推导 DPO 的损失函数
- 使用
TRL库中的DPOTrainer对一个 SFT 模型进行 DPO 微调- 设计一个 Agent 工具调用任务的奖励函数
面试准备:
- Q: 如何用强化学习优化 Agent 的决策?请举例说明 State, Action, Reward 如何定义。
- Q: DPO 和 PPO 在 Agent 场景下的选择和优劣势是什么?为什么 DPO 更稳定?
- Q: 在一个稀疏奖励的 Agent 任务中(例如,只有任务最终成功才有奖励),如何设计 Reward Shaping 或辅助任务来帮助模型学习?
解锁技能:
- 掌握将 Agent 决策过程建模为 RL 问题的能力
- 深刻理解 PPO/DPO/GRPO 等主流对齐算法的原理
- 能够为 Agent 任务设计合理的奖励函数
- 具备使用强化学习优化 Agent 策略的理论基础
🌟 每日学习计划
| 天数 | 学习主题 | 资源链接 | 目标 |
|---|---|---|---|
| 36 | RL 基础入门 | 教程: Hugging Face Deep RL Course 课程: 《动手学强化学习》 书籍: Reinforcement Learning: An Introduction |
掌握 MDP, Policy, Value Function 等核心概念 |
| 37 | Policy Gradient & PPO | 博客: Understanding PPO 论文: PPO 教程: RL课程 图解: PPO算法图解 |
理解 PPO 的目标函数和裁剪机制 |
| 38 | DPO 论文精读与推导 | 论文: DPO 博客: DPO 详解 教程: Preference Optimization |
掌握 DPO 如何从偏好数据中隐式学习奖励并优化策略,并推导其损失函数 |
| 39 | DPO 实战 | 教程: Hugging Face TRL DPO 框架: OpenRLHF, RL-Factory, VeRL |
使用 TRL 库完成一次 DPO 训练 |
| 40 | GRPO 理论解读 | 论文: GRPO 相关: DeepSeek-R1 综合: Open o1推理 |
理解 GRPO 如何将 DPO 扩展到组级别的偏好 |
| 41 | RL for Tool Learning | 论文: Toolformer 论文: ReAct RL 资源: Agent+RL项目汇总 |
学习如何用 RL 思想让模型学会使用工具 |
| 42 | 奖励模型设计 | 教程: TRL Reward Modeling 框架: RM-Gallery 书籍: RLHF Book |
学习如何为 Agent 任务设计奖励函数/训练奖励模型 |
根据阿东提供的方向进行选择
核心目标:完成 1-2 个算法创新型项目,从问题定义到实验分析,产出论文初稿或开源代码。
问题定义: 传统 RAG "一次检索定成败",无法处理需要多步推理或信息汇总的复杂问题。
算法创新点:
- Iterative Retrieval: 构建一个 Agent,能对初步检索结果进行评估。
- Self-Correction: 如果 Agent 认为信息不足或有矛盾,能自主生成新的、更精确的查询,进行多轮检索。
- Adaptive Planning: (进阶) 使用 RL 训练查询生成策略,最大化最终答案的准确性。
实验设计:
- 数据集: HotpotQA, QASPER (需要多跳推理的数据集)
- Baseline: Naive RAG, ReAct Agent
- 评估指标: F1, Recall@K, Answer Correctness, # of Queries (效率)
- 消融实验: 验证 Self-Correction 模块和 Iterative Retrieval 模块的贡献。
问题定义: 现有 Agent 的 Memory 机制通常是扁平的向量存储,难以在长期、多任务的场景中有效组织和检索记忆。
算法创新点:
- Hierarchical Memory: 设计一个分层记忆结构,例如
Event Memory(高层事件总结) 和Working Memory(底层原始信息)。- Autonomous Summarization: Agent 能够在对话或任务结束后,自动将
Working Memory中的内容进行总结,并存入Event Memory。- Layered Retrieval: 检索时,Agent 首先在高层
Event Memory中定位相关事件,再深入底层的Working Memory获取细节,提高效率和准确性。实验设计:
- 数据集: 构建一个长对话、多主题的数据集 (如整理多场会议纪要)。
- Baseline: Sliding Window Memory, Naive Vector Store Memory
- 评估指标: Information Recall (信息保留率), Compression Ratio (压缩率), Retrieval Speed (检索速度)
- 消融实验: 验证 Hierarchical 结构和 Summarization 模块的有效性。
🌟 学习计划 (2周)
| 天数 | 学习主题 | 目标 |
|---|---|---|
| 43-44 | 项目选题与文献调研 | 选定一个项目方向,精读 5-7 篇核心论文,完成 Related Work 初稿 |
| 45-46 | 算法与实验方案设计 | 完成算法流程图绘制,确定数据集、Baseline、评估指标和消融实验方案 |
| 47-51 | 编码:框架与 Baseline | 搭建实验框架 (数据处理、评估脚本),并实现 Baseline 方法 |
| 52-55 | 编码:核心算法实现 | 实现自己设计的核心创新算法模块 |
| 56-58 | 实验与结果分析 | 运行所有实验,收集数据,使用图表进行可视化,撰写初步的实验结论 |
| 59-60 | 论文撰写 (Method & Exp) | 完成论文中方法和实验部分的核心内容撰写 |
学习内容:
论文/开源准备:
- 论文撰写: 学习 Introduction, Method, Experiments, Conclusion 的写法。
- 开源准备: 代码整理与注释,撰写 README,准备示例代码和技术博客。
面试准备:
- 简历撰写: 学习如何突出算法创新、实验验证和论文/开源产出。
- 算法面试题: 刷算法设计类、实验设计类、理论深度类题目。
- 模拟面试: 准备自我介绍和项目介绍的逐字稿,进行模拟面试。
面试话术准备 (STAR - 算法版):
- Situation: 问题背景,现有方法的局限性。
- Task: 你要解决的问题和优化目标。
- Action: 你设计的算法,创新点,为什么这样设计。
- Result: 实验结果,对比了哪些 baseline,提升了多少,有什么产出。
解锁技能:
- 掌握学术论文的撰写规范与技巧
- 能够将自己的研究成果进行开源分享
- 拥有一份极具竞争力的算法项目经历
- 具备在面试中清晰、深入地阐述自己工作的能力
🌟 每日学习计划
| 天数 | 学习主题 | 资源链接 | 目标 |
|---|---|---|---|
| 61 | 论文撰写 (Intro & Conclusion) | 模板: Overleaf ACL Template 指南: 论文写作技巧 |
完成引言、结论和摘要部分的初稿,并进行全文校对 |
| 62 | 代码开源与博客撰写 | 指南: 如何写好 README 平台: Huggingface, GitHub |
整理代码,撰写 README,并写一篇技术博客解读你的项目 |
| 63 | 简历项目经历打磨 | 指南: Tech Resume Guide 参考: AI面试指南 |
按照 STAR-算法版 模板,将你的项目经历写入简历 |
| 64 | 准备项目介绍逐字稿 | 模板: STAR方法 | 准备一个 3-5 分钟的项目介绍,覆盖 S/T/A/R 各个环节 |
| 65 | 模拟项目深挖 | 题库: LLM系统设计面试题 | 针对 "为什么不用XX方法"、"算法的局限性" 等问题准备回答 |
| 66 | 算法理论题复习 | 题库: AI Interview Questions 笔记: LLMs Interview Note 课程: ML Papers Explained |
复习 Transformer, RL, RAG 等核心理论高频面试题 |
| 67 | 模拟面试与总结 | 资源: LLM Evaluation: A Complete Course 社区: AI研究社群 |
进行 1v1 模拟面试,复盘并改进 |
精选业界最优质的学习资源,助你快速提升算法能力
- ⭐ 推荐指数: ★★★★★
- 📖 内容: Agent 开发完整教程,从基础到进阶
- 🎯 适合: 入门 Agent 算法开发,了解核心原理
- 💡 亮点: 中文友好、实战导向、Datawhale 出品
- ⭐ 推荐指数: ★★★★★
- 📖 内容: RAG 全流程算法优化,涵盖检索、重排、GraphRAG
- 🎯 适合: RAG 算法研究、检索优化、算法创新
- 💡 亮点: 系统化 RAG 教程、算法改进方向、实战案例
- ⭐ 推荐指数: ★★★★★
- 📖 内容: 2-5倍微调加速,显存优化,支持 LoRA/QLoRA
- 🎯 适合: 高效微调、资源受限场景、快速实验
- 💡 亮点: 速度快、显存省、易上手
- ⭐ 推荐指数: ★★★★★
- 📖 内容: 支持100+ LLM微调,Web UI + CLI,SFT/DPO/PPO
- 🎯 适合: 算法实验、Function Call微调、模型对齐
- 💡 亮点: 功能全面、社区活跃、文档完善
- ⭐ 推荐指数: ★★★★☆
- 📖 内容: 数据清洗、格式转换、质量评估
- 🎯 适合: 微调数据准备、数据质量提升
- 💡 亮点: 自动化数据处理、提升数据质量
- ⭐ 推荐指数: ★★★★★(算法岗必看)
- 📖 内容: 从零实现 GPT,代码简洁、注释详细
- 🎯 适合: 深入理解 Transformer、预训练原理
- 💡 亮点: Karpathy 亲自编写、500行核心代码、理解模型本质
- ⭐ 推荐指数: ★★★★★(算法岗必看)
- 📖 内容: 从零构建对话模型,涵盖训练、推理、部署
- 🎯 适合: 理解对话系统、端到端模型构建
- 💡 亮点: 完整的训练流程、实战导向、算法细节
- ⭐ 推荐指数: ★★★★★
- 📖 内容: Agent 开发、RAG 系统、上下文工程、面试指南
- 🎯 适合: 系统化学习、求职准备、技术路线规划
- 💡 亮点: 算法岗/开发岗双路线、面试题库、简历模板
- 先学习 Hello-Agents 建立 Agent 开发基础
- 阅读 nanoGPT 源码理解模型原理
- 深入 All-in-RAG 学习检索算法优化
- 使用 LLaMA-Factory 进行微调实验
- 用 Unsloth 提升训练效率
- 参考 nanochat 构建对话系统
- 使用 Easy-Dataset 处理训练数据
- 跟随 AgentGuide 完成项目和面试准备