一门理论与实践并重的大语言模型课程,带你从零开始理解和实现LLM的各个组件(内容由Cursor生成hhh)
本课程旨在深入浅出地讲解大语言模型(Large Language Models, LLMs)的基础理论和实践实现。通过"从零到一"的学习路径,你将不仅理解LLM的工作原理,还能亲手实现各个核心组件。
- 理论基础:掌握LLM的数学原理和架构设计
- 实践能力:从零开始实现LLM的各个组件
- 工程技能:学习PyTorch、Transformers等主流框架的使用
- 前沿技术:了解FlashAttention、分布式训练等高级技术
- 主讲教师:徐经纬
- 办公室:计算机学院1022
- 邮箱:jingweix@nju.edu.cn
- 课程联合创始人:黄云鹏
- 2025助教团队:赵世驹、梁明宇、卜韬、王乾刚、徐鼎坤
- 课程主页:https://njudeepengine.github.io/llm-course-lecture/
- 作业主页:https://njudeepengine.github.io/LLM-Blog/
- B站课程视频: 第1讲、第3讲
- QQ群:1033682290 (NJU内部)
-
课程简介 - 课程概述和学习路径
讲义链接: https://njudeepengine.github.io/llm-course-lecture/2025/lecture1.html -
特征空间的变换1 - 前反向运行视角理解深度学习模型
讲义链接: https://njudeepengine.github.io/llm-course-lecture/2025/lecture2.html -
特征空间的变换2 - 前反向运行视角理解深度学习模型
讲义链接: https://njudeepengine.github.io/llm-course-lecture/2025/lecture3.html
- 课程简介 - 课程概述和学习路径
- 深度学习基础 I - PyTorch基础和基本概念
- 深度学习基础 II - 反向传播和优化算法
- 大语言模型解析 I - Tokenizer和Positional Embedding
- 大语言模型解析 II - RMSNorm和MLP
- 大语言模型解析 III - Attention Layer
- 大语言模型解析 IV - Flash Attention
- 大语言模型解析 V - MoE和LoRA
- 大语言模型解析 VI - Fine-tuning
- 大语言模型解析 VII - LLM save/load
- 大语言模型解析 VIII - LLM推理、解码策略、KVCache
- 大语言模型推理技术 - RAG基础
- 大语言模型推理技术 - RAG进阶
- 大语言模型进阶 - Megatron中的并行化技术
- 从零到一之路:5次编程作业 (80%)
- 启动:大作业:综合项目 (20%)
⚠️ 注意:作业过程可能对GPU资源有一定要求(感谢AMD的鼎力支持)
- PyTorch - 深度学习框架
- Transformers - Hugging Face的Transformer库
- PEFT - 参数高效微调
- Tokenizers - 文本分词工具
- Attention Is All You Need - Transformer架构论文
- LLaMA: Open and Efficient Foundation Language Models - LLaMA模型论文
- FlashAttention: Fast and Memory-Efficient Exact Attention - FlashAttention论文
- 技术问题:在GitHub Issues中提问
- 个人咨询:发送邮件至 jingweix@nju.edu.cn
⭐ 如果这个课程对你有帮助,请给个Star支持一下!⭐
让更多人能够学习到大语言模型的奥秘