先进编译实验室编著的《程序性能优化理论与方法》(实操课程)以及《深度学习编译器设计》两本书籍所配套的文字课程、PPT课件以及配套code将陆续进行更新……同时也欢迎大家关注先进编译实验室的B站账号、知乎,添加微信小助手,加入交流群进行讨论学习,共同进步!!!
bilibili个人主页
知乎个人主页
微信名片
微信公众号
先进编译实验室团队长期致力于高性能计算、编译技术、程序优化等方向的科研工作。先后承研国家重大专项、核高基专项、973、863、自然科学基金等相关课题,在高性能计算、并行程序设计与优化、国产自主可控等相关领域已经形成了若干领先成果,曾获国家科技进步一等奖、省部级科技进步一等奖等奖项。在国内外超算及程序优化的竞赛中,多次获PAC全国并行应用挑战赛优化金奖、银奖、铜奖,ASC世界大学生超级计算机竞赛一等奖、二等奖、卓越奖,CPC国产并行应用挑战赛银奖、铜奖,IPCC-ACM中国国际并行计算挑战赛二等奖等。
本书及课程从计算机体系结构、编译系统、操作系统、作业管理等多角度,对程序实现中的算法、数据结构、程序设计语言特性、资源占用及程序运行过程等多维度,全面探讨程序性能优化的理论和方法。
本书适用于具备一定程序设计基础并致力于程序性能优化的程序设计人员,也可以作为高等教育计算机程序设计的学习使用,还可作为从事性能优化专业技术人员的参考书。

| 章节名称 | 视频课程 | PPT |
| 1 LLVM整体设计 | ||
| 2 Clang前端 | ||
| 3 IR优化 | ||
| 4 代码生成(上) | ||
| 5 代码生成(下) |
| 章节名称 | 视频课程 | 课件文章 |
| 1 循环展开和压紧 | ||
| 2 循环合并 | ||
| 3 循环分布 | ||
| 4 循环交换 | ||
| 5 循环不变量外提 | ||
| 6 循环分段 | ||
| 7 循环分块 | ||
| 8 循环分裂 | ||
| 9 循环倾斜 |
| 章节名称 | 视频课程 | 课件文章 |
| HIP代码自动生成工具C2HIPC |
随着大模型的发展与应用,深度学习编译器的内涵和外延逐步扩展,本书分析对比了多种深度学习编译器的特性,并整理概括出深度学习编译器的整体设计作为核心内容,分章节对深度学习编译器的功能模块进行介绍,同时也对深度学习模型、深度学习硬件平台等前置理论知识进行概括总结。
本书旨在通过循序渐进、由上而下的方式,让读者了解深度学习编译器的来龙去脉,从深度学习编译器产生背景到设计理念,从深度学习编译器的模型输入到代码生成,为深度学习编译器的研发和优化提供理论支持。同时,本书在对深度学习编译器各功能模块进行介绍时,也综合了计算图优化、内存分配与优化、算子选择与生成、代码生成与优化、自动并行及模型推理等领域的最新研究成果,这部分内容可以为读者的论文写作及科研分析提供思路。

深度学习编译是一个博大精深且正在快速发展的领域,下面内容旨在分享先进编译实验室团队在学习深度学习编译领域过程中的对顶会论文、主流编译器等的学习心得。
AI基础设施实操培训系列课程涵盖大模型的训练、微调、部署、优化四大模块,系统讲解从大模型构建到高效上线的全流程实战技巧。结合实际案例,通过一站式人工智能课程,帮助大家全面提升AI工程实践能力。
| 内容板块 | 分享视频 | 课件文章 |
| 训练篇 | 01 神经网络基础 02 深度学习的进化 03 大语言模型 04 faster-RCNN算法原理 05 faster-RCNN实战 06 YOLOv11实战 06 文本情感分类实战-1 07 文本情感分析实战-2 09 大模型预训练基础-1 10 大模型预训练基础-2 11 数据准备-1 12 数据准备-2 13 模型结构-1 14 模型结构-2 15 预训练任务实现 16 训练优化-1 17 训练优化-2 18 性能评估 |
|
| 微调篇 | 01 大模型微调概述 02 模型数据收集与处理 03 数据预处理理论 04 启发式规则 05 评估模型过滤-1 06 评估模型过滤-2 07 完全匹配去重 08 近似匹配去重-1 09 近似匹配去重-2 10 大模型微调工具与主流框架介绍 11 微调框架实战-1 12 微调框架实战-2 13 微调方法-1 14 微调方法-2 15 人类对齐 16 大模型评估与问题解决-1 17 大模型评估与问题解决-2 18 法律大模型强化学习实战 19 法律大模型评估实战-1 20 法律大模型评估实战-2 |
|
| 部署篇 | 01 大模型推理挑战 02 主流推理引擎对比 03 大模型推理瓶颈分析 04 vLLM环境搭建 05 vLLM使用入门 06 vLLM推理分析 07 LoRA模型部署及实操 08 多模态模型部署及实操 09 vLLM量化模型支持 10 模型量化 11 KV Cache量化 12 性能测试指标-1 13 性能测试指标-2 14 性能测试工具 15 性能分析 16 算子优化 17 LLM引擎参数-1 18 LLM引擎参数-2 19 推测解码与PD分离 20 DeepSeek可视化部署-1 21 DeepSeek可视化部署-2 22 RAG本地部署-1 23 RAG本地部署-2 24 vLLM+Dify构建Agent应用-1 25 vLLM+Dify构建Agent应用-2 26 vLLM+Dify构建Agent应用-3 |
|
| 优化篇 |
AI应用
| 内容板块 | 分享视频 | 课件文章 |
| AI智能创作实战 | 01 AI+Word:从学术到职场的高效文档革命 02 AI+Excel让你效率飙升! 03 AI驱动的高效PPT创作-1 04 AI驱动的高效PPT创作-2 05 AI辅助创作思维导图与流程图 06 通义万象AI工具介绍与使用 07 即梦AI工具介绍与使用 08 可灵AI工具介绍与使用 09 如何在移动端生成视频 10 SD安装配置指南 11 SD快速作图指南 12 ControlNet:实现精准控图 13 AnimateDiff与SadTalker创新多媒体生成 14 数字创作与设计创新 15 GPT-sovits使用教学 16 语音转文字Whisper模型介绍 17 腾讯混元3D介绍 18 Client AI辅助编程 19 零基础搭建本地知识库-1 20 零基础搭建本地知识库-2 |
|
| AI for Work | ||
| AI for Paper |



