AdvancedCompiler AdvancedCompiler

程序性能优化理论与方法 & 深度学习编译器设计

先进编译实验室编著的《程序性能优化理论与方法》（实操课程）以及《深度学习编译器设计》两本书籍所配套的文字课程、PPT课件以及配套code将陆续进行更新……同时也欢迎大家关注先进编译实验室的B站账号、知乎，添加微信小助手，加入交流群进行讨论学习，共同进步！！！

bilibili个人主页知乎个人主页微信名片微信公众号

先进编译实验室团队长期致力于高性能计算、编译技术、程序优化等方向的科研工作。先后承研国家重大专项、核高基专项、973、863、自然科学基金等相关课题，在高性能计算、并行程序设计与优化、国产自主可控等相关领域已经形成了若干领先成果，曾获国家科技进步一等奖、省部级科技进步一等奖等奖项。在国内外超算及程序优化的竞赛中，多次获PAC全国并行应用挑战赛优化金奖、银奖、铜奖，ASC世界大学生超级计算机竞赛一等奖、二等奖、卓越奖，CPC国产并行应用挑战赛银奖、铜奖，IPCC-ACM中国国际并行计算挑战赛二等奖等。

程序性能优化理论与方法

本书及课程从计算机体系结构、编译系统、操作系统、作业管理等多角度，对程序实现中的算法、数据结构、程序设计语言特性、资源占用及程序运行过程等多维度，全面探讨程序性能优化的理论和方法。本书适用于具备一定程序设计基础并致力于程序性能优化的程序设计人员，也可以作为高等教育计算机程序设计的学习使用，还可作为从事性能优化专业技术人员的参考书。

章节目录


章节名称	视频课程	实操课程	课件源码
1 程序性能优化的意义	程序性能优化的意义(一) bilibili 程序性能优化的意义(二) bilibili		slide PDF
2 程序性能的度量指标及优化流程	程序性能的度量指标及优化流程 bilibili		slide PDF code
3 程序性能的分析和测量	程序性能的分析和测量(一) bilibili 程序性能的分析和测量(二) bilibili 程序性能的分析和测量(三) bilibili		slide PDF code
4 系统配置优化	系统配置优化(一) bilibili 系统配置优化(二) bilibili		slide PDF code
5 编译与运行优化	编译与运行优化(一) bilibili 编译与运行优化(二) bilibili 编译与运行优化(三) bilibili	编译器前端 bilibili 编译器中端 bilibili 编译器后端 bilibili 编译选项 bilibili 循环展开 bilibili 循环分布 bilibili 知乎循环剥离 bilibili 知乎过程间优化 bilibili 循环级向量化 bilibili 知乎基本块级向量化 bilibili 知乎数据预取优化 bilibili 知乎浮点优化 bilibili 反馈优化 bilibili 知乎链接时优化 bilibili 知乎编译指示 bilibili 知乎数学库优化 bilibili 知乎运行时优化 bilibili 知乎	slide PDF code
6 程序编写优化	程序编写优化(一) bilibili 程序编写优化(二) bilibili 程序编写优化(三) bilibili 程序编写优化(四) bilibili 程序编写优化(五) bilibili	算法优化 bilibili 知乎典型数据结构的性能分析 bilibili 知乎选择合适的数据类型 bilibili 知乎选择合适的数据结构 bilibili 知乎别名消除 bilibili 知乎常数传播 bilibili 知乎传参优化 bilibili 知乎内联优化 bilibili 过程克隆 bilibili 知乎全局变量优化 bilibili 循环展开和压紧 bilibili 循环不变量外提 bilibili 循环合并 bilibili 循环分段 bilibili 循环分块 bilibili 循环交换 bilibili 循环分裂 bilibili 循环倾斜 bilibili 循环分布 bilibili 删除冗余语句 bilibili 代数变换 bilibili 公共子表达式优化 bilibili 合并判断条件 bilibili 生成选择指令 bilibili 分支语句优化之运用条件编译 bilibili 分支语句优化之移除分支语句 bilibili	slide PDF code
7 单核优化	指令级并行(一) bilibili 指令级并行(二) bilibili 数据级并行(一) bilibili 数据级并行(二) bilibili 数据级并行(三) bilibili	指令流水 bilibili 超长指令字 bilibili 函数的向量化 bilibili 基本块的向量化 bilibili 循环的向量化 bilibili 分支向量化 bilibili 归约向量化 bilibili 不对齐访存 bilibili 不连续访存 bilibili 向量重用 bilibili 向量运算融合 bilibili 循环完全展开 bilibili	slide PDF code
8 访存优化	访存优化(一) bilibili 访存优化(二) bilibili 访存优化(三) bilibili 访存优化(四) bilibili 访存优化(五) bilibili 访存优化(六) bilibili	寄存器分配 bilibili 寄存器重用 bilibili 缓存分块 bilibili 减少伪共享 bilibili 数据预取 bilibili 减少内存读写 bilibili 数据对齐 bilibili 多线程操作 bilibili 数组重组 bilibili 数组转置 bilibili 结构属性域调整 bilibili 结构体拆分 bilibili 结构体数组转换 bilibili	slide PDF code
9 OpenMP程序优化	OpenMP编程简介 bilibili 并行区重构 bilibili 向量化指导命令 bilibili 避免伪共享 bilibili 负载均衡优化 bilibili 避免隐式同步 bilibili 流水并行优化 bilibili	OpenMP程序编写 bilibili OpenMP版矩阵乘 bilibili 并行区扩张 bilibili 并行区合并 bilibili 数据填充避免伪共享 bilibili 循环向量化 bilibili 循环嵌套合并调度 bilibili 线程调度配置策略 bilibili 串并行切换 bilibili 线程数设置优化 bilibili 分析隐式同步 bilibili 消除隐式同步 bilibili 流水并行示例 bilibili 流水并行粒度 bilibili	slide PDF code
10 CUDA程序优化	CUDA程序优化(一) bilibili CUDA程序优化(二) bilibili CUDA程序优化(三) bilibili CUDA程序优化(四) bilibili	CUDA程序编写 bilibili 线程结构优化 bilibili 分支优化 bilibili 访存优化(1) bilibili 访存优化(2) bilibili 数据预取 bilibili 循环展开 bilibili	slide PDF code
11 MPI程序优化	MPI程序简介(一) bilibili MPI程序简介(二) bilibili 数据划分优化 bilibili		slide PDF code
12 多层次并行程序优化			code

附录

LLVM编译器入门


章节名称	视频课程	PPT
1 LLVM整体设计	bilibili	知乎
2 Clang前端	bilibili	知乎
3 IR优化	bilibili	知乎
4 代码生成（上）	bilibili	知乎
5 代码生成（下）	bilibili	知乎

循环优化专题


章节名称	视频课程	课件文章
1 循环展开和压紧	bilibili	slide PDF 知乎
2 循环合并	bilibili	slide PDF 知乎
3 循环分布	bilibili	slide PDF 知乎
4 循环交换	bilibili	slide PDF 知乎
5 循环不变量外提	bilibili	slide PDF 知乎
6 循环分段	bilibili	slide PDF 知乎
7 循环分块	bilibili	slide PDF 知乎
8 循环分裂	bilibili	slide PDF 知乎
9 循环倾斜	bilibili	slide PDF 知乎

其他


章节名称	视频课程	课件文章
HIP代码自动生成工具C2HIPC	bilibili

深度学习编译器设计

随着大模型的发展与应用，深度学习编译器的内涵和外延逐步扩展，本书分析对比了多种深度学习编译器的特性，并整理概括出深度学习编译器的整体设计作为核心内容，分章节对深度学习编译器的功能模块进行介绍，同时也对深度学习模型、深度学习硬件平台等前置理论知识进行概括总结。本书旨在通过循序渐进、由上而下的方式，让读者了解深度学习编译器的来龙去脉，从深度学习编译器产生背景到设计理念，从深度学习编译器的模型输入到代码生成，为深度学习编译器的研发和优化提供理论支持。同时，本书在对深度学习编译器各功能模块进行介绍时，也综合了计算图优化、内存分配与优化、算子选择与生成、代码生成与优化、自动并行及模型推理等领域的最新研究成果，这部分内容可以为读者的论文写作及科研分析提供思路。

深度学习编译是一个博大精深且正在快速发展的领域，下面内容旨在分享先进编译实验室团队在学习深度学习编译领域过程中的对顶会论文、主流编译器等的学习心得。

分享目录


内容板块	分享视频	课件文章
1 深度学习概述	深度学习的产生与发展深度神经网络的结构神经网络的运行机制 CNN-卷积神经网络（一） CNN-卷积神经网络（二）	深度学习概述PDF 深度学习的产生与发展知乎深度神经网络的结构知乎神经网络的运行机制知乎 CNN-卷积神经网络知乎
2 深度学习编译基础	深度学习框架发展（一）深度学习框架发展（二）深度学习框架发展（三）深度学习硬件平台深度学习编译发展概述深度学习编译系统概述深度学习自动微分	深度学习框架发展PDF slides 知乎深度学习硬件平台PDF slides 知乎深度学习编译发展概述知乎深度学习编译系统概述PDF slides 知乎深度学习自动微分PDF slides 知乎
3 深度学习编译基础架构MLIR	深度学习编译基础架构MLIR 论文分享：基于MLIR的GPU代码生成	深度学习编译基础架构MLIR PDF slides 知乎
4 深度学习编译器TVM	TVM概述 TVM编译流程与中间表示分析（一） TVM编译流程与中间表示分析（二） TVM自动调度算法AutoTVM TVM自动调优工具Ansor Ansor优化算子代码解读（一） Ansor优化算子代码解读（二） Ansor优化算子代码解读（三） Ansor优化算子代码解读（四） TVM量化框架（一） TVM量化框架（二） TVM量化框架（三） TVM量化框架（四）	TVM编译流程与中间表示分析PDF slides 知乎
5 OpenAI Triton编译器	Triton概述 Triton安装 Triton程序编写 Triton源码结构 Triton调试方法及工具（上） Triton调试方法及工具（下） Triton编译流程 Triton IR剖析（上） Triton IR剖析（下）	Triton概述slides 知乎 Triton安装PDF slides 知乎 Triton程序编写PDF slides 知乎 Triton源码结构PDF slides 知乎 Triton调试方法及工具PDF slides 知乎 Triton编译流程PDF slides 知乎 Triton IR 剖析PDF slides 知乎
6 深度学习编译优化	论文分享：图算融合Apollo 论文分享：计算密集型算子融合Chimera 论文分享：机器学习访存密集计算编译优化框架Astitch 论文分享：算子调度优化Rammer 论文分享：计算图访存调度优化Welder 论文分享：动态控制流编译优化Cocktailer 论文分享：动态神经网络编译优化BrainStorm 论文分享：动态shape深度学习算子自动调优DietCode 论文分享：动态shape深度学习编译器DISC 论文分享：深度学习编译接口FreeTensor	论文分享：图算融合Apollo PDF slides 知乎论文分享：机器学习访存密集计算编译优化框架Astitch PDF slides 知乎论文分享：算子调度优化Rammer PDF slides 知乎论文分享：动态控制流编译优化Cocktailer PDF slides 论文分享：动态shape深度学习算子自动调优DietCode PDF slides 知乎论文分享：动态shape深度学习编译器DISC PDF slides 知乎
7 自动并行	并行划分概述论文分享：自动并行Alpa 论文分享：自动并行AlpaServe 论文分享：自动并行AvgPipe 论文分享：并行程序自动转换论文分享：高性能计算领域大语言模型HPC-Coder 论文分享：自动并行FlexFlow 论文分享：自动并行CoCoNet 论文分享：新型注意力算法FlashAttention 论文分享：数据并行通信优化MG-WFBP 论文分享：自动并行Merak	并行划分概述PDF slides 知乎论文分享：高性能计算领域大语言模型HPC-Coder PDF slides 论文分享：自动并行CoCoNet PDF slides 知乎论文分享：新型注意力算法FlashAttention PDF slides 知乎
8 深度学习模型压缩	深度学习模型压缩概述论文分享：无数据模型量化ZeroQ 模型压缩方法：模型蒸馏模型压缩方法：剪枝模型压缩方法：量化	论文分享：无数据模型量化ZeroQ 知乎模型压缩方法PDF slides 知识蒸馏知乎剪枝知乎量化知乎

AI基础设施实操培训系列课程

AI基础设施实操培训系列课程涵盖大模型的训练、微调、部署、优化四大模块，系统讲解从大模型构建到高效上线的全流程实战技巧。结合实际案例，通过一站式人工智能课程，帮助大家全面提升AI工程实践能力。

分享目录


内容板块	分享视频	课件文章
训练篇	大模型训练：从零手搓第一个GPT 01 神经网络基础 02 深度学习的进化 03 大语言模型 04 faster-RCNN算法原理 05 faster-RCNN实战 06 YOLOv11实战 06 文本情感分类实战-1 07 文本情感分析实战-2 09 大模型预训练基础-1 10 大模型预训练基础-2 11 数据准备-1 12 数据准备-2 13 模型结构-1 14 模型结构-2 15 预训练任务实现 16 训练优化-1 17 训练优化-2 18 性能评估
微调篇	微调工程师通关计划：从调参小白到领域模型架构师 01 大模型微调概述 02 模型数据收集与处理 03 数据预处理理论 04 启发式规则 05 评估模型过滤-1 06 评估模型过滤-2 07 完全匹配去重 08 近似匹配去重-1 09 近似匹配去重-2 10 大模型微调工具与主流框架介绍 11 微调框架实战-1 12 微调框架实战-2 13 微调方法-1 14 微调方法-2 15 人类对齐 16 大模型评估与问题解决-1 17 大模型评估与问题解决-2 18 法律大模型强化学习实战 19 法律大模型评估实战-1 20 法律大模型评估实战-2
部署篇	零基础玩转大模型推理：7天工程化入门 01 大模型推理挑战 02 主流推理引擎对比 03 大模型推理瓶颈分析 04 vLLM环境搭建 05 vLLM使用入门 06 vLLM推理分析 07 LoRA模型部署及实操 08 多模态模型部署及实操 09 vLLM量化模型支持 10 模型量化 11 KV Cache量化 12 性能测试指标-1 13 性能测试指标-2 14 性能测试工具 15 性能分析 16 算子优化 17 LLM引擎参数-1 18 LLM引擎参数-2 19 推测解码与PD分离 20 DeepSeek可视化部署-1 21 DeepSeek可视化部署-2 22 RAG本地部署-1 23 RAG本地部署-2 24 vLLM+Dify构建Agent应用-1 25 vLLM+Dify构建Agent应用-2 26 vLLM+Dify构建Agent应用-3
优化篇	01 Triton在PyTorch中的角色 02 内核性能分析工具 03 Triton编译器及Pass管理器 04 Triton算子关键参数优化 05 Triton算子开发 05 Triton访存合并解析 07 Triton布局介绍 08 Triton访存合并优化 09 编译优化实践（一）：代数变换 10 编译优化实践（二）：冗余去除 11 Triton归约操作解析 12 Triton MMA操作解析：Tensor Core & MMA指令 13 Triton MMA操作解析：Pipeline & Prefetch

AI应用系列课程

AI应用

分享目录


内容板块	分享视频	课件文章
AI智能创作实战	赋能未来工作流，AI智能创作实战 01 AI+Word：从学术到职场的高效文档革命 02 AI+Excel让你效率飙升！ 03 AI驱动的高效PPT创作-1 04 AI驱动的高效PPT创作-2 05 AI辅助创作思维导图与流程图 06 通义万象AI工具介绍与使用 07 即梦AI工具介绍与使用 08 可灵AI工具介绍与使用 09 如何在移动端生成视频 10 SD安装配置指南 11 SD快速作图指南 12 ControlNet：实现精准控图 13 AnimateDiff与SadTalker创新多媒体生成 14 数字创作与设计创新 15 GPT-sovits使用教学 16 语音转文字Whisper模型介绍 17 腾讯混元3D介绍 18 Client AI辅助编程 19 零基础搭建本地知识库-1 20 零基础搭建本地知识库-2
AI for Work	拥抱AI Agent~全网最详细的OpenManus本地部署教程突破常规！Julius 借 “交互式分析”，革新 AI 数据小白1分钟搞定！全网最详细的Deepseek的神仙级用法什么？？？马上开组会了~ PPT 还没做！ Deepseek+word打造会思考的智能文档 AI+Excel：如何让工作效率原地飞起
AI for Paper	01 规划论文选题与结构 02 高效搜集整理文献 03 可视化数据图表制作 04 辅助写作与论文润色 05 自动排版与文献格式规范 06 答辩PPT与讲稿生成 07 毕业答辩问答模拟

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AdvancedCompiler AdvancedCompiler

Achievements

Achievements

Block or report AdvancedCompiler

程序性能优化理论与方法 & 深度学习编译器设计

程序性能优化理论与方法

章节目录

附录

LLVM编译器入门

循环优化专题

其他

深度学习编译器设计

分享目录

AI基础设施实操培训系列课程

分享目录

AI应用系列课程

分享目录

Popular repositories Loading

Uh oh!