Advanced Training

Title	Materials	References
Training Large Models	Slides
Mixed Precision Training	Slides	[1]
Distributed Training	Slides	[2] [3]
Zero Redundancy Training	Slides	[4]
Low-Rank Adapters	Slides	[5]
Quantization	Slides	[6] [7] [8]
Quantized Low-Rank Adapters	Slides	[9]
Low-Rank Projections	Slides	[10]
Checkpointing	Slides	[11]
FlashAttention	Slides	[12] [13] [14]
Open-Source Infrastructure for Model Training	Slides Materials	[15] [16]

References

Mixed Precision TrainingPaulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, etal.2017
GPipe: Efficient Training of Giant Neural Networks using Pipeline ParallelismYanping Huang, Youlong Cheng, Ankur Bapna, Orhan Firat, Mia Xu Chen, Dehao Chen, HyoukJoong Lee, etal.2018
GShard: Scaling Giant Models with Conditional Computation and Automatic ShardingDmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, etal.2020
ZeRO: Memory Optimizations Toward Training Trillion Parameter ModelsSamyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He2019
LoRA: Low-Rank Adaptation of Large Language ModelsEdward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, etal.2021
8-Bit Approximations for Parallelism in Deep LearningTim Dettmers2015
8-bit Optimizers via Block-wise QuantizationTim Dettmers, Mike Lewis, Sam Shleifer, Luke Zettlemoyer2021
The case for 4-bit precision: k-bit Inference Scaling LawsTim Dettmers, Luke Zettlemoyer2022
QLoRA: Efficient Finetuning of Quantized LLMsTim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer2023
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank ProjectionJiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar, Yuandong Tian2024
Training Deep Nets with Sublinear Memory CostTianqi Chen, Bing Xu, Chiyuan Zhang, Carlos Guestrin2016
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-AwarenessTri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré2022
FlashAttention-2: Faster Attention with Better Parallelism and Work PartitioningTri Dao2023
FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precisionJay Shah, Ganesh Bikshandi, Ying Zhang, Vijay Thakkar, Pradeep Ramani, Tri Dao2024
https://github.com/ray-project/ray
https://github.com/Lightning-AI/pytorch-lightning