第1-2周:快速启动 + 冷启动基础

论文

  • Denoising Diffusion Probabilistic Models (DDPM) ✅ 2025-12-20

  • High-Resolution Image Synthesis with Latent Diffusion Models ✅ 2025-12-20

博客与文档

课程


第3-4周:冷启动优化 + 推理引擎深入

论文

博客与文档

课程

  • CMU 15-418/Stanford CS149: Parallel Computing
    • 链接: https://cs149.stanford.edu/
    • Lecture 1-4: 并行计算基础、GPU架构、CUDA编程模型
    • 重点: 理解GPU的计算模型和内存层次

第5-6周:热切换方案设计 + 容器化基础

论文

博客与文档


第7-8周:热切换优化 + 调度系统基础

论文

  • Clipper: A Low-Latency Online Prediction Serving System (深入阅读)

    • 重点: 批处理调度细节、请求队列管理、SLO保证
  • Nexus: A GPU Cluster Engine for Accelerating DNN-Based Video Analysis

博客与文档

课程

  • MIT 6.824: Distributed Systems

第9-10周:虚拟化与混合部署

论文

博客与文档

课程


第11-12周:调度策略实现 + 系统集成

论文

博客与文档


第13-14周:分布式推理基础

论文

  • Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

  • Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning

  • Stable Video Diffusion (SVD)

  • Align Your Latents (Gen-2类技术)

    • 链接: 搜索视频生成相关论文
    • 重点: 文本到视频生成、latent space对齐

博客与文档

课程

  • CMU 15-418: Parallel Computing
    • Lecture 5-8: 分布式内存编程、MPI、通信优化
    • 重点: 理解分布式通信的开销和优化方法

第15-16周:细粒度调度深化

论文

博客与文档

  • 排队论基础教程

    • 推荐: Queueing Theory and Network Models (相关章节)
    • 重点: M/M/1、M/M/c队列、Little’s Law在系统设计中的应用
  • SGLang调度器源码分析


第17-18周:系统优化与稳定性

论文

书籍

  • Site Reliability Engineering (SRE Book)
    • 链接: https://sre.google/sre-book/table-of-contents/
    • 章节:
      • Chapter 7: The Evolution of Automation at Google
      • Chapter 22: Addressing Cascading Failures
      • Chapter 26: Data Integrity
    • 重点: 系统可靠性设计、故障处理、降级策略

博客与文档

课程

  • CMU 15-779: Advanced Topics in Machine Learning Systems
    • 重点: 最新研究进展、前沿技术

第19-20周:端到端优化与压测

论文

  • 生产系统案例研究
    • 搜索关键词: “production ML serving”, “inference system in production”
    • OSDI/SOSP/NSDI会议中的工业界论文
    • 重点: 真实系统的挑战、解决方案、经验教训

博客与文档

  • 大规模推理系统案例

    • OpenAI、Anthropic、Stability AI等公司的技术博客
    • 重点: 生产环境的实际挑战和解决方案
  • 压力测试工具

    • Locust、wrk、vegeta等工具文档
    • 重点: 压测设计、指标收集、瓶颈分析

第21-22周:云原生集成与扩缩容

论文

  • Kubernetes调度器优化相关论文
    • 搜索关键词: “Kubernetes GPU scheduling”, “cluster autoscaling”
    • 重点: GPU调度、自动扩缩容、资源碎片

博客与文档

课程


重点前沿技术追踪(持续更新)

SGLang生态

vLLM架构(借鉴调度思想)

  • vLLM V1深入分析
    • 链接: https://blog.vllm.ai/
    • 重点: 调度器设计、内存管理、批处理策略(通用思想可借鉴)

工业界实践


重要会议与资源

会议论文

开源项目


阅读优先级说明

必读(P0)

  • SGLang Diffusion相关所有材料(直接工作相关)
  • 冷启动优化相关(NVIDIA Model Streamer、BentoML、Modal等)
  • GPU Memory Swap/热切换相关(NVIDIA、RunAI等)
  • vLLM V1架构(调度思想)
  • Diffusion模型原理论文(DDPM、Stable Diffusion)

重要(P1)

  • 调度系统论文(Nexus、Clipper、Orca等)
  • GPU虚拟化论文(Salus、Gandiva等)
  • 分布式推理论文(Megatron、Alpa等)
  • 视频/音频生成模型论文

选读(P2)

  • 操作系统和分布式系统基础课程(如有基础可跳过)
  • MLOps和生产系统最佳实践
  • 云原生相关技术

阅读方法建议

  1. 论文阅读

    • 先读Abstract和Conclusion了解核心思想
    • 重点关注系统设计和优化技术
    • 跳过复杂数学推导(除非是模型原理论文)
    • 重点看实验部分的性能指标和优化效果
  2. 博客和文档

    • 边读边实验,动手验证
    • 记录关键配置和参数
    • 总结最佳实践
  3. 代码阅读

    • 重点看架构设计和接口定义
    • 理解关键数据结构和算法
    • 不必逐行阅读实现细节
  4. 课程学习

    • 重点看lecture slides和视频
    • 选择性完成作业(时间有限的情况下)
    • 理解核心概念即可

文档状态:第一版