学习pytorch

2021/09/06 9 分钟阅读

简介

简介
什么是pytorch
pytorch基础
使用gpu
用v0.1.0 来解释正向和反向传播
部署
其它

Pytorch 由 Facebook 人工智能研究院于 2017 年推出，具有强大的 GPU 加速张量计算功能，并且能够自动进行微分计算，从而可以使用基于梯度的方法对模型参数进行优化。

什么是pytorch

Pytorch详细介绍(上)Pytorch是一个很容易学习、使用和部署的深度学习库。PyTorch同时提供了更高性能的C++ API（libtorch）。Pytorch使用Tensor作为核心数据结构，Tensor（张量）是神经网络世界的Numpy，其类似与Numpy数组，但是又不同于Numpy数组。为了提高Tensor的计算速度，有大量的硬件和软件为了Tensor运算进行支持和优化。总得来说，Tensor具有如下特点：

具有类似Numpy的数据，Tensor可以与Numpy共享内存；
可以指定计算设备，例如，设定Tensor是在CPU上计算，还是在GPU上计算；
Tensor可微分。
通过访问张量的device属性可以获取张量所在的设备

PyTorch工作流以及与每个步骤相关联的重要模块

[源码解析] PyTorch 分布式(8) ——– DistributedDataParallel 之论文篇

PyTorch organizes values into Tensors which are generic n-dimensional arrays with a rich set of data manipulating operations.
A Module defines a transform from input val- ues to output values, and its behavior during the forward pass is specified by its forward member function. A Module can contain Tensors as parameters. For example, a Linear Module contains a weight parameter and a bias parameter, whose forward function generates the output by multiplying the input with the weight and adding the bias. An application composes its own Module by stitching together native Modules (e.g., linear, convolution, etc.) and Functions (e.g., relu, pool, etc.) in the custom forward function.
A typical training iteration contains a forward pass to generate losses using inputs and labels, a backward pass to compute gradients for parameters, and an optimizer step to update parameters using gradients. More specifically, during the forward pass, PyTorch builds an autograd graph to record actions performed. Then, in the backward pass, it uses the autograd graph to conduct backpropagation to generate gradients. Finally, the optimizer applies the gradients to update parameters. The training process repeats these three steps until the model converges.

pytorch基础

Fatescript：pytorch核心就是对于可以反向传播的算子的scale，换言之，就是如何保证可以加入众多的算子，而整个自动求导系统不会崩溃。为了解决这个问题，torch团队设计了的精妙的Tensor和Autograd体系，引入了算子的registry / dispatch等机制。

在用Pytorch构建自己的深度学习模型的时候，基本是按照四个步骤进行的，

一是输入处理模块，X输入数据，变成神经网络能够处理的Tensor类型。
二是模型构建模块，主要负责从输入的数据，得到预测yhat，这就是通常讲的前向过程。
三是定义损失函数和优化器模块，注意前向过程只会得到模型预测的结果，并不会自动求导和更新
构建训练过程，迭代训练过程。

张量/Tensor

张量本质上讲就是一个多维数组，用于在算子之间传递数据，而这需要张量不仅仅只有存放数据的功能，我们还需要对张量的操纵方法等进行定义。为了更好地满足计算密集型任务的需求，一个张量类不仅需要在软件工程的层面上优化对外接口，还需要提供高效的矩阵相乘等算法实现。尤其是对于深度学习推理等任务来说，高效实现这些算法至关重要。PS：底层还要封装对显存的申请与释放。

对于一个张量类而言，数据将被设计成依次摆放的三维格式，分别是channels(通道数), rows(行数)，cols(列数)。一个张量类主要由以下部分组成：

数据本身存储在该类的数据空间中，数据可包括双精度(double)、单精度(float)或整型(int)。
为了处理多维张量数据，需要使用shape变量来存储张量的维度信息。例如，对于一个维度为3，长和宽均为224的张量，其维度信息可以表示为(3, 224, 224)。
张量类中定义了多个类方法，如返回张量的宽度、高度、填充数据和张量变形 (reshape)等操作。

# 创建的张量会存储在内存中并使用 CPU 进行计算
>>> array = [[1.0, 3.8, 2.1], [8.6, 4.0, 2.4]]
>>> torch.tensor(array)
tensor([[1.0000, 3.8000, 2.1000],
        [8.6000, 4.0000, 2.4000]])
# 在 GPU 中创建张量或者将张量送入到 GPU 中
>>> torch.rand(2, 3).cuda()
tensor([[0.0405, 0.1489, 0.8197],
        [0.9589, 0.0379, 0.5734]], device='cuda:0')

张量计算

数学运算，张量的加减乘除是按元素进行计算的，其它如 torch.dot() 计算向量点积、torch.mm() 计算矩阵相乘、三角函数和各种数学函数等
张量操作函数，如聚合 (aggregation)、拼接 (concatenation)、比较、随机采样、序列化等
调整张量形状，形状转换；转置；交换维度；
广播机制，前面我们都是假设参与运算的两个张量形状相同。在有些情况下，即使两个张量形状不同，也可以通过广播机制 (broadcasting mechanism) 对其中一个或者同时对两个张量的元素进行复制，使得它们形状相同，然后再执行按元素计算。
索引与切片
降维与升维，有时为了计算需要对一个张量进行降维或升维。例如神经网络通常只接受一个批次 (batch) 的样例作为输入，如果只有 1 个输入样例，就需要手工添加一个 batch 维度。
自动微分，提供自动计算梯度的功能，可以自动计算一个函数关于一个变量在某一取值下的导数，从而基于梯度对参数进行优化，这就是机器学习中的训练过程。使用 Pytorch 计算梯度非常容易，只需要执行 tensor.backward()，就会自动通过反向传播 (Back Propogation) 算法完成。
```
 >>> x = torch.tensor([2.], requires_grad=True)
 >>> y = torch.tensor([3.], requires_grad=True)
 >>> z = (x + y) * (y - 2)
 >>> print(z)
 tensor([5.], grad_fn=<MulBackward0>)
 >>> z.backward()
 >>> print(x.grad, y.grad)
 tensor([1.]) tensor([6.])
```

为什么深度学习中要搞出 tensor 这种概念，而不是直接用 numpy 里的 array 呢？数学上的 tensor 和编程上的（pytorch）内的 tensor 是两个概念。数学上的 tensor 是用来研究高维矩阵之间的一些表达方式和运算性质的（比如高维空间的度量如何更加通用的定义），pytorch 里面的 tensor 是一个数据结构，不严谨且不恰当地讲，这个 class 是 numpy 的 np.ndarray 的子类。

深度学习框架最重要的是什么？答：是自动求导系统。为什么要自动求导系统？答：因为目前的损失函数的优化方法全都基于一阶梯度信息进行梯度下降。如何实现梯度的计算？答：计算图。因此，pytorch 的 tensor 和 numpy 最大的区别在于当你使用 tensor 进行加减乘除运算时，torch 后台会自动帮你构建出计算图，当你计算完成后，通过运算结果的 backward 函数反向传播后，你就可以得到一路上所有 requires_grad=True 的 tensor 的梯度了（必须是叶子节点）。因为这个过程中，每个 tensor 是计算图上的一个节点，在 HPC 或者 infra 工程师的语境中，我们更喜欢用 node 而非 tensor 来描述参与运算的单元。用代码演示就是这个样子的，比如我们计算一个标量乘法的运算：$c = a \times b,\quad a,b,c\in\mathbb R$，利用 tensor 的计算图，我们就可以只用一个 backward 函数就可以在没有学习过实数域微分的情况下不负责任地就计算出 $\frac{\partial c}{\partial a},\frac{\partial c}{\partial b}$

import torch

a = torch.tensor(1., requires_grad=True)
b = torch.tensor(2., requires_grad=True)
c = a * b

c.backward()

print(a.grad)
print(b.grad)

那么回到最初的问题，tensor 和 numpy 的区别是什么？主要在于两点：

tensor 在运算时会构建计算图，numpy 不会。
tensor 的每一种类型的运算都实现了对应OP的梯度函数，也就是$\frac{\partial c}{\partial a},\frac{\partial c}{\partial b}$ 的闭式解编程实现a.grad_fn，这玩意儿编写可是一个体力活，特别是要适配 GPU。

数据读取

对于数据处理，最为简单的⽅式就是将数据组织成为⼀个Tensor 。但许多训练需要⽤到mini-batch，直接组织成Tensor不便于我们操作。Pytorch 提供了 DataLoader 和 Dataset 类（或 IterableDataset）专门用于处理数据，它们既可以加载 Pytorch 预置的数据集，也可以加载自定义数据。

Dataset用来表示数据集。通过继承 Dataset 类来自定义数据集的格式、大小和其它属性，后面就可以供 DataLoader 类直接使用。
如果数据量很大，考虑到内存有限、I/O 速度等问题，在训练过程中不可能一次性的将所有数据全部加载到内存中，也不能只用一个进程去加载，所以就需要多进程、迭代加载，而 DataLoader 就是基于这些需要被设计出来的。DataLoader 是一个迭代器，最基本的使用方法就是传入一个 Dataset 对象，它会根据参数 batch_size 的值生成一个 batch 的数据，节省内存的同时，它还可以实现多进程、数据打乱等处理。

from torch.utils.data import DataLoader
class MyDataset(Dataset):
    def __init__(self):
        self.data = torch.tensor([[1,2,3],[2,3,4],[3,4,5],[4,5,6]])
        self.label = torch.LongTensor([1,1,0,0])
    # for index,data in enumerate(Dataset)  时data 即为 __getitem__ 的返回值
    def __getitem__(self,index):
        return self.data[index],self.label[index]model
    def __len__(self):
        return len(self.data)
my_dataset = MyDataset()
tensor_dataloader = DataLoader(dataset=my_dataset, # 传入的数据集, 必须参数
                               batch_size=2,       # 输出的batch大小
                               shuffle=True,       # 数据是否打乱
                               num_workers=0)      # 进程数, 0表示只有主进程

# 以循环形式输出
for inputs, labels in tensor_dataloader: 
    print(inputs, labels)

Torchvision 库中的torchvision.datasets包中提供了丰富的图像数据集的接口。常用的图像数据集，例如 MNIST、COCO 等，这个模块都为我们做了相应的封装。它的工作方式是先从网络上把数据集下载到用户指定目录，然后再用它的加载器把数据集加载到内存中。最后，把这个加载后的数据集作为对象返回给用户。

# 以MNIST为例
import torchvision
mnist_dataset = torchvision.datasets.MNIST(root='./data',
    train=True,
    transform=None,
    target_transform=None,
    download=True)

模块/模型

Pytorch 所有的模块（层）都是 nn.Module 的子类，神经网络模型本身就是一个模块，它还包含了很多其他的模块。

参数在__init__ 中初始化；
推理在forward 函数中实现，并通过__call__允许对象被直接调用；

# torch.nn是专门为神经网络设计的模块化接口，nn构建于autograd之上，可以用来定义和运行神经网络。
import torch.nn as nn
class LinearModel(nn.Module):
    def __init__(self,ndim):
        super(LinearModel,self).__init__()
        self.ndim = ndim
        # 需要使用nn.Parameter来包装这些参数，使之成为子模块（仅仅由参数构成的子模块），这是因为在后续训练的时候需要对参数进行优化，只有将张量转换为参数才能在后续的优化过程中被优化器访问到。
        self.weight = nn.Parameter(torch.randn(ndim,1)) # 定义权重
        self.bias = nn.Parameter(torch.randn(1)) # 定义偏置
    def forward(self,x):
        # y = Wx +b
        return x.mm(self.weight) + self.bias

模块本身是一个类nn.Module，PyTorch的模型通过继承该类，通过 __init__() 初始化模型中的层和参数，通过前向计算调用子模块（在 forward() 中定义模型的操作），只要在nn.Module的子类中定义了forward函数，backward函数就会被自动实现(利用Autograd)。在forward函数中可以使用任何Variable支持的函数，在整个pytorch构建的图中，是Variable在流动，还可以使用if,for,print,log等python语法。PS： forward 即为在构建计算图。

class LeNet(nn.Module):
    def __init__(self):
        # nn.Module的子类函数必须在构造函数中执行父类的构造函数
        super(LeNet, self).__init__()   # 等价与nn.Module.__init__()
        # nn.Conv2d返回的是一个Conv2d class的一个对象，该类中包含forward函数的实现
        self.conv1 = nn.Conv2d(1, 6, (5, 5))   # output (N, C_{out}, H_{out}, W_{out})`
        self.conv2 = nn.Conv2d(6, 16, (5, 5))
        self.fc1 = nn.Linear(256, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
 
    def forward(self, x):
        # 当调用self.conv1(input)的时候，就会调用该类的forward函数
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))  # F.max_pool2d的返回值是一个Variable
        x = F.max_pool2d(F.relu(self.conv2(x)), (2, 2))
        x = x.view(x.size()[0], -1)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = F.relu(self.fc3(x))
        # 返回值也是一个Variable对象
        return x

Pytorch基于nn.Module构建的模型中，只支持mini-batch的Variable输入方式，比如，只有一张输入图片，也需要变成 N x C x H x W 的形式。

class Module:
    dump_patches: bool = False
    _version: int = 1
    training: bool      # 本网络是否正在训练
    _is_full_backward_hook: Optional[bool]
​
    def __init__(self):
        """
        Initializes internal Module state, shared by both nn.Module and ScriptModule.
        """
        torch._C._log_api_usage_once("python.nn_module")
​
        self.training = True
        self._parameters = OrderedDict()            # 在训练过程中会随着 BP 而更新的参数
        self._buffers = OrderedDict()               # 在训练过程中不会随着 BP 而更新的参数
        self._non_persistent_buffers_set = set()
        self._backward_hooks = OrderedDict()
        self._is_full_backward_hook = None
        self._forward_hooks = OrderedDict()
        self._forward_pre_hooks = OrderedDict()
        self._state_dict_hooks = OrderedDict()
        self._load_state_dict_pre_hooks = OrderedDict()
        self._modules = OrderedDict()       # 本网络下属的子模块，采取迭代的方式进行定义

Module的成员变量主要分为状态参数和hooks函数。当一个模型的网络结构被定义之后，self._parameters（比如卷积将存放stride, padding, kernel size等信息）和 self._buffers的组合是一个模型的具体状态。所谓 model.to(device) 实质就是将 _parameters和_buffers 放到device中。

优化模型参数

定义损失函数和优化器

criterion = torch.nn.BCELoss(reduction='sum')   # 损失函数
optimizer = torch.optim.Adam(model.parameters(), lr=0.0001, betas=(0.9,0.999), eps=1e-08, weight_decay=0, amsgrad=False)  # 优化器                 

构建训练过程。在准备好数据、搭建好模型之后，我们就可以开始训练和测试（验证）模型了。模型训练是一个迭代的过程，每一轮 epoch 迭代中模型都会对输入样本进行预测，然后对预测结果计算损失 (loss)，并求 loss 对每一个模型参数的偏导，最后使用优化器更新所有的模型参数。每一轮迭代 (Epoch) 实际上包含了两个步骤：

训练循环 (The Train Loop) 在训练集上进行迭代，尝试收敛到最佳的参数；在训练循环中，优化器通过以下三个步骤进行优化：
1. 调用 optimizer.zero_grad() 重设模型参数的梯度。默认情况下梯度会进行累加，为了防止重复计算，在每个训练阶段开始前都需要清零梯度；
2. 通过 loss.backwards() 反向传播预测结果的损失，即计算损失对每一个参数的偏导；
3. 调用 optimizer.step() 根据梯度调整模型的参数。
验证/测试循环 (The Validation/Test Loop) 在测试/验证集上进行迭代以检查模型性能有没有提升。

train_dset = datasets.MNIST('data', train=True, download=True,...)
train_loader = torch.utils.data.DataLoader(train_dset, shuffle=True, batch_size=64)
# 把模型放入 CUDA 设备
model = BasicNet().to(device)
# 构建优化器
optimizer = optim.AdamW(model.parameters(), lr=1e-3)
model.train()
for batch_idx, (data, target) in enumerate(train_loader):
    data, target = data.to(device), target.to(device)
    output = model(data)  # 实际执行model.forward
    loss = F.nll_loss(output, target)
    loss.backward()
    optimizer.step()
    optimizer.zero_grad()

保存及加载模型

一般模型保存，将它们放到一个字典中，然后使用torch.save()序列化这个字典

import torch
import torchvision.models as models

torch.save({
            'epoch': epoch,
            'model_state_dict': model.state_dict(),
            'optimizer_state_dict': optimizer.state_dict(),
            'loss': loss,
            ...
            }, PATH)

加载各个组件，首先初始化模型和优化器，然后使用torch.load()加载保存的字典，然后可以直接查询字典中的值来获取保存的组件。

model = TheModelClass(*args, **kwargs)
optimizer = TheOptimizerClass(*args, **kwargs)

checkpoint = torch.load(PATH)
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
epoch = checkpoint['epoch']
loss = checkpoint['loss']

model.eval()
# - 或者 -
model.train()

register_hook

register_hook 的作用是在参数或算子上注册一个回调函数，当该参数或算子的梯度计算完成，但还没有赋值给grad的时候调用。如果回调函数有返回值，会使用返回值替换原本的梯度。

import torch

def print_grad(grad):
    print(grad)
    return grad / 2

w = torch.nn.Parameter(torch.randn(2, 2))
w.register_hook(print_grad)

loss = (w - 1) ** 2
print('before backward')
loss.mean().backward()
print('after backward')
print(w.grad)

register_hook不仅可以把回调函数注册在参数上，还可以注册在算子上，这也是各个框架对register_hook的主要用法。比如下面这个操作，就是注册在了加法算子上：

import torch

def parameter_hook(grad):
    print('parameter hook')

def operator_hook(*grads):
    print('operator hook' )

w = torch.nn.Parameter(torch.randn(2, 2))
w.register_hook(parameter_hook)

print('first')
y = w + 1
op1 = y.grad_fn
print(op1)
op1.register_hook(operator_hook)
y.sum().backward()

print('second')
z = w + 1
op2 = z.grad_fn
print(op2)
z.sum().backward()

算子一般都是一次性的，且是先执行算子的回调再执行参数的回调。但是有一个特殊的算子是梯度累积算子，它的回调函数发生在参数的回调函数之后，且这个算子不会每次都创建新的。

使用gpu

torch.cuda用于设置 cuda 和运行cuda操作。它跟踪当前选定的GPU，默认情况下，用户分配的所有CUDA张量都将在该设备上创建。用户可以使用 torch.cuda.device 来修改所选设备。一旦分配了张量，可以对其执行操作，而不考虑所选设备，PyTorch 会把运行结果与原始张量放在同一设备上。

cpu = torch.device("cpu")
gpu = torch.device("cuda:0")  # 使用第一个gpu
x = torch.rand(10)
x = x.to(gpu)

移动模型到GPU这个动作的背后究竟做了哪些操作？调用 cuda 或者 to 方法来移动模型到GPU，其实就是把模型的self._modules、self._parameters 和 self._buffers 移动到 GPU。实际上没有对 self._modules 进行移动。这个移动过程是递归调用的，是把模型每个子modules 的 _parameters 和 _buffers 都移动到了 GPU 之上。

class Module:
    def to(self, *args, **kwargs):
         def convert(t):
            ...
            return t.to(device, dtype if t.is_floating_point() or t.is_complex() else None, non_blocking)
        return self._apply(convert)
    def _apply(self, fn):
        for module in self.children():
            module._apply(fn)
        for key, param in self._parameters.items():
            ...
        for key, buf in self._buffers.items():
            if buf is not None:
                self._buffers[key] = fn(buf)
        return self

PyTorch在进行深度学习训练的时候，有4大部分的显存开销，分别是模型参数(parameters)，模型参数的梯度(gradients)，优化器状态(optimizer states)以及中间激活值(intermediate activations)

模型定义：定义了模型的网络结构，产生模型参数；
while(你想训练):
前向传播：执行模型的前向传播，产生中间激活值；
后向传播：执行模型的后向传播，产生梯度；
梯度更新：执行模型参数的更新，第一次执行的时候产生优化器状态。

用v0.1.0 来解释正向和反向传播

看了非常多文章，找到一篇比价好的，从v0.1.0 视角讲，清晰很多。读源码理解 Pytorch 的 autograd 机制本文的目的是为了让大家能有个初步的理解，故使用的源码是 Pytorch v0.1.0。那个时候 tensor 叫 Variable

import torch
from torch.autograd import Variable

y = Variable(torch.randn(0, 10)).view(1, 10)
x = Variable(torch.randn(0, 20)).view(1, 10)
W = Variable(torch.randn(1, 1), requires_grad=True)

learning_rate = 0.001
for _ in range(100000):
    y_ = torchy.mm(W, x)
    loss = torch.sum(torch.abs(y_ - y))
    loss.backward()
    
    W.data -= W.grad.data * learning_rate       # 拿着梯度更新参数，对应高版本的 optimizer.step() 
    W.grad.data.zero_()

前向传播

在前向运算中构建计算图，以计算 y_-y 为例，在完成减法运算的同时，通过重写减法运算法带了私货：创建了Sub 实例将Sub 与 y 与 y_ 对应的Function 关联起来组成计算图。

y_-y 
y_.sub(y)
    Sub()(y_,y)     # Variable 计算创建出一个 Function
    Function.__call__
    Function._do_forward(*input) 
        Sub.forward(*unpacked_input)
        output = Variable(output_tensor, Sub)   # 中间 Variable，虽然不可见，但是串联 Function 的桥梁 
        Sub.previous_functions = (y_.creator, y.creator)

y_ - y，对应的方法是 __sub__，开头结尾都是双下划线的方法是 Python 语言中的 magic method，在这里 __sub__ 的作用是重写减法运算符。可以看到减法最终会调用的 Sub 这个类的实例

class Variable(object):
    def __sub__(self, other):
        return self.sub(other)
    def sub(self, other):
        if isinstance(other, Variable):
            return Sub()(self, other)[0]
        else:
            return SubConstant(other)(self)[0]
class Sub(Function):
    def forward(self, a, b):
        return a.sub(b)
    def backward(self, grad_output):
        return grad_output, grad_output.neg()

Sub 的父类是 Function， Sub()(self, other) 也就是 Function.__call__ ==> Function._do_forward

class Function(object):
    def __call__(self, *input):
        return self._do_forward(*input)
    
    def _do_forward(self, *input):
        unpacked_input = tuple(arg.data for arg in input)
        raw_output = self.forward(*unpacked_input)
        if not isinstance(raw_output, tuple):
            raw_output = (raw_output,)
        self.needs_input_grad = tuple(arg.creator.requires_grad for arg in input)
        self.requires_grad = any(self.needs_input_grad)
        # 创建 Variable 时 将Function 作为Variable 的creator
        output = tuple(Variable(tensor, self) for tensor in raw_output)
        # 建立关联关系 ==> 构建 计算图
        self.previous_functions = [(arg.creator, id(arg)) for arg in input]
        self.output_ids = {id(var): i for i, var in enumerate(output)}
        return output
    ...

反向传播/求梯度

广度优先遍历所有 functions 并执行_do_backward：从 loss.creator 也就是图的终点Function 开始，拿到 previous_functions 执行 _do_backward，并将prev_fn.previous_functions 加入ready queue。

loss.backward
Variable.backward(self,grad)
    Variable._execution_engine.run_backward(self, grad)
    ExecutionEngine.run_backward(self,variable,grad)
        dependencies = Variable._compute_dependencies(variable.creator) ## 从图的终点Function 开始广度优先遍历 所有functions 统计下信息
        ready = [(variable.creator, (grad,))]
        fn, grad = ready.pop()
        while len(ready) > 0:
            grad_input = fn._do_backward(*grad)  # 执行各个Function 定义的 backward 方法
            for (prev_fn, arg_id), d_prev_fn in zip(fn.previous_functions, grad_input):  # 广度优先遍历所有 functions 并执行_do_backward
                output_nr = self._free_backward_dependency(dependencies, prev_fn, fn, arg_id)
                is_ready = self._is_ready_for_backward(dependencies, prev_fn)
                if is_ready:
                     ready.append((prev_fn, (d_prev_fn,)))

反向传播传播的啥？
以减法 tmp = y_-y 为例，反向上游 tmp 的梯度 grad_output 通过 Sub.backward 传播给y_ 的是 grad_output * 1，给y 的是 grad_output * -1，对应到链式法则就是 $\frac{d_loss}{dy} = \frac{d_loss}{d_tmp} * \frac{d_tmp}{dy}$。
各种Function backward 的逻辑是： $\frac{dl}{df} * \frac{df}{d_input}$ (df 表示当前function)，有几个input 算几个，代码上没按矩阵乘法形式来，直接给了结果。
Function.input 可以存储input Variable，估计也可以存储其它状态，比如分段函数可以在forward 时记录用了哪个分段，backward时就可以用该分段的导数，这就解释了为什么分段函数也可以反向传播。可以对照 Sub/Mul/Div backward 方法找找感觉。

class Sub(Function):
    def backward(self, grad_output):
        return grad_output, grad_output.neg()
class Mul(Function):
    def forward(self, a, b):
        self.input = (a, b)
        return a.mul(b)
    def backward(self, grad_output):
        a, b = self.input
        return grad_output.mul(b), grad_output.mul(a)
class Div(Function):
    def forward(self, a, b):
        self.input = (a, b)
        return a.div(b)
    def backward(self, grad_output):
        a, b = self.input
        return grad_output.div(b), grad_output.neg().mul(a).div_(b).div_(b)

更新 Variable 中 grad 的逻辑在哪里呢？在 Leaf 这个特殊的 Function 里面。可以看到，相对于普通的计算 Function 来说，Leaf 在 backward 中做的事情是更新 grad。

class Leaf(Function):
    def __init__(self, variable, requires_grad):
        self.variable = variable
        self.output_ids = {id(variable): 0}
        self.previous_functions = []
        self.requires_grad = requires_grad
        self.backward_hooks = OrderedDict()
    def _do_forward(self, *input):
        raise NotImplementedError
    def _do_backward(self, *grad_output):
        assert len(grad_output) == 1
        for hook in self.backward_hooks.values():
            hook(grad_output, grad_output)
        self.variable.grad.add_(grad_output[0])
        return tuple()

对于backward_hooks， DDP 使用构造时注册的 autograd hooks 来触发梯度同步。当一个梯度准备好时，它在该梯度累加器上的相应 DDP 钩子将触发，在 autograd_hook 之中进行all-reduce。allreduce操作完成，将平均梯度写入param.grad所有参数的字段。所有进程的梯度都会reduce，更新之后，大家的模型权重都相同。所以在向后传播完成之后，跨不同DDP进程的对应的相同参数上的 grad 字段应该是相等的。

观察一个运行中的Tensor

Q = {Tensor} 
 data = {Tensor} tensor(-12.)           # 该张量的数据
 device = {device} cpu                      # 存放该张量的设备类型
 dtype = {dtype} torch.float32          # 张量的数据类型
 grad = {NoneType} None                 # 保存数据data对应的梯度，和数据data的形状一样
 grad_fn = {SubBackward0}               # grad_fn的作用是记录创建该张量时所用的函数，每一个前向传播操作的函数都有与之对应的反向传播函数用来计算输入的各个 variable 的梯度，这些函数的函数名通常以Backward结尾
  metadata = {dict: 0} {}
  next_functions = {tuple: 2} 
   0 = {tuple: 2} (<MulBackward0 object at 0x000001F9547A5848>, 0)
   1 = {tuple: 2} (<PowBackward0 object at 0x000001F9547A53C8>, 0)
   __len__ = {int} 2
  requires_grad = {bool} True           # 表示该Tensor是否需要求导，如否，在反向传播过程中，该节点所在的子图会被排除在计算过程之外。
 is_cuda = {bool} False 
 is_leaf = {bool} False                 # 记录该张量是否是叶子节点
 is_meta = {bool} False
 is_mkldnn = {bool} False
 is_mlc = {bool} False
 is_quantized = {bool} False
 is_sparse = {bool} False
 is_sparse_csr = {bool} False
 is_vulkan = {bool} False
 is_xpu = {bool} False
 layout = {layout} torch.strided
 name = {NoneType} None
 names = {tuple: 0} ()
 ndim = {int} 0
 output_nr = {int} 0
 requires_grad = {bool} True
 shape = {Size: 0} torch.Size([])

各种大杂烩

一文详解pytorch的“动态图”与“自动微分”技术 - DL-Practise的文章 - 知乎

我们手工编写的forward函数就是pytorch前向运行的动态图。当代码执行到哪一句的时候，网络就运行到哪一步。
实际上pytorch并没有显式的去构建一个所谓的动态图，本质就是按照forward的代码执行流程走了一遍而已。那么对于反向传播，因为我们没有构建反向传播的代码，pytorch也就无法像前向传播那样，通过我们手动编写的代码执行流进行反向传播。那么pytorch是如何实现精确的反向传播的呢？其实最大的奥秘就藏在tensor的grad_fn属性里面。Pytorch中的tensor对象都有一个叫做grad_fn的属性，它实际上是一个链表。grad_fn是python层的封装，其实现对应的就是pytorch源码在autograd下面的node对象，为C++实现
Pytorch中的tensor有两种产生方式，一种是凭空创建的，例如一些op里面的params，训练的images，这些tensor，他们不是由其他tensor计算得来的，而是通过torch.zeros(),torch.ones(),torch.from_numpy()等凭空创建出来的。另外一种产生方式是由某一个tensor经过一个op计算得到，例如tensor a通过conv计算得到tensor b。其实这两种op创建方式对应的就是leaf节点（叶子节点）和非leaf（非叶子节点）。非leaf节点的grad_fn是有值的，因为它的梯度需要继续向后传播给创建它的那个节点。而leaf节点的grad_fn为None，因为他们不是由其他节点创建而来，他们的梯度不需要继续反向传播。
tensor的grad_fn是如何构建的？无论是我们自己编写的上层代码，还是在pytorch底层的op实现里面，并没有显示的去创建grad_fn，那么它是在何时，又是如何组装的？Pytorch会对所有底层算子进一个二次封装，在做完正常的op前向之后，增加了grad_fn的设置，next_functions的设置等流程。PS： grad_fn的作用是记录创建该张量时所用的函数
每一个前向传播操作的函数都有与之对应的反向传播函数用来计算输入的各个 variable 的梯度，这些函数的函数名通常以Backward结尾。比如加法对应 AddBackward。在pytorch v0.1.0 中
```
class Sub(Function):
     def forward(self, a, b):
         return a.sub(b)
     def backward(self, grad_output):
         return grad_output, grad_output.neg()
```
torch.autograd.backward(z) == z.backward() 是等价的，不管正向反向传播套了多少壳，Pytorch中所有的计算其实都可以回归到Tensor上，矩阵计算。
optimizer.step()这个部分, 里面的逻辑也非常简单, 就是刚刚有AccumulateGrad（ AccumulateGrad 会放在 backward 的最后一个 node 拿來做累加 grad）到的训练参数，就代表需要update它的参数，在optimizer中就会去找那些需要更新。对应到pytorch v0.1.0 w = Variable(w - 0.1 * w.grad.data,requires_grad=True)

《用python实现深度学习框架》：从计算图中作为结果的节点开始，依次从后向前，每个节点都将结果对自己的雅克比矩阵和自己对父节点的雅克比矩阵传给父节点，根据链式法则，父节点将这二者想乘就得到结果对自己的雅克比矩阵。PS：所以反向传播这块，虽然意思差不多，但各家实现差异还是蛮大的。

反向传播原理的演算上（比如基于两层感知机推导loss 对每一个 w 的偏微分）、矩阵表达上、代码实现上（计算图，不同的框架库也有不同的实现）形态是不同的，比较难理论与实际结合，这个在学习上要注意。

部署

如何部署 PyTorch 模型 TorchServe

其它

PyTorch Hub，通过PyTorch Hub，用户可以获得一系列预训练的深度学习模型，主要包括计算机视觉、自然语言处理、生成式模型和音频模型等，这些预训练模型的出现能有效地加快用户开发新型的深度学习模型，方便用户构建基线模型和复现深度学习模型的效果。

PyTorch Lightning工具学习Pytorch Lightning是在Pytorch基础上进行封装的库(可以理解为keras之于tensorflow)，为了让用户能够脱离PyTorch一些繁琐的细节，专注于核心代码的构建，提供了许多实用工具，可以让实验更加高效。文中以MNIST 为例列出了使用原生pytorch 和PyTorch Lightning 的代码对比。

PyTorch深度学习技术生态

微软推出的 DeepSpeed 开源库，做为 Pytorch 框架在大模型训练方向上的补充。

这是我见过最好的NumPy图解教程！NumPy是Python中用于数据分析、机器学习、科学计算的重要软件包。它极大地简化了向量和矩阵的操作及处理。《用python实现深度学习框架》用python 和numpy 实现了一个深度学习框架MatrixSlow

支持计算图的搭建、前向、反向传播
支持多种不同类型的节点，包括矩阵乘法、加法、数乘、卷积、池化等，还有若干激活函数和损失函数。比如向量操作pytorch 跟numpy 函数命名都几乎一样
提供了一些辅助类和工具函数，例如构造全连接层、卷积层和池化层的函数、各种优化器类、单机和分布式训练器类等，为搭建和训练模型提供便利

李乾坤