Laurie's Site

Lecture7 Convolutional Networks

Tue, 15 Apr 2025 00:00:00 GMT

Filter

当我们将一张图片压缩成一个一维的长向量的时候，这个图片的空间结构被破坏了。

所以，为了解决这个问题，就有了Convolutional Networks（卷积网络），我们将图片转化成3*32*32的张量（假设图片是RGB三原色，32*32长和宽），其中3表示的是depth/channels。

这时我们用filter（卷积核）来处理这个图片，filter也和图片的depth一样，大小这里取了5*5 然后用这个filter和图片的每一块进行内积，用这个filter扫过这个图片，每次扫的区域经过内积得到一个数，然后这些结果就可以形成另一个depth为1的张量，一共有28*28的区域相内积。所以我们得到一个1*28*28的图。

Filter layer

事实上，我们并不是只有一个filter，我们有很多个不同的filter，每一个filter都扫一遍这张图片，得到多个activation map，当多个filter堆在一起的时候，我们就有卷积层。filter的数量就是一个超参数，可以自定义。这个卷积层就是一个4维的张量，计算出的activation map就是一个三维的张量。还有就是每一个filter都有一个偏移量，当filter和图片中的每一块内积完之后要加上这个偏移量，于是这些偏移量组成一个向量。

每一个activation map都可以看作是图片的某种特征的集合，他们通过filter将这些特征提取出来组成一个集合，这些特征反应的就是图片的空间信息。

我们的输入可以不只是一个三维的张量，我们可以有多个三维的张量，形成一个四维的张量，对图像的进行批量处理。所以卷积层的一般性就长这样。

然后，我们就可以抛弃原本的那种神经网络，之前的权重矩阵W不再只是和一维向量的一次线性组合。而是变成filter，于是我们就由Linear Classifiers 转变成卷积神经网络。每一个图片经过filter的运算后再经过激活函数，这样就既可以保留图像的空间信息，又避免只是线性的进行分类。

Pedding

值得注意的是，当我们将一个图片经过一个卷积核处理之后，他的大小就会减小，假如我们的图片是M*M的，我们的卷积核是K*K的，那么我们最后的图片就是（M-K+1）*（M-K+1）的，意味着每经过一层卷积层我们的图片大小就会减小。因此提出一种方法，我们对图片进行一个填充，给图片的外围填充一圈，然后再进行卷积操作。其中有不同的填充策略，比如外围全都用0来填充就叫zero pedding。一般来说zero pedding很通用，效果也很好。还有一个超参数P是填充层的层数，一般来说经过处理后图片的大小是（M-K+1+2P）*（M-K+1+2P），然后P就是$\frac{k-1}{2}$ ,这样可以保证输出的图像的大小和之前的一样。这种填充方式就叫same pedding。

Receptive Field(感受野)

感受野（Receptive Field）指的是神经网络中某个神经元或卷积层神经元所能“感知”到的输入数据区域的大小。简单来说，感受野描述了每个神经元在输入图像上对应的区域大小，或者说它所能获取的信息量。

具体来说：

卷积神经网络（CNN）中的感受野：在卷积神经网络中，感受野通常指的是输入图像中经过若干卷积层后的某个特定神经元能够“看到”的区域大小。随着网络的深度增加，每一层的神经元会连接到更大的区域，从而扩大感受野。
感受野的扩展：通常情况下，通过增加卷积层的数量或者增加每一层的卷积核大小，可以扩展感受野。例如，如果第一层卷积核是3x3，第二层也是3x3，那么第二层的每个神经元就能感知到更大的输入区域。
感受野的重要性：感受野越大，网络就能捕捉到输入数据的更多上下文信息。对于一些任务（比如图像分类），需要较大的感受野来捕捉全局信息；而在一些更注重细节的任务（比如目标检测）中，较小的感受野可能更合适。

Stride(步长)

有的时候我们想要快速的快速降低特征图尺寸的任务，或者希望更快速地捕捉全局信息的任务。比如我们有一个1024*1024的图片，那么我们就要有一个很多层的卷积层来对他进行处理。

这时我们就引入一个新的超参数步长（stride）这个的作用是控制每次卷积核扫过图片的速度。以前的话当我们用步长为1的话，他就会遍历，每次只移动一个单位，但是当我们调整我们的步长的时候，他可能就每次移动2个或更多的单位，我们就可以更快的扫完整个图片，快速的减少每一次卷积之后图片的大小，同时也保留图片的特征。这时他也就可以更快的增加感受野，然后处理过后的图片的大小就是（W-K+2P）/S+1。当然如果这个S不能刚好被整除，那么这就可以向上取整，截断等等。但是通常情况我们会将S设置的刚好可以被整除。

1*1 filter

在卷积神经网络中，1x1的卷积核（filter）是指卷积核的尺寸为1x1，也就是说它在输入的每个位置只覆盖单个像素点。虽然它的尺寸很小，但在实际应用中，1x1卷积核非常重要，具有多种功能和用途。

作用：

通道间的混合：
- 最常见的用途之一是用于改变特征图的通道数（也就是深度）。1x1卷积通过将每个像素点的多个通道（特征图的深度）组合在一起，生成新的特征图。
- 比如，假设输入有一个大小为 $H×W×C_{in}$ 的特征图，其中 H 和 W 是空间维度，$C_in$ 是输入的通道数。通过使用 1x1 卷积核，输出可以生成大小为 $H×W×C_{out}$ 的特征图，其中 $C_{out}$ 是输出的通道数。
- 例子：假设输入特征图的大小是 32×32×64，我们使用一个 1x1 的卷积核，将通道数从 64 降到 32，那么输出的特征图大小将是 32×32×32。
减少计算量和参数：
- 1x1卷积的另一个优势是它可以减少计算量和参数数量，特别是在卷积网络中，其他大尺寸卷积（如3x3或5x5）的参数非常多。通过在卷积网络中引入1x1卷积，先减少通道数，再执行更大的卷积核操作，可以显著减少计算复杂度。
- 例如，假设输入特征图为 H×W×256，通过一个 1x1 的卷积核将通道数减少到 64，然后可以进行 3x3 或 5x5 的卷积操作，减少了后续卷积层的计算量。
非线性变换：
- 1x1卷积还能实现输入特征的非线性变换，这类似于全连接层的作用，只不过是在卷积的框架下进行。每个像素点都经过一个1x1卷积进行映射，虽然每个位置的卷积核只有1个参数，但它能有效地将不同通道的信息融合。
瓶颈层（Bottleneck layer）：
- 在一些网络架构（比如ResNet和Inception）中，1x1卷积被用作瓶颈层。瓶颈层通过减少特征图的通道数来降低计算量和内存需求，然后再通过较大的卷积核（如3x3）进行特征提取。这样的设计可以加速训练和推理。
增加网络的非线性能力：
- 通过在1x1卷积后加入激活函数（如ReLU），网络可以增加其表达能力，进行复杂的特征转换和组合。

Pooling Layers(池化层)

这部分的作用其实就是单纯的downsample（下采样），就是指通过某种方式减少数据的空间或时间维度，在图像处理中，通常是通过减少图像的分辨率来达到减少计算量和存储的目的。同时这一部分没有学习参数。

Max pooling

这个就是给定一个n*n的 max pooling ，然后就计算图片中n*n的最大值，将一个n*n的数据downsample为一个数，一般而言我们将max pooling的步长设置为和size一样的大小n。这种方法某种程度上引入了一定的不变性，假设图片上面的某些东西轻微的移动了一下，那么这部分的max value可能不会有变化。

Average pooling

类似就是选取这个区域的平均值

Convolutional Networks

如图，我们将卷积层，池化层，激活函数，全连接层全部连接起来，我们就得到大名鼎鼎的卷积神经网络，当然卷积神经网络不一定只有一种方式。这里举杨立昆的LeNet为例子

我们将一张28*28的一张灰度图，所以通道数就是1，先输入进卷积层，用的是same pedding，然后卷积层有20层，然后是5*5的卷积核
之后经过激活函数处理
再经过池化层
...
值得注意的是后面有一个flatten的操作，将原本的50*70*70的图片转化成一个一维的向量，这样子就像之前的linear classifier一样，最终得到一个大小为10的一维向量，表示想要识别的标签

这里有趣的是我们在用max pooling的时候其实就已经引入非线性函数了，所以说其实ReLU并不是必要的，但是在现代的神经网络构建中仍然保留，表现你的神经网络的规范性。

Normalization

当我们真正用这个传统架构去训练的时候，我们会发现一个问题，就是他十分难收敛，主要原因有说法是internal covariate shift。在深度神经网络中，每一层的输入实际上是前一层的输出。随着网络训练的进行，前一层的参数在不断变化，因此，后一层的输入数据（即前一层的输出）也会随之变化。这个过程可能导致神经网络的每一层都在不断地接收不同分布的输入数据。具体而言，训练中的每一层会接收到来自上一层的输入数据，而这些输入数据的分布是随着网络参数更新而不断变化的。这种变化对训练过程产生了负面影响，因为：

网络的每一层都需要不断适应输入分布的变化，这会使得梯度传播变得更加复杂和不稳定。
网络的优化过程可能会变得非常缓慢，甚至会导致收敛性问题。
神经网络的训练依赖于稳定的输入分布，而内部协变量偏移的存在导致这种稳定性丧失。如图，这里的计算就是假设我们有N个图片组成一个batch，然后每个图片是H*W*$C_{in}$
然后在Batch Normalization的时候，他就会把N个图片，每一个图片的通道 $j\in C_{in}$ 的图片拿出来，这时候，这个图片就是一个H*W的二维的图片，然后对这些图片求和时候求均值，求方差以及标准化。具体来说$x_{i,j}$ 就是第 i 张图片，第 j 个通道，这是一个二维的矩阵，大小为H*W。

然后避免方差$\sigma^2$ 为0导致标准化的时候除以0，引入一个很小的 $\epsilon$ 。这种的变化下能使得每一通道的输入数据具有零均值和单位方差。

虽然标准化操作通过使每个通道的均值为 0 和方差为 1 来加速训练和提高稳定性，但这种标准化可能会限制网络的表达能力，特别是在需要特定数据分布的任务中。例如，假设网络需要某个通道的数据具有不同的方差和偏移量，这时标准化会让它失去灵活性。

为了克服这个问题，我们引入了缩放因子 γ 和 平移因子 β，这两个参数是可训练的，允许网络对标准化后的数据进行线性变换，从而恢复网络的表达能力。

具体来说，Batch Normalization 的输出是:

$$ y_{i,j}=\gamma_j\cdot\hat{x}_{i,j}+\beta_j $$

$γ_j$ 是第 j 个通道的缩放因子，用来控制标准化后的数据的方差。
$β_j$ 是第 j 个通道的平移因子，用来控制标准化后的数据的均值。

通过这两个参数，网络可以对每个通道的数据进行自由缩放和平移，恢复网络的学习能力，并根据具体的任务需求进行调整。

但是这样又有一个问题：

训练阶段： 在训练过程中，我们每次使用一个批次的数据进行计算，并计算该批次的均值和方差。这意味着每个批次的均值和方差是根据该批次的数据来计算的。由于训练中的数据是动态的，批次之间的分布可能会有所不同。因此，每个批次的均值和方差也会有所不同。
测试阶段： 在测试阶段，通常输入数据是单独的一张图片或一个小批次的数据。由于测试数据量较少，而且分布通常与训练时的批次分布不同（例如，测试集上的数据可能比训练集更加均匀），如果仍然使用测试时的批次级别的均值和方差，会导致不稳定的预测结果，因为这些均值和方差无法代表整个训练集的统计信息。

所以为了确保 测试时的标准化稳定性，在训练过程中，我们会计算并保存每个通道的 全局均值 和 全局方差。这些值是在训练过程中，基于所有批次的统计数据，计算出来的。这些全局统计量是固定的，用于测试时的数据标准化。具体来说：

在训练时，我们会根据每个批次的均值和方差来更新全局均值和方差。
在测试时，我们不再计算当前批次的均值和方差，而是直接使用训练阶段积累的全局均值和方差。

这样做还有一个好处就是当测试的时候这些均值和方差就是常数了，所以Normalization这一步就相当于一个线性变换，于是我们就可以将这一步和前面的卷积融合在一起，直接融合到卷积核里面，于是好处就是我们节省了Normalization这一步的开销。

Normalization的好处有很多，比如他可以加快训练速度，我们可以因此加快学习率等等但是这个理论仍然没有很好的被理解，到底是为什么，就像是一个实验性的结论，还有就是我们要在训练和测试的时候替换那个均值和方差，这可能是很多程序bug的来源。

The essence of Convolutional in deeplearning

当我们看待深度学习中的卷积的时候，我们的卷积核其实就是一层小的模版，当我们用这个卷积核扫过图片的每一部分的时候，实际上我们是想看图片的这一块区域和这个模版是不是相像。举个例子假如说我们现在有一个3*3的卷积核

$$ \begin{pmatrix} -1 & 0 & 1\ -1 & 0 & 1 \ -1 & 0 & 1 \end{pmatrix} $$

当我们用这个卷积核去扫图片中每个3*3大小的区域的时候，这个区域和这个卷积核做内积，也就是说，当这个区域符合这种第一列为负数第三列为正数的时候，他们之间的内积就会变得很大。如果说这个区域的颜色都是相同的时候，内积的结果就是0。这实际上相当于识别图像的竖向向的边界。

比如图中白色的部分会和第三列内积，黑色部分和左边两列内积

如果我们将这个卷积核翻转一下，他就可以识别图像的横向边界

如果我们将这两种卷积核操作过后的结果结合一下，我们就可以得到整个图像的轮廓。

事实上，在神经网络的训练中我们并不设定这个卷积核应该提取什么特征，而是经过损失函数评判，反向梯度传播之后，我们不断调整卷积核里面的参数。卷积核的学习过程，就是在训练中“变形自己”，最终变成一个“对目标任务最有帮助的特征检测器”。每一层都在提取更抽象、更有用的图像特征。

卷积的含义

deeplearning中的filter为什么要叫卷积，要知道这可不是数学定义上的卷积，称之为卷积的原因是他在本质上和数学的卷积有点类似。在本质上，无论是概率论还是深度学习中，卷积都是在做一个“滑动+相乘+求和”的操作。deeplearning中的卷积是一种离散型的卷积。

在概率论中我们定义的卷积是想要知道两个随机变量加和之后的分布，假设现在有连续型随机变量X和Y，他们之间相互独立，他们的然后我想知道x+y=z, z的概率是什么。

$$ f_Z(z) =(f * g)(z) = \int_{-\infty}^{\infty} f_X(x) f_Y(z - x) dx $$

我们就可以看作是g函数翻转后平移z个单位之后与f函数相乘再相加的结果，当我们改变x的取值的时候就相当于“扫/滑动”这个过程。

这个卷积的含义还可以有别的方式理解，这里主要想讲一下deeplearning中的卷积和概率论中的卷积中的相似之处，更深刻的理解概率论中的卷积可以参考3Blue1Brown的视频，以及他的离散型卷积的理解讲的非常生动。

Lecture6 BackPropagation

Wed, 02 Apr 2025 00:00:00 GMT

Computational Graphs

之前提到我们不断训练模型的时候，我们希望模型中的权重能够朝梯度下降的方向进行调整，我们通过损失函数来定义当前的这些权重好不好，然后我们希望损失函数计算出来的结果越来小，因此我们的权重希望能够朝着梯度下降的方向调整。

这时候我们就想要获得损失函数上点的梯度，以便我们向着梯度减小的方向调整参数。那这时候就产生一个问题，我们怎么计算梯度，一个想法就是暴力，对这个损失函数硬算梯度，但是这种方法显而易见的很不计算机，对于每一个损失函数，我们都要计算一遍梯度，也并不是很模块化。所以我们就有了反向传播算法计算梯度。

我们用Computational Graphs来表示我们模型的内部结构，包括输入的x，权重矩阵W，正则化R，最后的到我们的损失函数L

举个例子说明一下反向传播算法是怎么实现的：

假设现在我们有一个损失函数$f(x,y,z)=(x+y)z$ 然后现在我们想求$x=-2,y=5,z=-4$ 这个点的梯度是什么，然后我们先进行的是forward pass，就是计算出之后的结果，q等于什么，f等于什么之后进行backward pass，算出相邻后一个对前一个的导数然后一步步往下推，本质上就是链式法则。这种做法的好处就是非常的模块化，每一个节点的计算不再看其他节点是什么，只用看传到这个节点的导数是什么并传递给下一个就可以。我们给每个点要处理的导数命名，downstream gradient，local gradient，upstream gradient。

下面看一个再复杂的例子：对于图中框出来的那个节点，假设前面所有的节点统一为x，当x经过倒数运算的时候，他得到了最终结果f，简单来说就是$f=\frac{1}{x}$ 然后我们想计算 $\frac{ \partial f }{ \partial x }$ 然后当前x的值为1.37，所以最终结果就为$-\frac{1}{x^2}=-\frac{1}{{1.37}^2}=-0.53$
再看后面：我们再次把框中节点以前看作x，他经过$e^x$ 操作之后得到结果p($p = e^x$ )，然后我们想知道 $\frac{ \partial f }{ \partial x}$ 但这时候我们的计算方法就是 $\frac{ \partial f }{ \partial x} = \frac{ \partial p }{ \partial x}* \frac{ \partial f }{ \partial p}$ ,然后$\frac{ \partial f }{ \partial p}$ 已经一步一步传下来了-0.53，所以我们在当前节点中计算$\frac{ \partial p }{ \partial x}$ 因此得到$\frac{ \partial f }{ \partial x}$

改进

根据这种计算方法，我们发现一些函数普遍的出现在模型中，比如图中蓝色框出来的部分，s型函数，这个函数挺普遍的，然后他的梯度的公式也很简单，于是我们就可以将这种函数压缩成一个节点，直接用先前算好公式带入，而不是将这些节点拆分的非常原子。这种做法的好处就是我们可以不用再存这么多节点，也不用每次都计算一下这个函数的梯度，可以加快反向传播的速度。

现在我们就可以将很多种这些运算封装成一个个函数，这样当我们需要进行某个运算的时候我们直接调用就可以。这样子我们就实现模块化设计，不用根据每种损失函数都些一遍代码。

Vector

上面到目前为止都是标量的计算，我们求的是损失对标量$x$ 的导数，但是在实际的神经网络中我们的输入是一个一维的向量，这表示一个图片。然后我们要求的是损失L对W的导数，对X向量的导数，准确来说一般称之为梯度而不是导数。

假设现在我们中间某个节点有 $y=xw$ 然后这些都是矩阵，我们从上游传递到这个节点的导数是$\frac{dL}{dy}$ 然后我们想计算一下L对x的导数和L对w的导数，然后这就是他们的公式，但是很奇怪x和y不应该都是向量吗，为什么这里都是矩阵。

视频中还提到一点就是我们显示计算每个矩阵的雅可比矩阵然后来相乘，意思就是我们不会先计算出整个雅可比矩阵 J 再与 $v^T$ 相乘，而是直接逐步计算结果。

感觉视频讲的有点云里雾里的，不如deepseek举个例子

正向累积（Forward Accumulation）&& 反向累积（Reverse Accumulation）

对于计算梯度而言，我们的式子可能是这样 $$ \frac{dL}{dx_0}=\frac{dx_1}{dx_0}\frac{dx_2}{dx_1}\frac{dx_3}{dx_2}\frac{dL}{dx_3} $$ 这时候就有两种顺序来算这个链式法则式子，一个是从右边往左边算，一个是从左边往右算，前者就是反向累积，他的意思就是对于一个计算图，我们从计算图的右边每次逐渐计算到左边

然后这种顺序所需要的就是一开始前向传播的时候我们要记住中间值，时间复杂度为O(n),空间复杂度也为O(n)。

然后前向累积就是先计算式子左边，然后推到式子右边，这种方法相比之下就不需要存储中间值，从最左边开始不断向右求导，空间复杂度为O(1),但是这种做法的坏处就是对于每一个变量$x_0,y_0,z_0$ 而言，他们各自的梯度都要单独算一遍，也就是说假设有m个变量，他的时间复杂度就是O(mn).

跑代码记录

Fri, 28 Mar 2025 00:00:00 GMT

指路

这次跑的实验是这个,这篇论文的笔记在这

前言

不得不吐槽一下跑实验原来这么麻烦，我大概在周日的时候就开始跑，一直配环境到今天，每一天的命令行都是满屏红色，看着都要红温。多亏了师兄的帮助，帮我这个菜鸡解决好多问题。

当环境一直配不好的时候，我就纳闷了，为什么这些研究人员不可以把他们的这些环境封装成一个docker，这样就不用再让别人折腾配环境。后来问师兄，~~原来就是懒，他们开源这些代码就只是证明他们可以跑出来，并不是要商业化，把配环境的麻烦交给别人。我真服了。仔细一想，如果他们把这些麻烦留给别人，万一他们造假，别人跑不出的话他们就可以说是你不会配，或者别人看这环境这么难配，直接就放弃了，这不就不能很好的验证他们的结果。~~

下面就讲一下我配这个环境的走过的路😭

配置

Ubuntu 18.04.6 LTS (GNU/Linux 5.4.0-150-generic x86_64)
pytorch 1.12.0
cuda 11.6

在配置之前安装conda是必要的，避免这些环境污染别的，然后就是mamba！！！这个巨重要，极大加速安装环境的速度，而且他能更快地找到合适的包版本。这个真的极大优化你的体验，之前一直用conda，安装包巨慢，关键是他还很容易报错，安了这么久，结果给我报一堆红色的错误，当时真的破防。

安装

然后就开始跟着github少的可怜的指示来安装

git clone https://github.com/xwx0924/SurgicalGaussian.git
cd SurgicalGaussian

conda create -n SurgicalGaussian python=3.7 
conda activate SurgicalGaussian

# install pytorch and others.
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
pip install -r requirements.txt
# You also need to install the pytorch3d library to compute Gaussian neighborhoods.

# You can follow 4DGS to download depth-diff-gaussian-rasterization and simple-knn.
pip install -e submodules/depth-diff-gaussian-rasterization  
pip install -e submodules/simple-knn

Pytorch

这里我安装的是pytorch 1.12.0+cu11.6 可以上pytorch官网来找对应安装版本的指令,我这里用的指令就是

pip install torch==1.12.0+cu116 torchvision==0.13.0+cu116 torchaudio==0.12.0 --extra-index-url https://download.pytorch.org/whl/cu116

这里用了个python程序来检验安装的版本是不是想要安装的版本

import torch
print(torch.__version__)          # PyTorch 版本
print(torch.version.cuda)         # PyTorch 编译时使用的 CUDA 版本
print(torch.cuda.is_available())  # 检查 CUDA 是否可用

输出就是

1.12.0
11.6
True

Pytorch3D

然后就根据指引安装requirements.txt，安完之后就到了另一个坑，指引只是轻描淡写的写了一下要安装pytorch3d，但这个库可一点都不好安装。

指引没有提怎么能安好这个库，这种情况下就去搜索这个库的github仓库，里面提到要先安装一些环境，再安装pytorch3d这个库，先安装iopath，然后如果你的cuda版本低于11.7，你就要安装另外一个库。这里也建议用manba安装

mamba install -c iopath iopath
mamba install -c bottler nvidiacub
# Anaconda Cloud
mamba install pytorch3d -c pytorch3d

反正遇到conda的指令都替换为mamba，真的太折磨了。

Submodels

安装好后开始安装这两个submodel，注意的是，这两个model并没有包含在原仓库的代码里你必须跑到对应的别的库里面安装这两个model，然后这里又一个坑，指引说他借鉴了3D和4D两个仓库，这两个仓库里面都有这两个submodel，关键是这两个库里面的model版本是不一样的。原仓库安装的其实是4D的submodel，这里就将这个仓库clone然后把submodel拷贝到原仓库中

这下终于可以安装这两个model，结果又报错，他可能报错你的pytorch版本和cuda版本不匹配，应为我安装的pytorch版本是基于cuda11.6的，但我的系统用的是10.1

可以用

nvcc --version

来看当前使用的cuda版本到底是什么，然后其实才发现原来cuda版本都没有安装，然后跑到nvidia官网安装根据提示来选择，最后一个选择local

wget [https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run](https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run)

sh cuda_11.6.0_510.39.01_linux.run --silent --toolkit --toolkitpath=~/cuda-11.6 --defaultroot=~/cuda-11.6

好像这里还要export一下，具体指令忘记了。这里值得注意的是原本我只在conda里面安装了

mamba install nvidia/label/cuda-11.6.1::cuda-toolkit

然后后面就会报错缺少什么.h文件，于是就替换成了这个命令。再用这个指令检查一下

nvcc --version

然后后面就开始安装submodels，这里应该就没有问题。

Train

安装完成以后以为万事大吉，环境终于配好了，结果还有报错。但我满心欢喜的想要运行训练的指令，结果又报错。说是缺mmcv这个库，安装库真的很痛苦，这里又踩坑。看官网,然后注意的是安装的版本要是1.7，不要安装2.0之后的版本，可能原仓库用的就是之前的版本。推荐使用官方推荐的mim安装方式

pip install -U openmim
mim install mmcv-full==1.7.0

安装好这个库后，我又运行了训练的命令，结果又有库没有安装，tinycudann，这玩意真是个毒瘤，网上一堆人安装这个库报错，我安装了好久，结果等我安装好后又报错说什么Could not find compatible tinycudann extension for compute capability 75. md，这里的解决办法就是找到报错的那个程序，把这个库给注释掉，就是这么无语，这个库根本没有用到。

到此应该就没有问题了，还要注意的是，数据集原仓库也没有给，要自己去给的链接那里下载，然后安装的文件排列要遵循指引中提到的，

然后应该就可以~~顺利~~的运行训练指令，我真服了。跑完之后跑render指令，这里又要注意的是render里面还有一个库要安装，一看又是没有用上的，就注释掉了。然后就把剩下的指令跑完了就行了，跑出个结果。

结果

运行完这个命令之后就可以看到数据的结果，主要是SSIM[^1]，PSNR[^2]，LPIPS[^3]，将这些数据和论文里面的一比，感觉差不多但还是稍逊了一点。

python metrics.py -m output/pulling

看看渲染之后的效果

| 原图 | 处理后 | | ------------------------ | -------------------- | | | |

看右下角这个图就可以明显看出SurgicalGaussian对于一些从头到尾被遮挡的区域只能糊着抹过去，不能够很好的处理这部分的细节，不过这应该也是3D Gaussians的通病。

感悟

经过这个贼麻烦的配置环境，还有要提的，就是一旦遇到报错了，先看一下报错信息是什么，看自己能不能解决。解决不了，把报错信息google一下，然后就会发现，原来已经有这么多人踩过坑，一般都在github issue里面，一般都已经有了解决方法。下策就是直接把报错喂给ai，这种做法真的很痛苦，如果你按照ai的指令瞎跑一堆，跑到最后，你的问题没有解决，但是你的环境已经混乱了。
还有就是当你连接服务器跑代码的时候最好用tmux，这个可以直接在后台跑，不用怕跑着跑着电脑和服务器断开连接，结果你再也不能和那个进程连接上。

[^1]:SSIM（Structural Similarity Index，结构相似性指数）衡量两幅图像的结构相似性，反映人眼的视觉感知。

[^2]:PSNR（Peak Signal-to-Noise Ratio，峰值信噪比）衡量图像的峰值信号与噪声之间的比率，常用于评估图像压缩、去噪等任务的质量。

[^3]:LPIPS（Learned Perceptual Image Patch Similarity，感知相似度）衡量深度学习模型感知下的图像相似性，更符合人眼视觉。

论文笔记

Thu, 20 Mar 2025 00:00:00 GMT

Authors: "Weixing Xie, Junfeng Yao, Xianpeng Cao, Qiqin Lin, Zerui Tang, Xiao Dong, Xiaohu Guo"

Date: '2024-01-01'

URL: "https://link.springer.com/10.1007/978-3-031-72089-5_58"

对内窥镜视频的动态重建（Dynamic reconstruction）对于机器人手术是关键的。~~动态重建的目的比如能用2D的视频重建出3D场景，然后投影到2D，可以为医生提供别的视角而不只是摄像头的单一视角，以及将可以将手术仪器这些移除，以此看到被手术仪器遮挡的部分。~~

之前的重建技术都是基于NeRFs，虽然取得不错的成绩但是这种技术不能处理一些细节并且不能实时渲染，不止如此，受限制的单视感感知和遮挡仪器还提出了手术现场重建的特殊挑战。所以本篇论文就介绍了他们的基于3D Gaussian的新技术叫SurgicalGaussian，最终的效果就是能够去除视频中的手术工具，并且能有一个高质量的渲染，以及更快的渲染速度和GPU利用率。

Introduction

一开始介绍了一下3维重建的历史，手术场景的3维重建的重要性

然后一开始人们基于 point clouds and surfels（点云和表面元素）对手术场景进行离散的建模，但这种技术不能够处理剧烈运动和拓扑变化引起的颜色改变问题，比如角度不同，导致光照不同，最终导致颜色发生变化。

然后NeRF技术就产生，相比于点云，这个方法用的是连续表示场景，这种方法在生成高质量的外观和几何图形方面具有优势。然后EndoNeRF改进了NeRF，EndoNeRF相比于NeRF引入depth suervision(深度监督)。同时还有LerPlane这个技术，他对采样点的时空特征进行了有效编码，减少了动态组织建模的工作量。但是基于NeRF的这些方式需要消耗大量的计算资源，很难进行实时渲染。

所以就有了3D Gaussian Splatting (3DGS)，他能产生逼真的渲染效果，同时训练速度也比NeRF快。具体来说，这个方法就是将场景用三维高斯来表示，并且用可变光栅管道来渲染图像。

本篇的在3DGS的基础上进行了一些改进：

他们提出了deformable 3D Gaussians framework （可形变三维高斯框架）
有效的高斯初始化策略（GIDM）
通过颜色正则化和形变正则化，分别解决了遮挡区域的颜色预测和高斯形变场的噪声问题。
高质量的重建质量和实时渲染速度

Method

将视频作为输入, $V = {I_i,D_i,M_i:i∈[0,T]}$, $I_i$ 表示第i帧的图像，$D_i$ 是深度图（Depth Map），用于表示图像中每个像素点到摄像机的距离。 $M_i$ 表示mask，用1来表示图中手术工具的部分，其他用0表示。给定这些输入，能构产生可以去除手术器械并以高质量恢复变形的软组织的场景

Preliminaries(前言)

本质上3DGS的方法就是输入一组图片（视频帧），根据这些图片，训练一个模型使之能够根据这些构建一个3D的场景，这个场景就是一个3D 高斯点云，然后根据这个3D场景，我们可以选择不同的视角，然后将这些点投影到对应视角的2D图像上。

每一个3D高斯点我们就表示为Gaussian primitives $\mathcal{G}$（高斯基本单元）这不是一个无结构的单点，而是一个 椭球形的 3D 形状，由协方差矩阵 Σ 控制其方向和大小。当我们从某个视角观察一个 3D 场景时，每个高斯分布会投影到 2D 屏幕上，形成一个 高斯形状的斑点（splat），类似于散景模糊的点。
渲染时，所有这些 2D 高斯点会叠加在一起，形成最终的 2D 图像。 $$G(x)=exp(−\frac{1}{2}(x−μ)^TΣ^{−1}(x−μ))$$

这里的 Σ 为协方差矩阵，他控制高斯的形状和方向，向量$x\in R^3$表示世界坐标系中的点，这里默认的高斯中心μ为0，其中其中 $Σ=RSS^TR^T$，S是缩放矩阵，R是旋转矩阵。

然后文章中只用向量$s\in R^3$来记录S的对角线元素，这个向量表示沿着 x、y 和 z 轴的缩放因子。$q\in R^4$ 记录旋转矩阵的四元数,以此不用记录整个矩阵从而节省空间

每一个高斯点还需要$\alpha$ 表示透明度，c表示球面调和函数系数（Spherical Harmonics Coefficients）用于存储和计算球面上的光照或颜色分布

因此高斯基本单元就可以表示为 $\mathcal{G}$ = {(x,s,q,$\alpha$,c)}

然后通过视图变换矩阵V：通过视图变换将三维物体的坐标转换到相机坐标系中，这样物体相对于相机的方向和位置就确定了。

投影变换的仿射近似的雅可比矩阵 J来将该视角的3D场景投影到2D中。

然后对于2D图片上每一像素 r 我们可以根据公式得出他的颜色和深度信息

$$ \hat{C}(\mathbf{r}) = \sum_{i} (\alpha_i' \prod_{j=1}^{i-1} (1 - \alpha_j')) c_i,\ \hat{D}(\mathbf{r}) = \sum_{i} (\alpha_i' \prod_{j=1}^{i-1} (1 - \alpha_j')) d_i. \tag{1} $$

GIDM Initialization Strategy(GIDM初始化策略)

当一开始我们训练将2D转化为3D高斯点云的模型的时候，我们需要初始化这些高斯点的参数，通过投影然后和真实场景的2D图像对比，来不断调整这些高斯点的参数。一个好的初始化策略可以加速模型的收敛。

一开始的3DGS用SFM来初始化这些参数，但是对于内窥镜这种复杂多变的场景，他的准确率就不太高。因此提出GIDM初始化策略。

文章中的初始化策略就是帧与帧之间相互补充信息，在别的帧中出现的组织信息就被补充进点云中，最终点云中有的就是所有帧中组织信息的并集，缺失的就是所有帧中mask(手术仪器)的交集，以此来初始化。

公式就是这个

$$ \mathbf{P}^* = { \mathbf{D}^* \mathbf{K}_e^{-1} \mathbf{K}i^{-1} (\mathbf{I}^* \odot (\mathbf{1} - \mathbf{M}^)) }, \mathbf{M}^ = \bigcap{i=0}^T \mathbf{M}_i. \tag{2} $$

$P^∗$: 这是生成的点云的集合，每个点是空间中的一个三维点。
$D^∗$: 这是深度图（depth map）中的深度信息，表示相机与场景中每个点之间的距离（深度值）。
$K_e$: 这是相机的外参矩阵（extrinsic matrix），通常用于描述相机在世界坐标系中的位置和朝向。它描述了相机的旋转和平移变换。
$K_i$: 这是相机的内参矩阵（intrinsic matrix），描述了相机的焦距、主点、以及像素坐标系与相机坐标系之间的关系。
$I^∗$: 这是输入的图像或深度图像，表示场景中每个像素的颜色或灰度值。在此上下文中，可能代表场景图像的颜色通道或亮度。
$M^∗$: 这是一个掩码（mask）图像，用于指示哪些区域有效。掩码通常用于处理图像中的背景或无效区域（例如，深度信息缺失的区域）。
⊙: 这是哈达玛积（Hadamard product），表示逐元素乘法。在此上下文中，它是将图像信息（例如，颜色信息或灰度值）与掩码 $(1−M^∗)$ 相结合，剔除无效区域。

Deformable 3D Gaussian Representation

当我们处理处理动态场景时，我们将一开始获得的是组织的高斯点云，但是这个点云是静态的，这些点云一开始存储在Canonical Spac（标准空间）中，他不会随着组织发生的形变而产生变化，于是我们就用deformation network（形变场）来建模这些点随时间是怎么运动的，他的的核心作用是：

映射标准空间的高斯点到任意时间步的实际位置，从而使得这些点能随时间变化。
学习物体的运动规律，可以建模简单的刚体运动（Rigid Motion，如平移、旋转），也可以建模复杂的非刚体形变（Non-Rigid Deformation，如人脸表情、衣物摆动等）。

相当于给定时间 t 和高斯点的初始坐标，我们就可以得到t时间对应高斯点的坐标。这种方法在处理多个高斯点的时候非常的灵活，同时还可以节省空间，不用记录下每个高斯点的每个时间的位置。

文章中，他们的这个形变场用的就是MLP来进行建模，将一开始生成的高斯点云输入进去，然后训练的这个MLP，让他预测之后点云的形状，然后再把预测后的点云投影到2D中，和实际的视频帧进行比对，以此来训练。

训练完成后，他就可以输入一个高斯点的坐标 $x_c$，和时间 t ，他就可以计算出这个高斯点的偏移。 $$(δx,δs,δq) = F_Θ((γ(x_c),γ(t)).$$

位置变化 δx
缩放变化 δs
旋转变化 δq
形变场$F_Θ$
位置编码函数 $γ()$, 位置编码的作用是：

增强 MLP 的表达能力：如果直接输入坐标 (x,y,z)，MLP 可能难以学习到高频变化的运动。
通过特定频率的编码，让 MLP 学习复杂的运动模式。

然后 t 时间的高斯点就变成 $\mathcal{G_0} = {(x_0,s_0,q_0,\alpha,c)}$ 其中 $x_0 = x_c + δx,s_0 = s_c· exp(δs),q_0 = q_c· δq$

$\alpha,c$ 不变，因为他们是高斯的固有属性。

Optimization

他们的这个框架同时优化MLP形变场的参数以及2D转成标准空间下的3D高斯点云质量，以及去除手术器械。 $$ \mathcal L_{\text{color}} = \left| (I_i - \hat{C}_i) \cdot (1 - M_i) \right|_1 $$ 真实彩色图像 $I_i$ 和预测图像 $\hat{C}_i$ 相减，然后取出手术器械部分$(1-M_i)$ 然后求 L1 范数，就是矩阵的每个数的绝对值加起来，这个公式就是损失函数

$$ \mathcal L_{\text{depth}} = \left| (D_i - \hat{D}_i) \cdot (1 - M_i) \right|_1. \tag{5} $$ 和上面式子意思类似，是深度的损失函数

Deformation Regularization.

在处理单视角时候，形变场会后一些限制，这会造成噪声。于是文章提出一种正则化方法，让一个高斯点附近的高斯点之间有相似的形变。

$$ \mathcal{L}{pos} = \sum{i=1}^{N} \sum_{k=1}^{K} \left| d\left(\mathbf{x}_c^{(i)}, \mathbf{x}_c^{(k)}\right) - d\left(\mathbf{x}_o^{(i)}, \mathbf{x}_o^{(k)}\right) \right|_1. \tag{6} $$

位置损失函数$\mathcal{L}_{pos}$，计算标准空间中每个高斯点 i 和他周围K(文章中K=5)个点的的距离，和观察空间中点i和他周围K个点的距离，然后求范数，就得到损失函数

$$ \mathcal{L}{cov} = \sum{i=1}^{N} \sum_{k=1}^{K} \left| d\left( \mathbf{Σ}_c^{(i)}, \mathbf{Σ}_c^{(k)} \right) - d\left( \mathbf{Σ}_o^{(i)}, \mathbf{Σ}_o^{(k)} \right) \right|_1. \tag{7} $$

这个是协方差矩阵的损失函数$\mathcal{L}_{cov}$ ，与上面的公式类似

Occlusion-Based Color Regularization（基于遮挡的色彩正则化）

因为NeRFs是用连续的办法表示场景，因此可以很好的弥补从头到尾被手术仪器遮挡的部分，但是3DGS是基于离散的高斯点，mask $M^*$ 让这部分的图像缺失，所以在从头到尾被手术仪器遮挡的部分他会使得渲染的图片中有个空洞，于是文章中引入a total variational loss，利用周围的点的颜色可以帮助弥补缺失的那部分颜色。

$$ \mathcal{L}{smooth} = \frac{1}{n} \sum{p,q} \left( | \mathbf{C}^{p,q} - \mathbf{C}^{p-1,q} |{2}^{2} + | \mathbf{C}^{p,q} - \mathbf{C}^{p,q-1} |{2}^{2} \right), \mathbf{C} = \hat{\mathbf{C}}_{i} \odot \mathbf{M}^{*}, \tag{8} $$

这个公式的意思就是比较 (p,q) 位置的像素值和(p-1，q),(p,q-1)位置像素值的差异，用欧几里得范数的平方来度量，求和n个像素之后取平均。

Total Loss

最后他们再添加3DGS中的SSIM loss 得到最终的损失函数

$$ \mathcal{L} = (\mathcal{L}{color} + \lambda_1 \mathcal{L}{ssim} + \lambda_2 \mathcal{L}{depth}) + (\lambda_3 \mathcal{L}{pos} + \lambda_4 \mathcal{L}_{cov} + \lambda_5 \mathcal{L}_{smooth}). \tag{9} $$

Experiments

这里就讲了一下他们实验的结果，交代数据集，和其他之前已有的模型进行比较,分析之前方法的缺陷，进行消融实验（Evaluation Metrics）^1，交代他们的实验细节。

Conclusion

概括了一下他们的创新点，成果，明显好于SOTA^2，说本文为手术场景建模提供一种新思路。

nnUNet practise

Sat, 08 Mar 2025 00:00:00 GMT

引言

最近要用nnUNet来处理医学图像，准确来说叫图像分割。简单来说就是训练一个模型，使之给定他一个图片，他能够将图片的血管分割出来。此次使用的工具是nnUNet，nnUNet是一个自适应的深度学习框架，专为医学图像分割任务设计。他的最大的特点就是自动化，他自动训练训练集，自动预训练，自动评判。简而言之，他就是一个功能多样且强大，封装好的医学图像分割工具。

所以本次博客主要记录一下如何使用nnUNet进行训练。

训练仓库

配置

mac m1 pro 16 + 512

配置环境

一开始我们要clone nnUNet的仓库到我们的本地，当然也可以不用，要是没有需求修改他们的模型就不用。但这里我clone了

git clone https://github.com/MIC-DKFZ/nnUNet.git
cd nnUNet

然后建议用conda或者其他的来管理python包这里要安装的还挺多的

pip install -e .

是用于在当前目录下以“可编辑模式”（editable mode）安装 Python 包的命令。具体来说，这个命令会查找当前目录中的 setup.py（或者 pyproject.toml），并将包安装到 Python 环境中，但不是把文件复制过去，而是建立一个指向源代码的链接。这意味着当你修改源码时，无需重新安装，修改会立即生效，非常适合开发调试阶段。

数据处理

官方文档

我一开始拿到的数据集其实并不是按照nnUNet标准要求的数据格式来存放的。以下是我一开始数据集的结构图。我一开始有两个数据集，每个数据集的格式都是如此

/path/to/your_dataset_1/
 |——crop                          
 |——crop_test
 |——crop_train                    
 |   |——0
 |      |——image.png
 |      |——label.png
 |      |——mask.png
 |   |——1
 | …
 |——original

original：存放原始图片，用于以防万一后续检查
crop：切割后的图片，就是将原始图片进行裁切，放大我们想要关注的区域
crop_train：他和crop_test平分crop中的图片，一半用于训练，一半用来训练完之后的检验。然后这个数据有0，1，2, ....个文件夹，里面存的image.png, label.png, mask.png
- image.png 切割后的图片
- label.png 标签，就是人工标注的分割结果，用于训练和检测
- mask.png 测试的时候防止预测区域外干扰使用的
crop_test 结构和crop_train一样

但可惜的是，nnUNet支持的格式并不是这种, 数据集必须位于 nnUNet_raw 文件夹中（你可以在安装 nnU-Net 时定义该文件夹，或在每次运行 nnU-Net 命令时导出/设置该路径）。每个分割数据集都作为一个独立的“Dataset”存储，并关联一个数据集 ID（一个三位整数）和一个你自定义的数据集名称。例如，Dataset005_Prostate 的名称为 “Prostate”，其数据集 ID 为 5。数据集在 nnUNet_raw 文件夹中的组织结构如下：

nnUNet_raw/
├── Dataset001_BrainTumour
├── Dataset002_Heart
├── Dataset003_Liver
├── Dataset004_Hippocampus
├── Dataset005_Prostate
├── ...

在每个数据集文件夹内，期望的结构如下：

Dataset001_BrainTumour/
├── dataset.json
├── imagesTr
├── imagesTs  # 可选
└── labelsTr

imagesTr：存放训练样本的图像。nnU-Net 会基于这些数据进行管道配置、交叉验证训练、后处理以及寻找最佳集成策略。
imagesTs（可选）：存放测试样本的图像。nnU-Net 不会使用它们，仅作为一个便于存储的目录，这是 MSD 文件夹结构的遗留部分。
labelsTr：存放训练样本的真实分割图。
dataset.json：包含数据集的元数据信息。

上述方案将产生如下文件夹结构。以下以 MSD 的第一个数据集 BrainTumour 为例，该数据集有四个输入通道：FLAIR（0000）、T1w（0001）、T1gd（0002）和 T2w（0003）。注意，imagesTs 文件夹为可选。

nnUNet_raw/Dataset001_BrainTumour/
├── dataset.json
├── imagesTr
│   ├── BRATS_001_0000.nii.gz
│   ├── BRATS_001_0001.nii.gz
│   ├── BRATS_001_0002.nii.gz
│   ├── BRATS_001_0003.nii.gz
│   ├── BRATS_002_0000.nii.gz
│   ├── BRATS_002_0001.nii.gz
│   ├── BRATS_002_0002.nii.gz
│   ├── BRATS_002_0003.nii.gz
│   ├── ...
├── imagesTs
│   ├── BRATS_485_0000.nii.gz
│   ├── BRATS_485_0001.nii.gz
│   ├── BRATS_485_0002.nii.gz
│   ├── BRATS_485_0003.nii.gz
│   ├── BRATS_486_0000.nii.gz
│   ├── BRATS_486_0001.nii.gz
│   ├── BRATS_486_0002.nii.gz
│   ├── BRATS_486_0003.nii.gz
│   ├── ...
└── labelsTr
    ├── BRATS_001.nii.gz
    ├── BRATS_002.nii.gz
    ├── ...

下面是 MSD 第二个数据集的另一个示例，该数据集只有一个输入通道：

nnUNet_raw/Dataset002_Heart/
├── dataset.json
├── imagesTr
│   ├── la_003_0000.nii.gz
│   ├── la_004_0000.nii.gz
│   ├── ...
├── imagesTs
│   ├── la_001_0000.nii.gz
│   ├── la_002_0000.nii.gz
│   ├── ...
└── labelsTr
    ├── la_003.nii.gz
    ├── la_004.nii.gz
    ├── ...

注意：nnUNet version 2 已经不止支持nii.gz格式，包括png等的很多格式都已经支持，具体可以看他们的官方文档

所以我们要做的就是将数据集中的crop_train中的训练图片和label分出来，存到对应的文件夹中。此外我们还要根据我们的数据写dataset.json文件。

脚本如下：

import os  
import shutil  
from batchgenerators.utilities.file_and_folder_operations import maybe_mkdir_p, save_json  
from PIL import Image  
import numpy as np  
  
  
def organize_dataset(input_dir, output_dir, is_label=False):  
    for case in os.listdir(input_dir):  
        case_dir = os.path.join(input_dir, case)  
        if os.path.isdir(case_dir):  
            image_file = os.path.join(case_dir, 'image.png')  
            label_file = os.path.join(case_dir, 'label.png') if is_label else None  
  
            # Copy image to output directory  
            if label_file is None:  
                img = Image.open(image_file).convert("L")  
                img.save(os.path.join(output_dir, f'{case}_0000.png'))  

  
            if is_label:  
                label_image = Image.open(label_file)  
                label_array = np.array(label_image)  
                label_array[label_array == 255] = 1  
                converted_label_image = Image.fromarray(label_array)  
                converted_label_image.save(os.path.join(output_dir, f'{case}.png'))  
  

def main():  
    # base_dir = '/Path/to/your/dataset/crop_train'  
    base_dir = '/Path/to/your/dataset/crop_train'  
    # test_dir = '/Path/to/your/dataset/crop_test'  
    test_dir = '/Path/to/your/dataset/crop_test'  
    # nnunet_raw_dir = '/Path/to/nnUNet_raw/Dataset001_****'  
    nnunet_raw_dir = '/Path/to/nnUNet_raw/Dataset001_****'  
    imagesTr_dir = os.path.join(nnunet_raw_dir, 'imagesTr')  
    labelsTr_dir = os.path.join(nnunet_raw_dir, 'labelsTr')  
    imagesTs_dir = os.path.join(nnunet_raw_dir, 'imagesTs')  
  
    maybe_mkdir_p(imagesTr_dir)  
    maybe_mkdir_p(labelsTr_dir)  
    maybe_mkdir_p(imagesTs_dir)  
  
    organize_dataset(base_dir, imagesTr_dir)  
    organize_dataset(base_dir, labelsTr_dir, is_label=True)  
    organize_dataset(test_dir, imagesTs_dir)  
if __name__ == '__main__':  
    main()

值得注意的是，这里面还有一些细节。一开始我们的图片都是有色的，意味着我们的图片每个像素都有三个参数RGB，在nnUNet中就表示多通道，但是我训练的时候是按单通道来训练，所以我就将这个图片转化为黑白的。

| 原图 | 处理后 | | ---------------------- | ----------------------- | | | | | | |

其次label的图像也要处理，我的数据集中，label是黑白的，意味着图片的数组就是[0,255],0表示黑色，255表示白色。在nnUNet中，0被强制表示为背景，也就是背景必须为黑，然后其他的参数必须要连续，所以我的图片的数组就必须是[0,1]，所以这个脚本将图片中的255全都改成0。反映出来的结构就是，每一个处理后的图片都几乎是全黑的，因为0，1这两个灰度很接近，所以整张图几乎就是全黑的。但是没有关系，我们人眼分辨出来计算机可以，这满足了nnUNet的格式。到最后我们只用再把1改成255就可以分辨了。

| 原图 | 处理后 | | ------------------------ | -------------------- | | | |

分类完这些图片之后，就是data.json文件,这个文件的作用就是告诉模型一些元数据。

元数据（Metadata）就是描述数据的一组信息，它提供了关于数据本身的背景、结构、属性等为模型训练提供了“关于数据的指南”，使得整个训练流程——从预处理、数据增强、网络架构设计到最终的推理和后处理——都能基于具体数据集的特点自动调整，从而提高模型的适用性和性能。

以下是我的json文件

{  
  "channel_names": {  
    "0": "CT"  
  },  
  "labels": {  
    "background": 0,  
    "lesion": 1  
  },  
  "numTraining": 14,  
  "file_ending": ".png"  
}

channel：就代表输入有几个通道，我只有一个就只有0
labels：就代表label的结构，0表示背景，1表示白色的部分
numTraining：表示训练图像有多少个
file_ending：表示图片的格式

将json文件放到指定位置之后数据处理部分就完成

预训练

预训练通过在通用数据上建立良好的基础，使得在面对具体任务时，模型能够更快、更高效地学习并达到较好的表现。

运行预处理的最简单方式为：

nnUNetv2_plan_and_preprocess -d DATASET_ID --verify_dataset_integrity

其中 DATASET_ID 即数据集的编号。我们建议首次运行时总是加上 --verify_dataset_integrity 选项，以检查一些最常见的错误来源！

DATASET_ID：就是一开数据命名的，要是Dataset001，就填1

这一个过程很快，结束后就再 nnUNet_preprocessed中看到结果

训练

这一步开始我们就正式训练，

nnUNetv2_train DATASET_NAME_OR_ID UNET_CONFIGURATION FOLD [其他选项, 详见 -h]

DATASET_NAME_OR_ID：就是数据集编号，1，2，3这些
UNET_CONFIGURATION ：是标识所请求 U-Net 配置的字符串（默认包括 2d、3d_fullres、3d_lowres、3d_cascade_lowres）我训练的2d的我就选2d
FOLD：选第几个fold当作训练时的验证集，默认他总共有5折
-device （cpu,gpu,mps）:这里就是训练的设备，mac m1，2可以用mps
-tr nUNetTrainer_XXepochs：这里就是总共训练几轮，XX是轮数，默认是1000，他可以有1，10，20，50，这些参数，可以去/nnUNet/nnunetv2/training/nnUNetTrainer/variants/training_length/nnUNetTrainer_Xepochs.py里面看有什么选项

这些还挺重要的，别像我一开始mac用cpu加速，然后epochs默认1000次，算了一下大概要3个月，才能训完一个只有50张图片的模型，然后我的电脑还嘎嘎烫。后来我用了mps以及50 epochs，大概要5个小时。

训练过程中他会有一些反馈，告诉你当前是第几轮了。

比如图中

Epoch：就是第几轮的意思，我这是47轮
current learning rate：就是当前的学习率，一般来说刚开始训练的时候，这个会比较大，简单来说就是一开始像梯度下降的地方快速前进，随着训练到后面，你越接近极小值，你的步伐应该越来越小，否则会出现接近极小值的那部分仍然有很多的抖动。
train_loss：这是 训练集上的损失（loss），表示模型在训练数据上的误差大小。
val_loss：这是 验证集上的损失，衡量模型在未见过的数据上的表现。
Pseudo Dice：是 nnU-Net 计算的 Dice 分数,这具体含义我还不了解
EMA： 指数滑动平均（EMA, Exponential Moving Average） Dice 分数的历史最佳值。

当你训练完成之后就会是这样，这里我用fold 0 当作验证集，意思就是我50个数据被分为5 个fold 用其中的1个当作验证集，其他4个当作训练集。正常来说，我们应该要循环训练所有 fold（通常 5 折交叉验证）意思就是让每一个fold当作一次验证集，最后平均这些结果。但是我的电脑训练一次都已经费劲了，所以我这里只选择了一个fold。后面的数据就是用验证集检验的结果，最后就是validation complets，以及Mean Validation Dice（平均 Dice 系数）= 0.8252，另一个数据集是0.7089

预测

训练完成之后就让模型处理一些图片

nnUNetv2_predict -i INPUT_FOLDER -o OUTPUT_FOLDER -d DATASET_NAME_OR_ID -c CONFIGURATION --save_probabilities

INPUT_FOLDER：输入文件路径
OUTPUT_FOLDER：输出文件路径
DATASET_NAME_OR_ID：跟之前一样，数据集名字
CONFIGURATION：2d，3d还是别的

注意：我只用了fold 0作为数据集，但nnUNet的预测会想要用5 fold的数据来预测，所以-f 0 就是让他使用fold 0 来预测 -device mps 就是用mac的架构来预测，默认是cuda

nnUNetv2_predict -i ./nnUNet_raw/Dataset002_chasedb1/imagesTs -o ./nnUNet_raw/Dataset002_chasedb1/output -d 2 -c 2d --save_probabilities -f 0 -device mps

运行完之后就可以在对应文件夹中看到分割出来的图片。但注意，输出的图像还是[0,1]的，输出的就是全黑的图片，后面再用脚本将它转化回来。

import os  
import numpy as np  
from PIL import Image  
  
# 设置你的文件夹路径  
folder = "Path/to/your/result"  
  
for filename in os.listdir(folder):  
    if filename.lower().endswith('.png'):  
        filepath = os.path.join(folder, filename)  
        img = Image.open(filepath)  
        # 如果图片不是RGB模式，可先转换：img = img.convert("RGB")  
        img_array = np.array(img)  
        # 将所有像素值为1的元素替换为255  
        img_array[img_array == 1] = 255  
        # 转换回图片对象并保存覆盖原文件  
        new_img = Image.fromarray(img_array)  
        new_img.save(filepath)

这样就可以看到结果

| 预测图像 | 分割图像 | | ------------------------- | ------------------ | | | |

小结

感觉做这个也不容易，我的所有核都跑满了，训练结果不能说很好吧，但是受限于设备这些，我也不可能一直用我的电脑训练，想要更好的结果那就epochs再多点，5个fold全都跑完，在cuda上跑，应该会有不错的效果吧。

Lecture5 Neural Networks

Wed, 19 Feb 2025 00:00:00 GMT

Problem: Linear Classifiers aren’t that powerful

#1 Feature Transforms

我们之前讲过linear classifier是线性的，所以他不能识别一些非线性的图案,但是我们可以通过一些方法将我们要识别的数据转化成线性的，这样我们就可以利用Linear Classifiers来识别

#2 Color Histogram

我们将图片转化为颜色直方图，这样可以忽略物体在照片中的空间位置，根据颜色来识别物体，把图片中的颜色转化为向量然后训练。

#3 Histogram of Oriented Gradients (HoG)

HoG的核心思想是通过捕捉图像中物体轮廓和边缘的形状信息来提取特征。图像的梯度方向和幅度可以反映出物体的边缘、纹理等结构信息，这些信息对物体的识别和分类非常重要。

#4 Bag of Words (Data-Driven!)

我们冲数据集中每个图片提取一些块，然后这些块组成一个 codebook，然后我们就可以将图片表示为这个图片有多少个codebook中这一个块的个数，以此类推

Neural Networks

上面说的这些都是图片的某些特征，我们不只用单独的特征来识别图片，我们用多个特征组合起来形成一个长特征向量来表示一张图片以前的想法就是将一个系统分为两部分，一部分就是特征的提取，一部分就是训练部分神经网络的动机就是最大化提高图像分类的能力，最大的区别就是他用一整个系统共同来调整这两部分

现在就看一下神经网络的简单例子

$$ Linear\ Classifiers:f = Wx+b $$ $$2 \ layer\ Neural\ Networks:f = W_2max(0,W_1x+b_1)+b_2 $$

Fully-connected neural network

由于x中的每个元素都会对h中的每个元素造成影响，h中的也会对s造成影响，神经网络的每一层都是相互连接的，所以将这种神经网络称为Fully-connected neural network，也叫多层感知机(MLP)

max那部分被称为激活函数，如果我们没有那部分，我们的函数变为$s=W_2W_1x$ 这时他仍然是一个Linear Classifiers，所以我们要在两个矩阵之间加一个非线性的函数。当然这种激活函数可以有很多种，不只是max这种，但max是用的最广泛的激活函数。

激活函数最重要的作用就是将分类可以变的不再线性，比如原本没有激活函数的时候然后通过激活函数之后，B,C,D中的数据全部被投影到坐标轴中于是再通过线性分类(也就是第二个W)就可以将这些区分开来，从而这种做法就可以达到非线性的区分。这里的神经网络就是2层

神经网络的由来

就因为这种结构启发与神经元，所以叫神经网络。又图中每一个hidden layer其实相当于每一层的权重矩阵以及激活函数，偏移量。中间的一个个圆圈在神经网络中也被称为神经元（Neuron），“节点”（Node）或“单元”（Unit），他本质上就是权重矩阵中的一行，偏移量中的一个数。

Regularize

前面我们说过正则化的目的之一是防止过拟合，在神经网络中我们可以看到层数越多他模拟的就越精细，他也就越容易过拟合。但是这时我们不选择减少层数来实现正则化，而是添加偏移量。从而使我们的决策边界变得平滑。

Universal Approximation(万能逼近定理)

这里想说的就是，适当的人工神经网络能够逼近任何连续函数，只要该网络具有足够的宽度（即足够多的神经元）和合适的激活函数。

比如我们的ReLU激活函数，每四个神经元他就可以帮助形成其中一种bump function。bump function具有强烈的局部性和光滑性，通常用来进行局部分析或构造光滑函数的近似。

当我们把多个bump function连接在一起的时候他就可以模拟非线性的函数，这就是神经网络在理论上具备了近似任何函数的能力的原因

但是这只是理论上，实际上Universal approximation 没有告诉我们，我们是否可以通过SGD来学习到任何函数以及我们需要多大的数据来训练一个函数。

所以这些局限性促使了很多新的研究方向，包括更高效的训练算法、优化技术、正则化方法、以及小样本学习等

The details about this blog

Sat, 15 Feb 2025 00:00:00 GMT

动机

一开始我的博客是github pages中的al-folio主题，用了一个学期之后发现之前的这个配置维护很麻烦，每次部署文章的时候都要等半天才可以部署好。所以就有了迁移博客的念头，后来就发现现在这个更好看的这个主题。探索了一下，这主题功能又多又好玩，耐看，部署简单，还可以实时编辑，所以就选这个主题。

部署

克隆

一开始的话克隆这个仓库，在命令行输入

git clone https://github.com/cworld1/astro-theme-pure.git
cd astro-theme-pure

然后我这里选择的是vercel来部署我的网站，这时建议fork这个原仓库，然后再克隆到本地，在vercel中就直接导入对应github仓库，接着就按照vercel的指示就可以。数据库我暂时还在用leancloud.

然后mac用户就要下载一下bun

curl -fsSL https://bun.sh/install | bash

当然homebrew也可以，不过有点慢

brew install bun

运行

下载完成之后就开始安装必要软件

bun install

安装完之后就开始运行

bun dev

此时他就应该弹出local network 然后在浏览器打开连接就可以实时看自己的博客

配置

基本

在/src/site.config.ts中可以配置基本的信息，包括头像，网站名字，favicon这些在注释里都有提到，包括备案信息，github账号这些。然后在这里管理子页面，可以省去一些不要的子页面。

主页

这个在/src/pages/index.astro文件里面更改，可以添加一些自己的功能。

About

这个在/src/pages/about/index.astro文件里面更改，最好玩的就是这个tool，不过这里的图片都是svg的图片，自己对应的工具要在网上找然后转化为svg图片。有一些免费的网站，比如这个网站就挺好用的，有一定的免费额度，但是不多。或者直接找某些软件的svg图片。

Projects

这里就在/src/pages/projects/index.astro里面更改，添加自己的仓库。这个界面会展示你的GitHub贡献图，有的时候连接不上github他就会一直报错。这时候只用把那段代码暂时先注释掉该别的先。

links

这个就在/src/pages/index/index.astro里面更改

Blog

写博客在/src/content/blog里面添加文件夹，然后把图片放到文件夹里面。仿照现有的blog模仿就行。如果习惯在obsidian中写博客，可能格式不能兼容，可以看看我写的工具来转化格式。

值得注意的是，除了blog里的图片放到对应文件夹里面，其他额外的图片都要放到/public这个文件夹里面。

Lecture4 Optimization

Fri, 07 Feb 2025 00:00:00 GMT

事实上，损失函数只是告诉你当前的W造成的损失是多少，判断这个W到底好不好，但是没有告诉你怎么找这个W。

所以这时候就用到optimization $w^*$就是最优的w，$\arg \min_w$表示对于 $w$ 的所有可能取值，找到使得 $L(w)$ 最小化的 $w$

$$w^* = \arg \min_w L(w)$$

optimization method

random search

随便选W

follow the slope

找梯度，沿着梯度下降的地方

Numeric gradient(数值梯度)

一种是像这样对W的每一个元素都增加一个微小量，保持其他元素不变，然后计算斜率。但是这种办法非常的慢对每个元素都要，实际中W可以非常大同时这种做法只能得到近似，因为我们用的有限的差值来计算

Analytic gradient(解析梯度)

更有效的办法就是直接用损失函数来找到他对应的梯度通过莱布尼茨，牛顿的那些数学办法找到梯度具体实现中我们用的是反向传播算法

Gradient Descent(梯度下降)

Vanilla gradient descent

$$损失函数：L(W) = \frac{1}{N} \sum_{i=1}^{N} L_i(x_i, y_i, W) + \lambda R(W)$$

$$损失函数梯度：\nabla_W L(W) = \frac{1}{N} \sum_{i=1}^{N} \nabla_W L_i(x_i, y_i, W) + \lambda \nabla_W R(W)$$

# Vanilla gradient decsent
w = initialize_weights()   #初始化一个w
for t in range(num_steps): #进行num_steps之后结束
  dw = compute_gradient(loss_fn,data,w) #计算dw
  w -= learing_rate * dw   #每次通过dw对w进行调整，learing rate决定调整速度

Hyperparameters:

Weight initialization method
Number of steps
Learning rate

Batch gradient descent-->Stochastic Gradient Descent（SGD）

对于Vanilla gradient descent而言，我们需要每次对样本集中的每个样本进行计算，从而得到dw，然而当样本集数量很大的时候，计算的速度就会比较慢。于是，就有Stochastic Gradient Descent

$$L(W) = \mathbb{E}{(x, y) \sim p{\text{data}}} \left[ L(x, y, W)\right] + \lambda R(W) \approx \frac{1}{N} \sum_{i=1}^{N} L_i(x_i, y_i, W) + \lambda R(W)$$

$$\nabla_W L(W) = \nabla_W \mathbb{E}{(x, y) \sim p{\text{data}}} \left[ L(x, y, W) \right] + \lambda \nabla_W R(W) \approx \frac{1}{N} \sum_{i=1}^{N} \nabla_W L_i(x_i, y_i, W) + \lambda \nabla_W R(W)$$

# Stochastic Gradient Descent
w = initialize_weights()   #初始化一个w
for t in range(num_steps): #进行num_steps之后结束
  minibatch = sample_data(data,batch_size)  #选取一部份的样本
  dw = compute_gradient(loss_fn,minidata,w) #根据这一小部份样本计算dw
  w -= learing_rate * dw   #每次通过dw对w进行调整，learing rate决定调整速度

Hyperparameters:

Weight initialization method
Number of steps
Learning rate
Batch size
Data sampling

Problems

如果我们调整的步子太大，我们可能会得到锯齿状的路线，如果过小，可能w收敛的速度会比较慢

我们会掉入到局部极小值以及鞍点中，而不是全局最小值
对于SGD而言他比较容易受到噪声干扰，因为他只是选取一部份的样本

SGD+Momentum

v = 0
for t in range(num_steps):
  dw = compute_gradient(w)
  v = rho * v + dw       #他引入了历史的梯度影响，而不只是受到当前梯度的影响
  w -= learing_rate * v

这种办法就可以解决上面提到的问题

由于受到历史梯度所以类似于小球掉入局部极小值之后仍有力将他拉出去
受到历史梯度的影响，很明显就可以得出他一定会减缓震荡的幅度
由于受到历史梯度的影响，他就不再会过于敏感与噪声

这种想法就类似于下图

AdaGrad & RMSProp

grad_squared = 0
for t in range(num_steps):
  dw = compute_gradient(w)
  grad_squared += dw * dw
  w -= learing_rate * dw / (grad_squared.sqrt() + 1e-7)

每个参数都有一个独立的学习率（learing_rate），这个学习率是通过该参数的梯度历史自动调整的。具体来说，历史上梯度较大的参数会有较小的学习率，而梯度较小的参数会有较大的学习率。
这种调整机制确保了在训练过程中，参数更新较多的方向会逐渐减小学习率，避免过度更新，而较少更新的参数会有较大的学习率，鼓励它们继续更新。

AdaGrad和前面的SGD最大的不同就是他的learing_rate会根据当前的梯度大小来调整，而SGD的learing_rate是不变的。

但是这个方法也有问题就是

学习率过早衰减：由于 AdaGrad 是基于梯度的平方累积来调整学习率的，这意味着随着训练的进行，学习率会单调递减，最终可能导致学习率变得非常小，从而停止更新。特别是在训练的后期，这可能会影响模型的收敛性，导致训练停滞。
没有长时间有效的学习率：AdaGrad 的自适应机制通常会导致学习率在训练过程中迅速下降，尤其是在处理高频特征时，这可能会导致无法进一步优化模型。

所以就有RMSProp

grad_squared = 0
for t in range(num_steps):
  dw = compute_gradient(w)
  grad_squared += decay_rate * grad_squared + (1 - decay_rate) * dw * dw
  w -= learing_rate * dw / (grad_squared.sqrt() + 1e-7)

这种办法可以避免grad_squared在不断的增大，导致学习率的衰减过早所以可以看到这种办法可以避免SGD+Momentum的过度更新

Adam：RMSProp+Momentum

这种算法就将上面的两种算法结合

moment1 = 0
moment2 = 0
for t in range(1,num_steps + 1):
  dw = compute_gradient(w)
  moment1 = beta1 * moment1 + (1 - beta1) * dw
  moment2 = beta2 * moment2 + (1 - beta2) * dw * dw
  w -= learning_rate * moment1 / (moment2.sqrt() + 1e-7)

| | | |-------|-------| | | |

但是这个算法又有个问题就是如果一开始 t = 0，然后beta2=0.999/一个趋近于1的数，那么在一开始的时候，learing_rate就会变得非常大，意味着我们在一开始就迈一个很大的步伐

所以改进版就是

moment1 = 0
moment2 = 0
for t in range(1,num_steps + 1):
  dw = compute_gradient(w)
  moment1 = beta1 * moment1 + (1 - beta1) * dw
  moment2 = beta2 * moment2 + (1 - beta2) * dw * dw
  moment1_unbias = moment1 / (1 - beta1 ** t)
  moment2_unbias = moment2 / (1 - beta2 ** t)
  w -= learning_rate * moment1_unbias / (moment2_unbias.sqrt() + 1e-7)

Lecture3 Linear Classifiers

Wed, 05 Feb 2025 00:00:00 GMT

Parametric Approach(参数法)

$$f(x,W)=Wx+b$$ 这一个的方法就是先根据照片的长宽像素以及RGB 3 bit生成一个一维向量，如图就是$32\times32\times3=3072$ 的一维向量。然后去乘一个矩阵，这个矩阵的大小是一维向量的大小和想要区分的标签的大小，比如图中就是总共有10个我们想要进行分类的标签，所以矩阵的大小就是$10\times3072$ 这样的话我们乘出来的结果就是一个$10\times1$的矩阵，这就代表这张图片在这10中标签中的分数情况。我们还可能加一个偏移量矩阵b，来对结果进行调整。

Algebraic Viewpoint(代数角度理解)

Bias Trick

我们可以将b这个偏差合并到W矩阵中，并且在x中多加一个1，得到的结果不变

这种做法从代数角度会很有帮助转化后： $$f(x′,W′)=W′⋅x′$$ 偏置 b 现在就是扩展权重的一部分，代数形式统一为点积运算。

每一个像素乘0.5

Visual Viewpoint

我们不再将图片拆成一维向量，而是将矩阵W拆成图片的形状，这样子可以直接得出每一个标签相应的分数。这种做法有点像拿着不同标签的模版来比对（template matching），每一个标签都有一个模版，根据模版的矩阵内积来评价这张图片的分数

但是从这样的角度我们就可以看到Linear Classifiers的局限性，比如我们要识别一张在森林里面的图片，更有可能的是Linear Classifiers会很大可能将这个识别为deer因为同样背景都有很多绿色，然后car因为中间都差不多有车的模样。以及他特别依赖训练集，比如我们可以看到我们用很多红色的车来训练，所以他的模版就是红色的。但是这样一来当我们有一辆绿色的车之类的他就识别不出来。

还有就是就是A single template cannot capture multiple modes of the data，比如上图中的马看上去有两个头，这是因为当我们训练的时候，有朝向左边的马也有朝向右边的马，这些图片最终会合成一个模版（因为每一个标签只有一个模版），所以我们用一个模版来表示的话就会造成这种两头马。本质上来说就是Linear Classifiers试图用一张图片来涵盖训练集中所有的特征。

Geometric Viewpoint

这个角度就是先从图上抽两个像素点，他们的值作为x，y轴，当其他像素点的值保持不动的时候改变他们的值，然后在三维空间中形成一个面，z轴就是对应的分数。

W矩阵中的每一行就对应了一个面，也就对应一个模版，将整个图片和这一行相乘就得到这张图片对应的这个模版的分数。那么就是说W中有多少行（想要识别的标签），他就有多少个平面。一个好的W就应该一个图片在相关的标签的分数应该要比别的模版高。

然后图中的这些线就是面与x，y平面的交线，表示对应的分数为0，然后数学上来看的话就是垂直这条线的话，分数就会增长，前面讲的模版的话就是这个正交线，~~但是分数不一定沿着图中的箭头方向增长吧。有可能延相反方向增长？起点也不一定在原点？~~

然后如果我们将2个像素拓展到整个图像，那应该就是超维的一个平面。从这个观点看，超平面就会将空间切开。

这种方法就会暴露一个问题，linear classifier不能将这些图像通过一个线性的超平面将这些颜色分开来。比如说图中的蓝色部分经过蓝色模版的计算他的分数要比红色的要高，那么就意味着蓝色平面在蓝色部分要比红色平面要高，但在三维中无论平面怎么排列，都可能模拟出下图，因为这只是线性的。

这就是一开始感知机不行的原因，他一开始就是Linear Classifiers，他就连XOR都不能识别

Choosing a good W

现在我们的目的就是怎么找到一个合适的W，方法

Use a loss function to quantify how good a value of W is
Find a W that minimizes the loss function(optimization)

Loss Function(损失函数)

A loss function tells how good our current classifier is Low loss = good classifier High loss = bad classifier

一个数据集可以表示成这样：x表示一张图片，y表示对应标签的index $$ {(x_i,y_i)}^N_{i=1} $$

那么一个损失函数通常表示成这样，f表示对于x他经过和W运算之后得到的分数 $$L_i(f(x_i,W),y_i)$$

平均之后就是 $$L=\frac{1}{N} \sum_i L_i(f(x_i,W),y_i)$$

Multiclass SVM Loss（多类别 SVM 损失）

属于一种损失函数

根据每一个图片用W算出他的分数，如果他正确的标签得分最高，那么他的损失就是0，反之就是算差值。

假如我们得出了一个W，让他的L为0，意味着这个W可以很好的区分对应的标签，那这个W是否是唯一的呢？很明显不是，因为2W也是0，那么这时候我们就要有一个机制来判断哪一个W更好呢这时就用到正则化

Regularization

第二部分（右侧）： λR(W)

这是正则化项（Regularization Term），用于防止模型过拟合。
λ 是一个超参数（hyperparameter），用于控制正则化的强度。较大的 λ 会增加正则化的影响，使模型更简单，较小的 λ 则更关注拟合数据。
R(W) 是对模型参数 W 施加的限制（如 L1/L2 正则化）。

正则化的目的

Express preferences in among models beyond "minimize training error"(增加一些偏好比如L1正则化注重某一个参数比重，L2注重所有参数的作用)
Avoid overfitting: Prefer simple models that generalize better（避免过拟合化）
Improve optimization by adding curvature

Cross-Entropy Loss (Multinomial Logistic Regression)（交叉熵损失）

这一个办法就是将分数转化成概率

$$分数：s=f(x_i,W)$$ softmax公式就是将分数进行用e进行指数化，然后再归一，这样可以避免负数的影响

$$Softmax function 归一化：P(Y=k|X=x_i)=\frac{exp(s_k)}{\sum_jexp(s_j)}$$

$$计算损失：L_i=-logP(Y=y_i|X=x_i)$$

Kullback–Leibler（KL）散度是一种衡量两个概率分布之间的差异的方法，常用于信息论和机器学习。它可以理解为“当我们用分布 Q 近似真实分布 P 时，Q 造成了多少信息损失”。 KL 散度（DKLDKL）的计算公式如下： $$D_{KL}(P∣∣Q)=∑_yP(y)log⁡\frac {P(y)}{Q(y)}$$ 其中：

P(y)P(y) 是真实的概率分布（ground truth）。
Q(y)Q(y) 是我们希望学习的概率分布（模型的预测概率）。
该公式的核心思想是计算P 和 Q 之间的相对熵。

Lecture2 Image Classifier

Mon, 03 Feb 2025 00:00:00 GMT

一个机器学习的算法通常包括两部分：训练部分

def train(images,labels):
#machine learing
	return model

预测部分：

def predict(model,test_images):
#Use model to predict labels
	return test_labels

Nearest Neighbor算法

train部分只是单纯的记住每个训练过的图片和相应的标签
predict部分就是将输入的图片和记住的图片通过某些比较算法来比较，找到最相似的图片，输出相应的标签

那这个比较函数可以是什么

L1 distance

$$d_1(I_1,I_2)=\sum_p |I_1^p-I_2^p|$$

这种算法的训练复杂度是O(1)我们只是需要那个训练集就可以，但是测试复杂度是O(n) 这样其实是非常不好的，这和机器学习的预期完全相反，我们希望能花更多的时间来训练，然后更快的时间来完成测试。

同时这种算法并不能“真正”的理解图片的内容，因为他是根据图片时间的像素差距来判断，所以通常如果两张照片有相同的颜色，形态之类的他都会误以为是同一种，即使他们是不同的生物

进阶(KNN)

我们将训练集中的每一个图片根据某种特征提取出特征值出来，然后用相应的颜色表示对应的标签，然后放入坐标轴中。我们就得到一张具有离散的不同颜色的点，这些点形成区间。

具体这些离散的点怎么形成呢，可能是当我们把训练集中的所有图片转化为点放到坐标轴上的时候，他就会通过比较函数计算坐标轴中剩余的点，然后给定他的标签，从而实现离散的点到连续的区间。

然后当测试的时候，我们同样将图片转化成点放入图中，直接判断他在那个区间，然后判断出他的标签。

但是如果我们判断点的标签的时候只依据和他最近点的坐标的话，那这个图将不会有鲁棒性，很容易受到噪声的影响，从而让图变得有锯齿以及孤立的区间（图中绿色里面的黄色）

但是KNN的核心就是每个点不依赖单独一个点，而是找到K个最近的点，然后和这些点中大多数的一样标签一样。这样的可以使图像变得平滑（从左图变到右图）这种做法会造成出现白色区域，因为这些区域的点到其他的区域都差不多近，这时就额外处理，比如遇到这种情况就选最近的就行了。

Distance Metric(距离度量)

所谓的比较函数，更科学叫做Distance Metric(距离度量)，用于测量两点之间的差异。除了上面提到的,我们还有L2(Euclidean distance) $$d_2(I_1,I_2)=\sqrt{ \sum_p (I_1^p-I_2^p)^2}$$ 有趣的是当我们分别用两种方式来画图的时候，L1的边缘更直角化，而L2则更圆滑。具体的数学原理暂时先留着。

那该怎么选择距离度量呢？引用chatgpt Distance Metric 是用来衡量两点（或两对象）间差异的核心工具。选择合适的距离度量对于算法的性能至关重要，通常根据数据的特性和问题的背景来选择：

连续数据：欧几里得、曼哈顿。
离散数据：汉明距离。
高维或方向数据：余弦距离。

Hyperparameters(超参数)

所以对于这种算法，我们该选多大的K，该选什么样的距离度量，这些都属于超参数。但是对于每一类问题，他们的超参数是不同的且没有有效的办法来预先知道这些超参数，所以一般都是尝试不同的超参数，然后判断哪种效果好。

设置超参数

那么我们怎么设置超参数和怎么评价效果的好坏

我们需要做的就是将我们的数据集拆分成三份，一份用来训练，一份用来验证，根据这个来调整我们的超参数，最后一份当我们调整完成我们的算法的时候来测试我们算法的准确性，用完即弃。

最好的做法就是将算法拷贝多次，每次将不同的fold作为验证集，来得到不同的超参数，然后选准确率高的。但这种做法一般适用小模型，因为训练的成本会很贵。

How to use clash on linux

Thu, 07 Nov 2024 00:00:00 GMT

本博客基于这个博客

上面的博客已经讲的非常清晰

本博客只是在此基础上补充些细节

设备

x86架构 ubuntun24

下载

根据电脑的架构下载对应的版本

但是根据自己的经验似乎这个网址本身就是要vpn才能连接

linux下好像是无法打开这个网址的

如果是这样的话，建议用另外一台可以登上这个网址的电脑先下载这个文件，然后将文件传给linux

这里我们用scp(基于ssh的安全传输方式)

scp file.txt user@remote_host:/home/user/

file.txt就是要传输的那个文件

user@remote_host就是要传输的那台电脑

对于小白而言，user其实就是主机名，可以打开linux终端，输入

whoami

来查看主机名

对于remote_host就是要传输对象的ip地址

可以用

ip addr show

进行查看,一般就在wlo1那里查看，一般长10.xx...之类的就是

配置

当你成功传输之后，打开tar文件，图形化界面直接就帮你解压，不行就tar命令

进入文件中之后就直接点击cfw文件，然后他就有clash的图形化界面

点击左边profiles，在搜索栏输入购买流量的url（流量当然是购买来的），然后按个回车就能导入订阅成功之后就选中刚刚导入的内容

设置系统代理

由于 Clash for Windows 的系统代理功能只在 Windows 和 macOS 下生效，所以在 Linux 下需要手动设置系统代理。

在系统设置中，找到网络设置。点开代理

打开，然后选择手动

按图中配置

127.0.0.1是本地主机号，7890是clash选择的端口号 | | | |-------|-------| | | |

自己可以在proxies选择不同的流量

打开Allow lan就可以使用

How to build NAS

Sat, 19 Oct 2024 00:00:00 GMT

该博客主要介绍如何利用一台电脑+机械硬盘来搭建一台可以随地访问的nas

配置：

mac ipad iphone作为接收，以此来随地接收文件一台win11+ubuntu24的双系统电脑+西部数据4t紫盘机械硬盘+绿联硬盘盒

机械硬盘在刚买回来的时候要进行初始化，我用的是mac的磁盘工具对他进行“抹掉” 然后为其分配一个文件系统这里我选择exFAT，因为这个格式对不同的操作系统兼容性更强

一开时用了绿联的硬盘盒将机械硬盘装进去用usb3.0数据线连接到linux电脑上

Samba

然后在linux上要安装Samba（用于文件共享）

sudo apt update
sudo apt install samba

用vim编辑Samba配置文件

sudo vim /etc/samba/smb.conf

在文件末尾添加一下内容

[MyNAS]
path = /path/to/your/harddrive//这里是你机械硬盘在你电脑的位置，可以在图形化界面打开这个机械硬盘然后再在终端中看他的路径，像我的就在/media/laurie/HDD
available = yes
valid users = laurie//这里可以自己填用户名
read only = no
browsable = yes
public = yes
writable = yes

然后保存退出然后创建一个Samba用户，会要求你输入一个密码

sudo smbpasswd -a laurie//这里的用户名填上面配置的用户名

然后重启Samba服务

sudo systemctl restart smbd

ZeroTier

linux

然后进行内网穿透的话我使用ZeroTier，原理的话可以自行chatgpt 首先在linux上安装zerotier

curl -s https://install.zerotier.com | sudo bash

启动zerotier服务

sudo systemctl enable zerotier-one
sudo systemctl start zerotier-one

然后访问zerotier创建一个账号，然后创建一个新的虚拟网络创建完之后会得到一个NEetwork ID 这里用哪一个设备进行创建都可以然后在linux中加入ZeroTier网络

sudo zerotier-cli join <Network ID>

进入 ZeroTier Central，找到刚刚加入的设备，勾选旁边的复选框，批准该设备加入网络然后可以在那个界面看到zerotier为你分配的managed ip

Mac

然后现在要保证你要连接的设备和你的nas在同一个网络中在mac上用命令行安装ZeroTier（也可以下载ZeroTier app 我是用的命令行）

brew install zerotier-one

安装完后启动zerotier服务

sudo zerotier-cli join <Network ID>

在zerotier网站上检查是否已经添加成功

ipad&iphone

在这两个设备下要下载zerotier app外区的app store有的下，然后点击+号，输入network id来加入网络

Finder

最后就是利用苹果的finder来对硬盘中的文件进行访问

MAC

command+k然后弹出连接服务器窗口在搜索栏里填写smb://<虚拟ip>/<Samba配置文件添加内容的那个头名字，在我的上面的例子中就是MyNas> 然后填写nas的用户名和密码就可以连接

Win

可以打开文件资源管理器，直接在地址栏中输入以下格式：

\\<你的Managed IP>\<共享文件夹>

没试过不保证成功率

Ipad&iphone

在文件中找到添加服务器然后也按照这个格式smb://<虚拟ip>/<Samba配置文件添加内容的那个头名字，在我的上面的例子中就是MyNas>填写

但是iphone好像会不是很稳定，目前还没找到解决办法

shell

当然也可以用ssh远程连接

shell hostname@虚拟ip

就可以连接

总结

至此我们就搭建了nas服务器，最后如果遇到什么问题请问chatgpt他才是世界上最好的老师