图像通道
在神经网络中,图像被表示成[c, h, w]格式或者[n, c, h, w]格式,其中
n:样本数量
c:图像通道数
w:图像宽度
h:图像高度
PyTorch很多函数都是设计成假设输入是(c,h,w)的格式,但是np.ndarray默认将图像表示成(h, w, c)的格式,使用时需要对其进行转化。
np.ndarray
的[h, w, c]
格式:数组中第一层元素为图像的每一行像素,第二层元素为每一列像素,最后一层元素为每一个通道的像素值,它将图片中的每一个像素作为描述单元,记录它三个通道的像素值。
Tensor
的[c, h, w]
格式:数组中第一层元素为图像的三个通道,第二层元素为某个通道上的一行像素,第三层为该通道上某列的像素值,它将图像某个通道的某行像素值作为描述单元。
转化方式:image_chw = np.transpose(image_hwc, (2,0,1))