Pytorch中NLLLoss损失函数的C类是什么?


问题内容

我在问C类的NLLLoss损失函数。

该文档指出:

负对数似然损失。用C类训练分类问题很有用。

从那以后,基本上所有内容都取决于您是否了解C类,我以为我知道C类是什么,但是文档对我而言并没有多大意义。特别是当它描述的预期输入时(N, C) where C = number of classes。那是我感到困惑的地方,因为我认为C类仅引用 输出
。我的理解是C类是分类的一个热门载体。我经常在教程中发现NLLLoss经常与搭配使用LogSoftmax以解决分类问题。

我期望NLLLoss在以下示例中使用:

# Some random training data
input = torch.randn(5, requires_grad=True)
print(input)  # tensor([-1.3533, -1.3074, -1.7906,  0.3113,  0.7982], requires_grad=True)
# Build my NN (here it's just a LogSoftmax)
m = nn.LogSoftmax(dim=0)
# Train my NN with the data
output = m(input)
print(output)  # tensor([-2.8079, -2.7619, -3.2451, -1.1432, -0.6564], grad_fn=<LogSoftmaxBackward>)
loss = nn.NLLLoss()
print(loss(output, torch.tensor([1, 0, 0])))

上面在最后一行引发了以下错误:

ValueError:预期2个或更多尺寸(获得1个)

我们可以忽略该错误,因为显然我不了解自己在做什么。在这里,我将解释上述源代码的意图。

input = torch.randn(5, requires_grad=True)

随机一维数组与一个热向量配对以[1, 0, 0]进行训练。我正在尝试对一个十进制数字的热向量进行二进制位处理。

m = nn.LogSoftmax(dim=0)

的文档LogSoftmax说,输出将与输入具有相同的形状,但是我只看到了示例,LogSoftmax(dim=1)因此由于无法找到相对示例,因此我一直试图进行这项工作。

print(loss(output, torch.tensor([1, 0, 0])))

所以现在有了NN的输出,我想知道分类带来的损失[1, 0, 0]。在此示例中,什么数据并不重要。我只想损失一个代表分类的热向量。

在这一点上,我陷入了尝试解决损失函数中与预期输出和输入结构有关的错误的困境。我尝试view(...)在输出和输入上使用以修复形状,但这只会给我带来其他错误。

因此,这回到了我最初的问题,我将展示文档中的示例来解释我的困惑:

m = nn.LogSoftmax(dim=1)
loss = nn.NLLLoss()
input = torch.randn(3, 5, requires_grad=True)
train = torch.tensor([1, 0, 4])
print('input', input)  # input tensor([[...],[...],[...]], requires_grad=True)
output = m(input)
print('train', output, train)  # tensor([[...],[...],[...]],grad_fn=<LogSoftmaxBackward>) tensor([1, 0, 4])
x = loss(output, train)

同样,我们必须dim=1LogSoftmax这让我困惑了,因为看的input数据。这是3x5张量,我迷路了。

这是该NLLLoss函数的第一个输入的文档:

输入:(N,C)(N,C),其中C =类数

输入是 类别数 分组 的?

那么张量输入的每一 行都 与训练张量的每个 元素 相关联吗?

如果更改输入张量的第二维,则 什么都不会中断, 并且我不知道发生了什么。

input = torch.randn(3, 100, requires_grad=True)
# 3 x 100 still works?

所以我不明白这里的C类是什么,我认为C类是一个分类(如标签),仅对NN的输出有意义。

我希望您能理解我的困惑,因为NN输入的形状不应该独立于用于分类的一个热矢量的形状吗?

代码示例和文档都说输入的形状是由分类的数量定义的,我真的不明白为什么。

我试图研究文档和教程以了解我所缺少的内容,但是在无法解决这一问题几天后,我决定问这个问题。一直很谦卑,因为我认为这将是更容易学习的东西之一。


问题答案:

基本上,您缺少的概念batch

长话短说,每一项损失(以及通过网络的损失)的输入都需要batch维度(即使用了多少个样本)。

逐步分解:

您的示例与文档

每个步骤都会与每个步骤进行比较,以使其更加清晰(顶部的文档,下面的示例)

输入项

input = torch.randn(3, 5, requires_grad=True)
input = torch.randn(5, requires_grad=True)

在第一种情况下(docs),5将创建3具有要素的输入并使用示例。在您的情况下,只有batch尺寸(5样本),没有 必需的功能
。如果您打算使用一个具有5功能的示例,则应该执行以下操作:

input = torch.randn(5, requires_grad=True)

LogSoftmax

LogSoftmax 是跨要素维度完成的,您是跨批次进行的。

m = nn.LogSoftmax(dim = 1)#应用于特征m = nn.LogSoftmax(dim = 0)#应用于批处理

通常,此操作没有意义,因为样本彼此独立。

目标

因为这是多类分类,并且向量中的每个元素都代表一个样本,所以可以传递任意数量的数字(只要它小于要素的数量,在文档示例中为5[0-4]就可以了)。

train = torch.tensor([1, 0, 4])
train = torch.tensor([1, 0, 0])

我想,您也希望将一热点向量作为目标。PyTorch不能以这种方式工作,因为它的 内存效率低下
(为什么当您只能精确定位类时,为什么将所有内容存储为一键编码0)。

仅对神经网络的输出进行一次热编码,以通过所有输出节点反向传播错误,目标不需要。

最后

你不应该 使用torch.nn.LogSoftmax 在所有
完成这个任务。只需torch.nn.Linear用作最后一层并torch.nn.CrossEntropyLoss与您的目标一起使用。