PyTorchにバイリニアレイヤーがある場合、計算がどのように行われるかについて頭を抱えることはできません。
これが私がそれがどのように機能するかを理解しようとした小さな例です:
In:
import torch.nn as nn
B = nn.Bilinear(2, 2, 1)
print(B.weight)
出力:
Parameter containing:
tensor([[[-0.4394, -0.4920],
[ 0.6137, 0.4174]]], requires_grad=True)
私はゼロベクトルとワンベクトルを入れています。
In:
print(B(torch.ones(2), torch.zeros(2)))
print(B(torch.zeros(2), torch.ones(2)))
出力:
tensor([0.2175], grad_fn=<ThAddBackward>)
tensor([0.2175], grad_fn=<ThAddBackward>)
さまざまな方法で重みを合計してみましたが、同じ結果が得られません。
前もって感謝します!
_nn.Bilinear
_によって実行される操作はB(x1, x2) = x1*A*x2 + b
(c.f. doc )で、次のようになります。
A
は_nn.Bilinear.weight
_に格納されていますb
は_nn.Bilinear.bias
_に格納されています(オプションの)バイアスを考慮すると、期待される結果が得られます。
_import torch
import torch.nn as nn
def manual_bilinear(x1, x2, A, b):
return torch.mm(x1, torch.mm(A, x2)) + b
x_ones = torch.ones(2)
x_zeros = torch.zeros(2)
# ---------------------------
# With Bias:
B = nn.Bilinear(2, 2, 1)
A = B.weight
print(B.bias)
# > tensor([-0.6748], requires_grad=True)
b = B.bias
print(B(x_ones, x_zeros))
# > tensor([-0.6748], grad_fn=<ThAddBackward>)
print(manual_bilinear(x_ones.view(1, 2), x_zeros.view(2, 1), A.squeeze(), b))
# > tensor([[-0.6748]], grad_fn=<ThAddBackward>)
print(B(x_ones, x_ones))
# > tensor([-1.7684], grad_fn=<ThAddBackward>)
print(manual_bilinear(x_ones.view(1, 2), x_ones.view(2, 1), A.squeeze(), b))
# > tensor([[-1.7684]], grad_fn=<ThAddBackward>)
# ---------------------------
# Without Bias:
B = nn.Bilinear(2, 2, 1, bias=False)
A = B.weight
print(B.bias)
# None
b = torch.zeros(1)
print(B(x_ones, x_zeros))
# > tensor([0.], grad_fn=<ThAddBackward>)
print(manual_bilinear(x_ones.view(1, 2), x_zeros.view(2, 1), A.squeeze(), b))
# > tensor([0.], grad_fn=<ThAddBackward>)
print(B(x_ones, x_ones))
# > tensor([-0.7897], grad_fn=<ThAddBackward>)
print(manual_bilinear(x_ones.view(1, 2), x_ones.view(2, 1), A.squeeze(), b))
# > tensor([[-0.7897]], grad_fn=<ThAddBackward>)
_