上一层是嵌入大小(V类,K -outputdim) -我想引入一个权重矩阵大小K x T。权重将是可训练的(就像嵌入一样).They生成的VxT矩阵将用于下游。1)我该怎么做? 2)这会影响渐变吗?
它基本上是向量x矩阵。Example- embedding vocab = 10,dim K =4。因此,对于特定的词汇表成员,我的嵌入权重是一个向量大小(1,4) (考虑行向量)。
对于每个行向量,我想乘以一个大小为4x10的权重矩阵,得到一个1x10的向量(或层)。权重矩阵对词汇表的所有成员都是通用的。
这个1 x 10矢量将被输入到下一层。
发布于 2019-06-26 21:52:40
你想要的是一个密集的层,只是没有偏见。密集层内部有一个矩阵,该矩阵对所有输入都是通用的,它不随输入而变化。
因此,这可以实现为:
x = Dense(10, use_bias=False)(some_input_tensor)
不需要激活函数,因为您只需要矩阵乘法。
https://stackoverflow.com/questions/56779294
复制相似问题