谷歌DeepMind子公司的研究人员开发了一款深度神经网络,“它们具有非常好的理解场景的能力,能够以紧凑的格式表现出来,然后' 想象'相同的以前在网络从来没有见过的场景会是什么样,“。
从报告中我们看到:由Ali Eslami和Danilo Rezende领导的DeepMind团队开发了基于具有这些相同的功能的深度神经网络 - 至少对于简化的几何场景具有识别能力。鉴于虚拟场景的一些“快照”,该软件(称为生成查询网络(GQN))使用神经网络来构建该场景的紧凑数学表示。然后,它使用该表示从新的角度呈现房间的图像 - 从一个网络从未出现过的视角。 在封装的掩盖下,GQN实际上是连接在一起的两个不同的深层神经网络。在左侧,表示网络接收表示场景的图像集合(以及关于每个图像的摄像机位置的数据),并将这些图像压缩为场景的紧凑数学表示(基本上是数字矢量)。然后,生成网络的任务就是逆转这一过程:从表示场景的矢量开始,接受摄像机位置作为输入,并生成一个图像,表示从该角度看场景的样子。
该团队使用随机梯度下降的标准机器学习技术以迭代方式改善这两个网络。该软件将一些训练图像送入网络,生成输出图像,然后观察该图像与预期结果的差异。[...]如果输出与所需图像不匹配,则软件会反向传播错误,更新数千个神经元的数字权重,以提高网络性能。
领取专属 10元无门槛券
私享最新 技术干货