生成对抗网络‌ 【深度】对偶学习的生成对抗网络 (DualGAN)

16 0 0

对抗生成网络（GAN）和对偶学习（），都是在无监督学习领域大放异彩的研究方向。虽然两者一个来自于图片识别，一个来自于机器翻译，但是两者在巧妙的算法设计思想上有着相当大的相似性。如果将GAN与Dual 结合起来，那便产生了非常有趣的“图到图的翻译（Image to Image ，详见本期推文《图到图的翻译》）”。前些日子在AI圈风靡一时的“”，可以根据用户绘制的建筑标签生成“真正的”建筑图片，其原理就是图片和图片标签之间的相互“翻译”。

近年来，生成对抗网络（ , GAN）成为了人工智能领域最为炙手可热的研究方向。GAN 的想法最早由 Ian 在 2014 年提出。GAN 用对抗的方法，同时训练了一个「生成模型（G）」与一个「判别模型（D）」，在学习的过程中，生成模型的优化目标是尽可能地去生成伪造的数据，从而获得真实数据的统计分布规律；而判别模型则用于判别给出的一个输入数据到底来源于真实数据还是生成模型。最终，当一个判别模型无法准确分辨生成模型所生成的数据是否为伪造时，此时我们认为判别模型与生成模型都已经提高到了较高的水平，生成模型所生成的数据足以模仿真实世界中的数据。因此，当我们使用 GAN 来「识别」图片时，我们不但识别了图片的内容，还可以生成各种不同内容的图片。费曼曾经说过：“What I , I do not .”生成模型为人工智能的研究提供了一种“” 的可能性，因而引起了广泛的关注。

值得注意的是，生成模型所生成的结果并非是凭空来产生，更多的时候，很多图像处理和计算机视觉的问题都可以被看成是一种「图片翻译」的问题，例如一张人脸的照片以及与之对应的一张素描之间的相互转换就可以看成是从一张图片「翻译」为另外一张图片。事实上，更一般的，边界探测，图像分割，图片的风格化和抽象化等等都可以被视为是这样一种「翻译」问题。

而说到「翻译」，我们很容易会想到其在自然语言处理领域中的一些应用。近年来在机器翻译领域也有许多有意思的新进展。其中一种新的做法是对偶学习（dual ），这种学习的方式为解决无监督学习中遇到的困难提供了新的思路。简要介绍一下这种学习方法的基本思路：假如现在小明只能讲中文， Alice 只会讲英文，他们两个人虽然都不懂对方的语言，但是他们希望能够可以中英文之间的两个翻译模型（中译英，英译中）。怎样可以实现他们的这个目的呢？首先，对于一个英文的句子，Alice 先用翻译工具将其翻译为中文，由于她并不懂中文，于是她直接把句子发给了小明；但小明又不懂英文，于是小明只能按照中文的语言习惯判断这个句子是否通顺，这可以帮助小明判断这个「英译中」的系统是否做得很好，随后，小明把他修改过的句子再用「中译英」的系统翻译成英文，并把英文句子发给 Alice。Alice 虽然不懂中文，但她能比较经过这一大圈的翻译之后，得到的新句子与最初的版本是否相似。这一信息可以帮助判断是否两个翻译模型都表现良好。随着「对偶学习」过程的持续进行，未标注的数据也得到了充分的利用，利用这些信息，可以帮助提高对偶任务中的两个翻译模型。这种对偶学习的想法为进一步改进现有的翻译模型提出了崭新的思路。

如果说原来的 GAN 是将图片的「识别」问题扩展为「生成」和「判别」两个问题，那么算法就是将基本的 GAN 再进一步扩展为两个相互耦合的的 GAN，其中存在着两个生成器和两个判别器。以素描与照片之间的相互「翻译」为例进行说明，其中第一个生成器可以将素描（U）翻译为照片（V），所完成的任务正是我们最终想要完成的目的，与这个生成器对应的有一个判别器。与此同时，构建与之对偶的另一个生成器，将照片转换为素描，与这个生成器所对应的同样有一个判别器。

在这样的基本框架下，接下来我们来考虑怎样利用对偶学习的思路训练 GAN。首先我们介绍「生成」的思路，通过生成器可以对素描图片 u 进行翻译，最终得到类似照片的图片，其中包含的噪声为 z，翻译的结果即为，把这个翻译的结果扔给另一个专门用于生成素描图片的生成器，得到的结果即为对原有的素描图片的一次重构，这里的 z’ 同样是噪声。接下来考虑与这一过程对偶的一个过程，首先将照片 v 用生成器翻译为素描图，然后再用生成器对生成的素描图进行翻译，得到。

接下来介绍「判别」的思路，与生成器对应的判别器判断一张图片是否像一张照片，而与生成器对应的判别器则判断一张图片是否像一张素描图。对应于上面提到的对偶的生成过程，系统最终希望最小化重构误差，即希望最小化在两次迭代后得到的结果与原始图片之间的误差和。

根据这一基本思路，我们就可以真的来对图片做各种处理了。下面了展示这一算法得到的一些结果。这些相关结果分别与真实情况（ truth）和其它算法得到的结果进行了比较，可以发现这一算法的确有着不错的表现。

生成对抗网络‌ 【深度】对偶学习的生成对抗网络 (DualGAN)