<!–[if gte mso 9]>
Conditional
Generative
Adversarial Nets
Mehdi Mirza
Département d’informatique et de recherche
opérationnelle
Université de Montréal
Montréal, QC
H3C 3J7
mirzamom@iro.umontreal.ca \ANDSimon Osindero
Flickr / Yahoo Inc.
San Francisco, CA 94103
osindero@yahoo-inc.com
摘要
最近, Generative Adversarial Nets [ 8 ]被引入作为训练生成模型的
新方法。
在这项工作中,我们介绍了生成对抗网的条件版本,它可以通过简单地提
供数据y来构造,我们希望对生成器和鉴别器
都进行条件化。 我们证明该模型可以生成以类
标签为条件的MNIST数字。
我们还说明了如何使用此模型来学习多模态模型,并提供图像标记应用程
序的初步示例,其中我们演示了此方法如何生成不属于训练标签的描述性
标记。
1简介
最近引入了生成性对抗网作为训练生成模型的替代框 架,以避免许多难以处理的概率近似计算的困难。
对抗网具有以下优点:永远不需要马尔可夫链,仅使 用反向传播来获得梯度,在学习期间不需要推理,并且可以容易地将各种 因素和交互作用吸收到模型中。
此外,如[ 8 ]所示 ,它可以产生最先进的对数似然估计和逼真样本。
在无条件的生成模型中,无法控制正在生成的数据的模式
。 但是,通过附加信息调整模型,可以指导数据生成的过程。 这种条件
可以基于类别标签,在某些部分数据上进行修复,如[ 5 ] ,甚至是来自不同模态的数据。
在这项工作中,我们展示了如何构建条件对抗网。 对于
实证结果,我们展示了两组实验。 一个在MNIST数字数据集上以类标签为条件,一个在MIR Flickr 25,000数据集[
10 ]上用于多模态学习。
2相关工作
2.1用于图像标签的多模态学习
尽管最近监督神经网络(特
别是卷积网络)取得了许多成功[
13,17
]
,但仍然难以扩展此类模型以适应预测极大量的输出类别。
第二个问题是迄今为止的大部分工作都集中在学习从输入到输出
的一对一映射。
然而,许多有趣的问题更自然地被认为是概率
性的一对多映射。
例如,在图像标记的情况下,对于一给定图像
可以适当地应用许多不同标签,并且不同(人)注释器可以使用不同(但
通常是同义或相关)术语来描述相同图像。
帮助解决第一个问题的一种
方法是利用来自其他模态的附加信息:例如,通过使用自然语言语料库来
学习在几何关系上有语义意义的标签的向量表示。
当在这样的空
间中进行预测时,我们受益于以下事实:当预测错误时我们仍然经常“接
近”真实情况(例如,预测“桌子”而不是“椅子”),以及我们可以自然地
做出预测泛化到训练期间未见的标签的事实。
诸如[
3
]之类的工作表明,即使从图像特征空间到字表示空间的简单
线性映射也可以产生改进的分类性能。
解决第二个问题的一种方法
是使用条件概率生成模型,输入被视为条件变量,并且一对多映射被实例
化为条件预测分布。
[
16
]对这个问题采取了类似的方
法,并在MIR
Flickr 25,000数据集上训练多模态Deep
Boltzmann机,就像我们在这项工作中所做的那样。
此外,在
[ 12
]中 ,作者展示了如何训练有监督的多模态神经语言模
型,并且他们能够为图像生成描述性句子。
最近引入了生成性对抗网作为训练生成模型的新方法。
它们由两个“对抗”模型组成:一个捕获数据分布的生成模型G ,以及一个估计样本来自训练数据而不是G的概率的判别模型D. G和D都可以是非线性
映射函数,例如多层感知器。
为了学习数据数据x上的生成 器分布pg ,生成器将 先验噪声分布pz(z)到数据空间的映射函数建立为G(z;θg)。 并且鉴别器 D(x;θd)输出单个标量,该标量表示x来自训练数据而不是pg的概率。
同时训练G和D :我们调整G的参数以
最小化log(1
– D(G(z))并调整D的参数以最小化logD(X) ,如同它们跟随- 具有值函数V(G,
D)的双人最小 - 最大游戏
(two-player min-max
game):
minGmaxDV(D,G)=Ex∼pdata(x) [logD(x)]+Ez∼pz(z) [log(1−D(G(z)))]. |
(1) |
3.2有条件的对抗网
如果生成器和鉴别
器都以某些额外信息y为条件,则生成对抗网可以扩展到条件模型。
y可以是任何类型的辅助信息,例如
类标签或来自其他模态的数据。
我们可以通过将y作为附加输入层馈入鉴别器
和生成器来执行调节
在生成器中,先验噪声输入pz(z)和y在联合隐藏表示中被组合,并且对抗训练框架允许
在如何组成该隐藏表示时具有相当大的灵活性。 1
---------------------------------------------------------
1 现在我们只需要将条件输入和先验噪声作为MLP的单个隐藏层的输入,但是可以想象使用更高阶
的交互允许复杂的生成机制,这种机制在传统的生成框架中非常难以使用
。
在鉴别器中, x和y被表示为输入和判别函数(在这种情况下由MLP再次体现)。
The
objective function
of a two-player minimax game would be as Eq 2
双人迷你极限游戏的目标函数将是Eq 2
---------------------------------------
$$\min_{G}\max_{D}V(D,G)=\mathbb{E}_{{x}\sim p_{\text{data}}({x})}[\log D({x}|{y})]+\mathbb{E}_{{z}\sim p_{z}({z})}[\log(1-D(G({z}|{y})))]$$ | |||
$$\min_{G}\max_{D}V(D,G)=\mathbb{E}_{{x}\sim p_{\text{data}}({x})}[\log D({x}|{y})]+\mathbb{E}_{{z}\sim p_{z}({z})}[\log(1-D(G({z}|{y})))] $$ test2
minGmaxDV(D,G)=Ex∼pdata(x) [logD(x|y)]+Ez∼pz(z) [log(1−D(G(z| y)))]. |
(2) |
图1展示了一种简
单条件对抗网的结构。
4实验结果
4.1 Unimodal(单模态,只有一个
峰的分布 )
我们在MNIST图像上训练了条件对抗网,这些图像以其类标 签为条件,编码为one-hot矢量。
在生成器网中,从单位超立方体内的均匀分布中抽样 到具有维数100的噪声先验z 。 z和y都被映射到具有整流线性单元(ReLu)激活[ 4,11 ] 的隐藏层,分别具有层大小200和1000,然后被映射 到第二层, 该层为维度1200的ReLu 组合隐藏层。然后我们有一个最终的,生成784维MNIST样本的 sigmoid单 元层作为输出。
鉴别器将x映射到具有240个单元
和5片的maxout [ 6 ]层,并且y映射到具有50个单元和
5片的maxout层。 两个隐藏
层在被馈送到sigmoid层之前, 映射到具有240个单元和4片 联合的 maxout层。
(鉴别器的精确架构并不重要,只要它具有足够的功率;我们发现
maxout单元通常非常
适合该任务。)Both of the hidden layers mapped
to a joint maxout layer with 240 units and 4 pieces
before being fed
to the sigmoid layer. (The precise architecture of the
discriminator is not critical
as long as it has sufficient power;)
该模型采用随机梯度下降训练,小批量为
100,初始学习率为0.1 ,指数下降至.000001
,衰减系数为1.00004 。 还使用动量,初始值为.5 ,增加到0.7 。 以概率为0.5的
dropout[
9 ]应用于生成器和鉴别
器。
并且验证集上的对数似然的最佳估计被用作停止点。
Table
1 shows Gaussian Parzen
window log-likelihood estimate for the MNIST dataset test data.
1000 samples
were drawn from each 10 class and a
Gaussian Parzen window was fitted to these samples.
We then estimate
the log-likelihood of the test set using the Parzen
window distribution.
表1示出了MNIST测试数据集的高斯Parzen窗口对数似然估计。 从每10类中抽取1000个样品,并将高这些样本拟合到高斯Parzen窗口上。 然后 ,我们使用Parzen窗口分布估计 测试集的对数似然。 (有关如何构建此估计的更多详细信息,请参见 [ 8 ] 。)
我们提出的条件性对抗净结果与其他一些基于网络的 结果相当,但是其他几种方法(包括非条件对抗网)的表现都优于我们的 方法。 我们将这些结果更多地作为概念验证而不是效力的证明,并且相信通过进 一步探索超参数空间和架构,条件模型应该匹配或超过非条件结果。
图2显示了一些生成的样本。 每行以一个标签为条件,每 列是不同的生成样本。
Model |
MNIST |
DBN [1]
|
138±2 |
Stacked CAE [1]
|
121±1.6 |
Deep GSN [2]
|
214±1.1 |
Adversarial nets |
225±2 |
Conditional adversarial
nets |
132±1.8 |
诸如Flickr之类的照片网站是图像形式的标记数据及其相
关的用户生成元数据(UGM)的丰富来源
- 特别是用户标签。
用户生成的元数据与更多“典
型”图像标记方案的不同之处在于它们通常更具描述性,并且在语义上更
接近人类用自然语言描述图像的方式,而不仅仅是识别图像中存在的对象
。
UGM的另一个方面是synoymy是普遍的,不
同的用户可能使用不同的词汇来描述相同的概念 - 因此,有一种有效的方法来规范化这些标签变得
很重要。 概念词嵌入
[
14
]在这里非常有用,因为相关
概念最终由类似的向量表示。
在本节中,我们演示了具有多标签预测的
图像的自动标记,使用条件对抗网络生成(可能是多模态的)标记向量分
布,条件是图像特征。
对于图像特征,我们预先训练卷积模型,
类似于[ 13
]中的卷积模型,在有21,000个标签[ 15
]的 完整的ImageNet数据集上。
我们使用最后一个完全连接层的输出,其中
4096个单位作为图像表示。
对于表示性世界,我们首先从YFCC100M 2
2 Yahoo Flickr Creative
Common 100M http://webscope.sandbox.yahoo.com/catalog.php?
datatype=i&did收集用户标签
,标题和描述的串联文本集。
= 67
。 数据集元数据
。 在对文本进行预处理和清理之后,我们训练了
一个单词矢量大小为200的skip-gram模型
[
14
]
。我们省略了从词汇表中出现少于200次的任何单词,从而最终得到一个大小为247465的字典
We
keep the
convolutional model and the language model fixed during
training of the
adversarial net. And leave the
experiments when we even
backpropagate through these models as
future work.
我们在对抗网的训练期间保持卷积模型和
语言模型的固定。
当我们甚至通过这些模型反向传播时,留下实
验作为未来的工作。
对于我们的实验,我们使用
MIR Flickr
25,000数据集[ 10
]
,并使用我们上面描述的卷积模型和语言模型提取图像和标签特
征。
我们的实验中省略了没有任何标签的图像,并
将注释视为额外标签。 前150,000个例子被用作训练集。
对于每个关联的标签,在训练集内将具有多个
标签的图像重复一次。
为了评估,我们为每个图像生成100个样本,并使用词汇表中单词的向量表示的 余弦
相似性找到前20个最接近的单词到每个样本。
然后我们在所有100个样本中选择前10个
最常用的单词。 表2显示了用户分配的标签和
注释以及生成的标签的一些样本。
最佳的可以工作的模型的生
成器接收大小为100的高斯噪声作为噪声先验
,并将其映射到500维ReLu层。
并将4096维图像特征向量映射到2000维ReLu隐藏层。
这两个层都映射到200维线性层的联合表示中,它将输出生成的词矢量
The
discriminator is
consisted of 500 and 1200 dimension ReLu hidden
layers for word vectors and image features respectively and
maxout
layer with 1000 units and 3 pieces as the join layer which is
finally fed to
the one single sigmoid unit.
鉴别器由分别用于字向量和图像特征的500和1200维ReLu隐藏层组成,并且具有1000个单元的maxout层和3片,
作为联合层, 并最终馈送到1个
sigmoid单元。
该模型采用随机梯度体积训练,小批量为100,初始学习率为0.1 ,指数下降至.000001
,衰减系数为1.00004 。 还使用动量,初始值为.5 ,增加到0.7 。 对dropout概率
为0.5应用于生成器和鉴别器。
超参数和架构选择是通过交叉
验证以及随机网格搜索和手动选择的混合获得的(尽管在一个有限的搜索
空间内)。
User tags + annotations |
Generated tags |
|
|
montanha, trem, inverno, frio, people, male, plant life, tree, structures, transport, car |
taxi, passenger, line, transportation, railway station, passengers, railways, signals, rail, rails |
 |
food, raspberry, delicious, homemade |
chicken, fattening, cooked, peanut, cream, cookie, house made, bread, biscuit, bakes |
 |
water, river |
creek, lake, along, near, river, rocky, treeline, valley, woods, waters |
 |
people, portrait, female, baby, indoor |
love, people, posing, girl, young, strangers, pretty, women, happy, life |
5未来的工作
本文中显示的结果非常初级,但它们展示 了条件对抗网的潜力,并展示了有趣和有用的应用程序的前景。
从现在到研讨会之间的未来探索中,我们期望提供
更复杂的模型,以及对其性能和特征的更详细和彻底的分析。
此外,在当前的实验中,我
们仅单独使用每个标签。 但是通过同时使用多个标签(有效地将生成问题作为'
集合生成'之一),我们希望获得更
好的结果。
未来工作的另一个明显方向是建立一个联合训练计划
来学习语言模型。 诸如[
12
]之类的作品表明我们可以学习适合特定任务的语言模型。
致谢
该项目是在Pylearn2 [ 7 ]框架中开发的,我们要感谢 Pylearn2开发人员。 我们还要感谢Ian Goodfellow在蒙 特利尔大学期间进行的有益讨论。 作者非常感谢Flickr视觉与机器学习和生产工 程团队的支持(按字母顺序排列:Andrew Stadlen,Arel Cordero,Clayton Mellina,Cyprien Noel,Frank Liu,Gerry Pesavento,Huy Nguyen,Jack Culpepper,John Ko ,Pierre Garrigues,Rob Hess,Stacey Svetlichnaya,Tobi Baumgartner和Ye Lu)。
References
- Bengio
et al. [2013] Bengio, Y., Mesnil,
G., Dauphin, Y., and Rifai, S.
(2013). Better
mixing via deep representations. In
ICML’2013.
- Bengio
et al. [2014] Bengio, Y., Thibodeau-Laufer,
E., Alain, G., and Yosinski, J.
(2014). Deep
generative stochastic networks trainable by backprop.
In Proceedings of the 30th International Conference on
Machine Learning
(ICML’14).
- Frome
et al. [2013] Frome, A., Corrado,
G. S., Shlens, J., Bengio,
S., Dean, J., Mikolov, T.,
et al. (2013).
Devise: A deep visual-semantic embedding model. In
Advances in Neural
Information Processing Systems, pages
2121–2129.
- Glorot
et al. [2011] Glorot, X., Bordes,
A., and Bengio, Y. (2011). Deep
sparse rectifier
neural networks. In International Conference on Artificial
Intelligence
and Statistics, pages 315–323.
- Goodfellow
et al. [2013a] Goodfellow, I., Mirza,
M., Courville, A., and Bengio,
Y. (2013a). Multi-prediction deep boltzmann
machines. In Advances in Neural Information Processing
Systems, pages 548–556.
- Goodfellow
et al. [2013b] Goodfellow,
I. J., Warde-Farley, D., Mirza, M., Courville,
A., and Bengio, Y. (2013b).
Maxout
networks. In ICML’2013.
- Goodfellow
et al. [2013c] Goodfellow,
I. J.,
Warde-Farley, D., Lamblin, P., Dumoulin, V., Mirza, M.,
Pascanu, R.,
Bergstra, J., Bastien, F., and Bengio, Y. (2013c).
Pylearn2: a machine
learning research library. arXiv preprint arXiv:1308.4214.
- Goodfellow
et al. [2014] Goodfellow,
I. J., Pouget-Abadie, J., Mirza, M., Xu, B.,
Warde-Farley, D., Ozair, S.,
Courville, A., and Bengio,
Y. (2014). Generative adversarial nets. In
NIPS’2014.
- Hinton et al. [2012] Hinton,
G. E., Srivastava, N., Krizhevsky, A., Sutskever, I.,
and
Salakhutdinov, R. (2012). Improving neural networks by
preventing
co-adaptation of feature detectors. Technical report,
arXiv:1207.0580.
- Huiskes and
Lew [2008] Huiskes,
M. J. and Lew,
M. S. (2008). The mir flickr retrieval evaluation. In
MIR ’08: Proceedings of the 2008 ACM
International
Conference on Multimedia Information Retrieval, New York,
NY, USA. ACM.
- Jarrett et al. [2009] Jarrett,
K., Kavukcuoglu, K., Ranzato, M., and LeCun, Y. (2009).
What is the best
multi-stage architecture for object recognition? In
ICCV’09.
- Kiros
et al. [2013] Kiros, R., Zemel,
R., and Salakhutdinov, R.
(2013). Multimodal
neural language models. In Proc. NIPS Deep Learning
Workshop.
- Krizhevsky
et al. [2012] Krizhevsky,
A., Sutskever, I., and Hinton, G. (2012). ImageNet
classification with
deep convolutional neural networks. In Advances in Neural
Information
Processing Systems 25 (NIPS’2012).
- Mikolov
et al. [2013] Mikolov, T., Chen,
K., Corrado, G., and Dean, J. (2013).
Efficient estimation
of word representations in vector space. In International
Conference on
Learning Representations: Workshops Track.
- Russakovsky and
Fei-Fei [2010] Russakovsky,
O. and Fei-Fei, L. (2010). Attribute learning in large-
scale datasets. In
European Conference of Computer Vision (ECCV),
International Workshop on
Parts and Attributes, Crete, Greece.
- Srivastava and Salakhutdinov
[2012] Srivastava, N. and Salakhutdinov, R. (2012). Multimodal
learning with
deep boltzmann machines. In
NIPS’2012.
- Szegedy
et al. [2014] Szegedy, C.,
Liu, W., Jia,
Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D.,
Vanhoucke, V., and
Rabinovich, A. (2014). Going deeper with convolutions.
arXiv preprint
arXiv:1409.4842.