文章目錄
  1. 1. 《Zero-Shot Learning Through Cross-Modal Transfer》论文阅读理解
    1. 1.1. 摘要:
    2. 1.2. Introduction:
    3. 1.3. Word and Image Representations(单词和图像的表示):
    4. 1.4. Projecting Images into Semantic Word Spaces(把图片映射到语义词向量空间):
    5. 1.5. Zero-Shot Learning Model:

《Zero-Shot Learning Through Cross-Modal Transfer》论文阅读理解

最近想了解下zero-shot learning的资料,于是看了篇andrew ng的论文,论文地址《Zero-Shot Learning Through Cross-Modal Transfer》。由于我之前一直是研究的图像有关领域,所以对于我这种刚了解文本的菜鸟,要想更好的了解这篇文章,最好是提前了解什么是【词向量】,【如何根据local,global的context提取词向量Improving Word Representations via Global Context and Multiple Word Prototypes】,【如何提取图片的特征】。基本上有了这些知识就不难看懂这篇论文。

摘要:

  本文旨在引入一个模型来识别图像,即便这个图像中有个别类的物体不在训练样本中。唯一关于未知类物体的先验知识来自无监督的文本语料库。我们的模型既能够在已有的训练样本类的测试中获得state-of-art的识别率,又能够在未知类作为测试样本时候获得不错的效果。首先,我们在语义空间使用异常值检测(将测试样本通过投影矩阵theta投影到一个space中),然后分别使用两个独立的识别模型。如果检测出来是已知类,则使用softmax分类器;如果检测出来是未知类,则使用等距高斯分布进行分类。

Introduction:

  Zero-shot model能够预测已知和未知类的label。例如,从没看见过一张猫的图片,却可以决定这张test图片的label到底是一只猫,还是一个已知的训练样本中的类,比如狗或者马。这种模型基于两个主要的想法:
1、 图像通过神经网络模型学到的参数,被map到words的语义空间。
2、 模型合并异常值检测概率,用于决定一个新的图片是否在已知类的流形中。如果图片是已知类,则可以使用标准的分类器。否则,图片被分配到基于似然性的未知类中。

Word and Image Representations(单词和图像的表示):

  单词被表示成分布特征的向量,我们使用Huang[15]的无监督模型来得到50维度的预训练的词向量,作为初始化的word vectors。
  具体方法可以参见论文《Improving Word Representations via Global Context and Multiple Word Prototypes》。
  想法很简单,就是结合local 和global context来学习一个更好的词向量(这种词向量很好的针对一词多义、同音异义的情况训练一个单词的不同的向量)。优化函数就是要最小化:

  整个操作如下图所示:

  我们使用Coates[6]的方法来提取原始图片中的F维度的图像特征。

Projecting Images into Semantic Word Spaces(把图片映射到语义词向量空间):

  我们需要把图片映射到50-维度的词向量空间。我们的训练和测试实际上是把Cifar10数据库里面的一大部分类拿出来当做available training data,这一部分也叫做seen classes Y_s。极少部分类当做zero-shot classes(也就是训练样本中不出现的类),这部分叫做unseen classes Y_u。
  本章主要是讲已知类的图片映射矩阵theta的训练函数:

  至于图2,作者采用了t-SNE[33]的方法来将50-维度的词向量空间映射到2维空间进行可视化。我们可以明显看出,已知类几乎都是聚类在一团的,而未知类是零散分布的。我们可以根据这个来找到哪些是猫,哪些是卡车。

Zero-Shot Learning Model:

  这部分主要是讲如何去做zero-shot classes类的分类器。
  首先,我们需要预测p(y|x),y可以分成两部分。一部分是已知类,一部分是未知类。

  V∈s为已知类的先验概率模型,V∈u为未知类的先验概率模型。如果是已知类,则分类器选用softmax回归。如果是未知类,则使用等距高斯分布进行分类。
  注意公式里面出现的theta*x表示将测试样本映射到词向量的空间,然后可以得到判断为未知类和已知类的概率,哪个概率高则属于哪一类。如果属于未知类,则将未知类的向量空间与其临近的向量空间进行对比,得到属于cat还是truck。

文章目錄
  1. 1. 《Zero-Shot Learning Through Cross-Modal Transfer》论文阅读理解
    1. 1.1. 摘要:
    2. 1.2. Introduction:
    3. 1.3. Word and Image Representations(单词和图像的表示):
    4. 1.4. Projecting Images into Semantic Word Spaces(把图片映射到语义词向量空间):
    5. 1.5. Zero-Shot Learning Model: