编者按:深度学习和人类智力之间有一个显著的区别,即人类善于通过很少的样本识别新类型的物体,而深度学习容易产生过度拟合。因此,小样本问题已经成为机器学习领域的重要研究方向之一。目前,基于度量学习、语义信息和数据增强的方法很多。然而,大样本和小样本的界限以及小样本学习的方法仍然受到关注。复旦大学的傅、上海科技大学的何、北京邮电大学的马和中国科学院计算研究所的将回答问题并讨论小样本学习的最新进展。这篇文章是根据2019年第29期的价格研讨会汇编而成的。
主题1
小样本和大样本,小和大的区别是什么?在什么情况下应该专门设计一个“小样本”学习算法?在智能体学习过程中,小样本学习如何与不同大小的样本数据融合?如何在数据积累中过渡到大样本学习?
傅:这个问题很基本,也很有意思。事实上,当我们做小样本时,我们通常只考虑每个类一个、三个、五个或十几个样本,比如一次、三次和五次的情况。此外,在深入学习之前,实际上有一些问题可以从局部学习的角度来学习。在统计学中,小样本学习不是单次学习,而是平滑概率,这意味着小样本也可能与特征维数有关。假设你的特征维数是D,当样本量小于logD时,即使是一个相对小的样本。当然,现在我们已经深入研究,我们可能不会从这个角度来看。
至于什么样的情况需要特殊设计的小样本学习算法,事实上,这是一个非常实用或工业性的问题。例如,在医学图像处理中要解决非常罕见的病变,样本量确实不够。我们想要学习一个分类器,我们只能根据这个数据设计小样本学习算法。
在智能体学习过程中,小样本学习如何与不同大小的样本数据相结合,有很多观点。例如,ICCV教师李菲菲2003年的一篇文章使用贝叶斯方法进行合并。我们也可以通过自然语言处理学习一些语义词典,帮助小样本学习专家系统,或者通过一些专家知识的整合,甚至是不同的领域,如声乐影响学习。如何在数据积累中过渡到大样本学习是一个典型的增量学习问题。
何徐明:从视觉概念的认知角度来看,小样本的“大小”也反映在它与其他类别的区分程度上。即使某些类别中的样本数量相对较少,但如果它与其他类别高度相似,则可以使用大量的先验知识来帮助学习这些小样本,因此不能将其视为“小样本”。如果你遇到了一个与其他类别非常不同的类别,你可能会发现学习起来非常困难,需要把它当作一个小样本。
如果利用一些先验知识可以帮助学习小样本类别,我认为这种情况可以设计相关的算法。然而,如果很难获得先验知识,那么无论什么样的设计,都无法获得有用的信息。
为了解决不同大小样本的数据融合问题,我认为我们可以从大样本开始,然后扩展到小样本。即使类别不同,如果有相关性,我们仍然可以从大样本统计的一些规律中学习,以帮助小样本学习。
最后,就人类的学习过程而言,开始时可能只是一个小样本,然后在数据积累和反馈的机制下,不断地获得更新的数据。通过这种方式,视觉概念的表示可以被不断地细化,最后它可以自然地过渡到大样本。
马宇瞻:我认为在如何将数据与不同大小的样本相融合的问题上,仍然存在不平衡的学习问题。也就是说,首先要区分哪些类别的样本是小的,哪些类别是大的。在这种情况下,理想的情况是能够在数据分布不均衡的情况下制作更好的分类器,而不是简单地放大小样本或增强大样本。
主题2
引入知识来弥补小样本数据的不足是一个相对公认的趋势。什么是“知识”,有哪些形式?目前真正有效的“知识”是什么?它来自哪里?
王瑞平:现在模型的成功基本上是由数据驱动的。在数据不足的情况下,尤其是在零样本学习(极端情况)中,必须使用语义知识来辅助。到底什么是“知识”?现在一些属性标签可以用在零样本中,包括一些类别的语义相似关系,这些都是相对低级的知识。从人类认知的角度来看,相关的知识库和应用程序也可以称为“知识”,这可能是一种更自然的方式。
那么什么是目前真正有效的“知识”?在零样本和小样本的研究中,大多数是由人类手工标注的属性和词向量的语义描述。事实上,这种知识的可扩展性很差。对我们来说,不可能给所有类别的知识都贴上标签。将来更实用的方法是从大量原始文本数据中挖掘和纯化与类别相关的语义,然后组合手动标记的属性。目前,这方面还很大程度上受到自然语言处理技术发展的限制,因此应该可以用知识来弥补数据的不足。
何徐明:在一些特定的专业领域,比如医学图像分析,很难打分。然而,许多医学学科已经建立了相对完整的知识体系,充分利用这些专业知识体系有助于弥补数据不足的弱点。
傅:从贝叶斯的角度来看,我们可以把知识作为先验信息,对小样本或这些知识进行建模成分布,帮助小样本学习。甚至可以从图形模型的角度来思考,例如将某些领域的知识建模成本体或图形模型。目前,这方面的探索还不是特别清楚。掌握知识实际上是一个非常基本的问题。
主题3
在小样本学习的实际场景中,数据的缺乏会带来领域空白(领域漂移)。你如何看待领域漂移给小样本学习带来的挑战?
马宇瞻:我认为领域漂移和知识转移都是跨领域的问题。最好从不同领域的角度来定义它们。因此,领域漂移给小样本学习带来了挑战,也带来了一些好处和机会。例如,前面提到的跨模态和多模态可以整合不同领域之间的知识,并最终进行小样本学习。
主题4
什么样的小样本训练数据集能产生更好的模型?
付:当源数据和目标数据相似或相近时,用在源数据上训练的模型对目标数据进行小样本学习,效果比较好。如果差异相对较大,实际上影响很大。这与磁畴漂移直接相关。在进行一些缺陷检测时,我们也会遇到许多类似的问题。
何徐明:在实际场景中,样本选择可以根据情况考虑,根据问题给出的灵活性可以分为两种情况:第一种问题,如果类别是可选择的,那么选择更接近源数据的样本;第二,如果类别是预先指定的,则可以通过数据选择在每个类别中生成一些更好的数据来帮助训练。
主题5
当只有少量训练数据时,一次性学习是否能解决模型的过度拟合问题?传统的过拟合方法(如特征选择、正则化、增加训练样本的多样性等)是如何实现的?)体现在现有的一次性方法中?
傅:以前基本上是上述传统策略。然而,随着学习的深入,如果我们不需要转移学习和训练一个每班5个训练样本的学习者,我们可能不得不考虑特征选择和正则化的问题。随着学习的深入,这个问题应该还存在,也许只是形式变了。我们使用批处理规范化或实例规范化进行规范化,并且特征选择也可以对应。例如,因为我们在深度学习中隐式地做这些事情,所以注意机制本身也是一个特征选择。
何徐明:注意机制实际上是动态特征选择。正则化的作用,除了BN,实际上你的网络模型设计反映了对模型的约束;模型训练的损失函数设计也反映了这一点,如增加附加约束。为了提高训练样本的多样性,现在有进行特征增强的趋势。
主题6
机器学习(深度学习)现在依赖于海量数据,样本量太小,难以适应,模型表达能力不足。然而,在一些实际场景中很难收集样本。我们应该如何处理这些问题,防止过度装修?
王瑞平:这应该是小样本学习的背景。小样本和数据不平衡的问题实际上是共生的。这两个问题在现实生活中很常见。从商业社区的项目经验,通过数据扩充、相似类别之间的知识转移、数据合成和领域适应(领域适应学习)。对于样本类别之间的不平衡,可以进行数据合成或分类器合成。
马宇瞻:样本量太小导致的过度拟合不仅仅是小样本学习的问题。传统的机器学习也面临这个问题,需要结合不同的场景进行分析。
主题7
在小样本学习中,如何考虑任务之间的相关程度?如何将小样本学习方法应用于新领域的任务?
何徐明:许多假设的任务是独立且完全相同地分布的,也就是说,独立的任务是从一个分布中取样的。在这种假设下,很难探究任务之间的相关性。在实际应用中,这种假设相对较强,在许多情况下任务之间确实存在相关性。然后它可能最终变成一个类似于多任务学习的问题设置。
主题8
辅助信息(属性、词向量、文本描述等)的未来发展趋势是什么?)在零样本学习中?
傅:无论是在图像识别、自然语言处理还是其他领域,都可能存在零样本学习的问题。属性和单词向量也有很多缺点,比如模糊性。当你说苹果是苹果或苹果时,它本身就有歧义。
何徐明:如果用这些辅助信息之间的内在联系来建立信息之间的关系,它可能是一张结构化的知识地图。从另一个角度来说,因为这些属性词向量是知识表达的具体表现,而它们的背后应该是整个知识系统。
主题9
解释性学习能促进零样本学习的发展吗?
马宇瞻:让我先打个比方。这可能不合适。在信号处理领域,我们接收信号,然后从中获取信息,最后将信息提取成知识。这是一个不同层次和内涵的问题。当然,对我们来说,做视觉任务,也许是在图像中找到一些突出的区域,然后收集该区域的一些特征和目标。因此,从这个角度来看,解释性学习有助于零样本的发展,但如何促进和整合知识仍然是一个相对具有挑战性或开放性的问题。
王瑞平:模型的可解释性肯定会促进零样本学习的发展。零样本学习之所以能够实现,是因为它能够建立类别之间的关联,并将所谓已知类别的语义信息传递给未知类别。
相关的类别是什么?事实上,这个范畴背后是一些概念的组合,如是否有四条腿、皮毛、什么颜色等概念。如果我们能够从现有的分类模型中了解样本和类别之间的因果关系,了解类别之间的差异以及模型和概念之间的对应关系,并尝试解决零样本和小样本之间的问题,就可以追溯到可传递性的根源。
傅:解释性能力的深入学习可能更注重特征的描述。事实上,零样本学习的最初工作一直是基于可解释性的思想,即把X映射到Y和Y都是h的空间。后来,我们用这种语义可解释性来进行零样本学习。如果它只是对深层学习特征的解释,它就相当于如何更好地提取x并从x构造零样本学习。
摘要
俗话说,“巧妇难为无米之炊”。当使用深度学习作为解决实际问题的工具时,不可避免地会有不足的样本。受人类快速学习能力的启发,研究者希望机器学习模型在获取特定类别的数据后,只需少量样本就能学习新的类别,这是少镜头学习要解决的问题。
诸如“样本大小与特征维度之间的大小关系”和“样本与其他类别之间的区分程度”等因素可能与大样本和小样本的定义密切相关。小样本学习可以与专家系统、自然语言处理等领域相结合,在大样本数据积累和一些反馈机制的帮助下,自然过渡到大样本学习。虽然小样本学习是人类学习的一个特点,但即使人类学习本质上也是基于大样本的,这包括漫长的进化过程和多模态共生信息的影响。人类“从一个例子学习到三个例子”仍然是基于大数据和知识的转换。因此,引入知识来弥补小样本数据的不足是一种普遍接受的趋势。人类手工标注或提取傲慢数据的语义描述,特定领域的知识系统都是可用的“知识”。在实际应用中,小样本和数据不平衡往往是共生的。小样本的学习性能可以通过诸如数据扩充、相似类别之间的知识转移、数据合成、结构化知识地图、领域自适应学习和模型可解性等策略来提高。
防控疫情的需求激发之下,代替人类送药、送餐送菜、消毒巡逻的无人车成了疫情期间的特殊尖兵。疫情过后,无人车配送是否...
2020-03-23 17:12市场分调研机构Omdia的最新数据分析显示,全球智能城市人工智能(AI)软件市场将从6 738亿美元(2019年),在2025年将增长到4...
2020-04-07 17:55现代电测技术日趋成熟,由于具有精度高、便于微机相连实现自动实时处理等优点,已经广泛应用在电气量和非电气量的测量中。
2020-04-07 17:56微软经常在游戏领域开辟路径,扮演开拓者的角色,这一点体现在很多方面,包括微软的尖端技术(DX12终极版 DX光追),硬件(X...
2020-04-07 17:57去年 12 月,波音为美国宇航局发射了未载人的 Starliner 航天器。然而由于技术问题,任务并没有按计划进行。作为 NASA ...
2020-04-07 17:58