合作专线:17362615757
行业资讯

AI新闻

当前位置:首页 > 行业资讯 > AI新闻

印刻等基因里面的感性论各种知识,或许是通道强人工智能的必经之道


作者 | 张拳石来源 | 知乎导读:近日,几何智能(后被 Uber 收购)创始人兼 CEO Gary Marcus 在他的文章 “Deep Learning: A Critical Appraisal” in arXiv:1801.00631 中分析了目前深度学习发展的瓶颈和面临的挑战。之后,上海交通大学副教授张拳石对这篇文章中提到的十大挑战进行了分析。他表示,这类文章可以让人在浮躁的论文海洋里,找到深入的思考和共鸣。
这篇文章为深度学习列出了以下十大挑战。当然,有些人不屑于这些思考,因为以目前的方法论而言,很多问题是无解的(tricky的解法不算),故而人们认为这就是深度学习必要的代价,从而可以忽略其存在。我认为,做研究不仅仅是眼前的论文,更要有诗和远方。推动学科边界的延伸,才是科研根本的意义。
(1) Deep learning thus far is data hungry
目前大部分深度学习算法需要大数据去进行训练。相较之下,真正的高级人工智能需要有能力完成 few-shot learning,即从一两个样本出发,就可以总结出高层语义概念,总结出逻辑链条,并且举一反三,触类旁通。
(2) Deep learning thus far is shallow and has limited capacity for Transfer
目前深度学习算法往往针对某个特定的任务学习一套特定的表达,而不是学习一种可以充分迁移的,放之四海而皆准的通用表达。目前迁移学习也需要少量samples in target domain 作为输入进行学习。当然了,目前方法论能解决的问题距离以上的目标还很远,甚至无从下手。这才是真正的瓶颈和我们应该思考的问题。
(3) Deep learning thus far has no natural way to deal with hierarchical structure
目前深度学习方法还没有能力去处理结构化的知识。我认为此论断可以更进一步:目前深度学习无法自动的把内部知识组织成一种清晰、结构化、有语义的表达形式。大部分算法依然学的是 black-box models。
(4) Deep learning thus far has struggled with open-ended inference
自然世界的知识往往是非结构化的,模糊组织的,而深度网络的输入输出需要确定性的输入输出格式,这样深度学习方法先天地对非 open-ended inference 不太兼容。当然了,VQA 的研究者都以做纯粹的,没有先验假设的图灵测试为目标,但是目前的技术距离这个大目标还有较大距离。
(5) Deep learning thus far is not sufficiently transparent
神经网络的知识表达是黑箱。这是个老生常谈的问题。
(6) Deep learning thus far has not been well integrated with prior knowledge
目前大部分深度学习方法完全从训练样本去学习全部表达,但是真正重要的问题是如何给这些算法加入先验知识的接口。我很怀疑,人类是否从出生开始才去学习知识。就像初生的小鹿就会奔跑一样,人类也有印在基因里面的先验知识。或许这些先验知识是通往强人工智能的必经之路。
(7) Deep learning thus far cannot inherently distinguish causation from correlation
大部分Deep learning算法无法很好区分因果性和相关性。或者可以说,deep learning算法大多无法从regression的方法论进化到罗辑推理的层面。
(8) Deep learning presumes a largely stable world, in ways that may be problematic
Deep learning 算法往往有个特定的环境假设,无法适应实时变化的世界。
(9) Deep learning thus far works well as an approximation, but its answers often cannot be fully trusted
很多深度学习算法往往利用“记忆的”模式,对输入数据进行逼近拟合,从而做出判断。因而,这些算法不具有充分的解释性,为每个具体的预测结果无法给出令人信服的理由。
(10) Deep learning thus far is difficult to engineer with
端对端的学习神经网络无法像编程一样实时 debug 其中的内部表达,无法实时与人交流其内部的表达,无法像父亲教孩子一样手把手地教学,无法像搭积木一样去组织算法的功能。
我很庆幸的是,近两年自己的研究覆盖了其中的八个挑战。当然了,这些研究仅仅在这些挑战上做一些粗浅的尝试而已,未来还需要做更多的工作。
Q. Zhang, Y.N. Wu, and S.-C. Zhu, “Interpretable Convolutional Neural Networks” in CVPR, 2018
Q. Zhang, R. Cao, F. Shi, Y.N. Wu, and S.-C. Zhu, “Interpreting CNN knowledge using an Explanatory Graph” in AAAI, 2018
Q. Zhang, R. Cao, Y.N. Wu, and S.-C. Zhu, "Growing Interpretable Part Graphs on ConvNets via Multi-Shot Learning," in AAAI 2017.
在第一篇文章中,我们提出了一个端对端学习卷积神经网络(CNN),使得其内部每个高层 filter 都表示某个清晰的语义(并且不需要标注 texture 或 part 作为额外的训练指导)。
另外两篇文章旨在用无监督的方法把 CNN 的 black-box 表达转化成一个graphical model。我们的目的不是用 graphical model 代替 CNN 去做分类或分割等任务,而是把 graphical model 作为一个对 CNN 的辅助性的解释性的模型,去阐述一个 CNN 中建模了多少种不同的 object-part patterns,这些 patterns 的空间关系和语义层次关系是什么,等等。
其中在 explanatory graph 算法中,无监督把混乱的 CNN 特征表达拆分成人可以理解的图模型,即模型回答了每个 filter 潜在包含了多少种不同的 object-part patterns,并用一个 graph node 代表某个特定的 part pattern。算法同时建模了不同 object-part patterns 的层次化的包含从属关系。
所以,这些研究紧紧联系着“Deep learning thus far is not sufficiently transparent”和“Deep learning thus far has no natural way to deal with hierarchical structure”等两大问题。
Q. Zhang, R. Cao, Y.N. Wu, and S.-C. Zhu, "Mining Object Parts from CNNs via Active Question Answering," in CVPR 2017.
Q. Zhang, R. Cao, Y.N. Wu, M. Edmonds, and S.-C. Zhu,“Interactively Transferring CNN Patterns for Part Localization” in arXiv:1708.01783, 2017
基于之前提到的 graphical models to explain CNN representations,这两篇文章进一步把这些拆分好的 graphical models 作为对 pre-trained CNNs 内部知识的中层表达,从而提出了 middle-to-end learning via network interpretability。这些方法用 pre-trained CNN 作为视觉模式知识库,并且缕清了网络内部的知识结构。
当我们可以清楚拆分并且表达 CNN 内部语义时,我们可以进一步用人机交互的方式去搭建新的模型,就像搭建乐高积木一样。如果希望得到一个“头”的检测器,我们就直接使用眼睛和鼻子对应的 patterns 组合出一个新的模型就行,而不需要使用大量标注学习新的模型。
这些方法对应了上文提到的“Deep learning thus far is shallow and has limited capacity for Transfer” “Deep learning thus far is data hungry” “Deep learning thus far is difficult to engineer with”等三大问题。
Q. Zhang, Y. Yang, Y.N. Wu, and S.-C. Zhu, “Interpreting CNNs via Decision Trees” in arXiv:1802.00121, 2018
基于之前可解释性 CNN 的工作,我们进一步使用一个决策树去表示一个 CNN 的 fully connected 中的逻辑信息。当 CNN 为某个图像输入做出预测时,这个决策树可以为该预测做出定量的解释。即当 CNN 对某个类别的分类 score 是 0.9,决策树告诉我们某个 filter 为这个分类贡献了 0.02,而另一个 filter贡献了 -0.01。更进一步,因为在之前可解释性 CNN 的工作中,我们已经可以无监督地保证每个高层 filter 表示某个特定的 object part,所以决策树还可以在object part语义层面上给出解释。比如,头部 pattern 贡献了 0.3,身体pattern 贡献了0.2,等等。
该工作与“Deep learning thus far cannot inherently distinguish causation from correlation”和“Deep learning thus far works well as an approximation, but its answers often cannot be fully trusted”这两个问题密切相关。
Q. Zhang, W. Wang, and S.-C. Zhu, “Examining CNN representations with respect to Dataset Bias” in AAAI, 2018.
这篇论文中的工作用先验的语义知识诊断 CNN 内部潜在的错误知识表达。我们可以使用如下的先验知识,如人的发色与人的性别无关,而人的微笑的表情主要与嘴的形状相关。我们用这些先验知识诊断 CNN 中潜在的failure modes(常常出错的modes)和blind spots(知识盲点)。
这篇文章与“Deep learning thus far has not been well integrated with prior knowledge”这个问题相关。
Auto_z