• 简中
    • 繁中
  • 注册
  • 查看作者
  • AI嘅哲学系思考—认知不变性同AI

    转载:本文嚟自微信公众号“机器之心”(ID:almosthuman2014),作者:王子嘉,编辑:Joni,转载经授权发布。

    本文从科学认知嘅不变性(Hard To Vary, HTV)入手,介绍‌HTV存在嘅必要性以及广义上点样基于内部可变性(internal variablity)同外部可变性(external variability)在AI中衡量并实现呢种不变性,最后介绍‌几个啱啱提出嘅实现认知不变性嘅具体标准。

    美国嘅 DARPA(US Defense Advanced Research Projects Agency)曾经提出过第三波 AI 嘅概念,喺其论述度,第三波 AI 入面好重要嘅一部分就是达到通用人工智能。换句话说,当下嘅人工智能更多仲是依赖于统计学信息,当传入模型嘅数据分布发生变化时(任务变化),就好难达到理想嘅效果。传统嘅 AI 度,大部分嘅 AI 算法都渴望揾到一个生物学依据嚟进行对应,虽然有好多人质疑呢种对应嘅必要性,而且就如飞机嘅发明一样,其实飞机嘅飞行方式跟鸟类有好大不同,但在发现更好嘅算法之前,向人脑学习或者是更好地选择。既然要向人脑学习,噉么人类探索世界嘅过程就可以成为 AI 最好嘅老师,而哲学就是人类探索世界最神秘都最牢固嘅基石,好多学者都开始注意到哲学,除咗将其作为虚无缥缈嘅 “底蕴” 外,佢哋都开始试下将哲学嘅思路真正融入到 AI 算法中嚟。

    因此,本文都选择‌一个角度,从科学认知嘅不变性(Hard To Vary, HTV)入手,然后介绍 HTV 存在嘅必要性以及在广义上点样基于内部可变性(internal variablity)同外部可变性(external variability)在 AI 中衡量并实现呢种不变性,最后会介绍几个啱啱提出嘅具体嘅实现认知不变性嘅标准。

    乜嘢是科学认知不变性(HTV)

    AI嘅哲学系思考—认知不变性同AI

    图 1:David Deutsch 在其 TED Talk 中提出‌ HTV 嘅必要性 [4]

    简单嚟讲,科学认知不变性嘅意思就是我哋提出嘅理论应该是不易变化嘅。下面是 Wiki 对于 HTV 相对完整嘅定义:

    Theorists should seek explanations that are hard to vary. By that expression, the author intended to state that a hard-to-vary explanation provides specific details that fit together so tightly that it is impossible to change any detail without affecting the whole theory.

    (如果学者哋想要确定一个理论,噉么呢个理论最好是具有不变性嘅(难以被撼动,都就是 hard to vary)。咁样嘅理论应该是咁样嘅:所有嘅细节都好清晰而且相互紧密联系,如果你想推出呢个理论嘅结果,你只有呢一条路可以走,替换这条路(本理论)中嘅任何细节都会等呢个理论不再成立。)[5]

    基于呢个角度嚟睇,神话就是人类在认知世界时嘅一个极端嘅反面例子‌(至少目前睇嚟)。举个例子,喺古希腊神话中。季节是咁嚟嘅:冥界之神哈迪斯(Hades)绑架‌春日之神珀尔塞福涅(Persephone),并强迫佢结婚。结婚后哈迪斯放走‌春日之神,但是要求佢定期回嚟。因此好神奇嘅,每年佢真嘅就就会被迫回到冥界。而佢嘅母亲,大地女神得墨忒耳 (Demeter) 悲伤不已,使大地变得寒冷而贫瘠,都就变成‌人间嘅冬日。先不讲呢之中嘅不变性系咪存在,就只说其内在逻辑,如果冬日是因得墨忒耳嘅悲伤而造成嘅,噉么佢必须同时发生在地球上嘅所有地方。所以如果古希腊人知道澳大利亚在得墨忒尔最悲伤嘅时候是最热嘅…… 佢哋就会知道佢哋嘅理论是错误嘅。

    除咗事实畀呢个故事带嚟嘅矛盾之外,四季嘅解释仲可以由第啲各种各样嘅故事嚟代替,比如说在新嘅故事入面强迫春日之神回去嘅理由唔系那一纸婚约,而是为‌复仇,因为这入面嘅珀尔塞福涅没有被释放,但是佢逃跑嘎啦。从此之后,每年春日佢会回嚟用佢嘅春日之力向哈迪斯复仇——佢用春日嘅空气畀佢嘅领地降温,呢啲热量散发到地面,创造‌我哋嘅夏日。这同最初嘅神话解释‌相同嘅现象,同样是跟现实相符嘅。但係,佢对现实嘅断言,喺好多方面是相反嘅。这是可能嘅,因为原始神话嘅细节同季节无关,除咗通过神话本身。

    如果上面嘅故事太长太难理解,噉么就再举个更简洁嘅例子,过去嘅神话度,下雨是龙王控制嘅,仲有雷公电母负责雷电,呢种故事都系好容易变嘅,只要改个人就得嘎啦,比如雷公改成雷神,就可以实现完全相同嘅结果,只不过内在嘅解释却全然不同,分别代表住中国古代神话同漫威。

    噉就是点解 HTV 会被提出嚟,如果而家嘅科学都像呢类故事一样内在逻辑其实好容易被篡改,然后仲可以达到完全相同嘅结果,噉将会是好恐怖嘅,这都解释‌点解当下嘅 AI 黑盒模型好难被除 AI 从业者之外嘅人信任。那么为‌实现不变性,呢啲神话入面缺‌乜嘢?回到开始对于季节嘅解释上,佢哋缺失嘅一个关键元素是该理论内部演绎逻辑所产生嘅约束。现代科学对季节嘅解释就是一个好好嘅例子,因为佢涉及到太阳光线同地轴倾斜嘅一系列紧密嘅几何推导。虽然佢都有一啲自由嘅参数,如倾斜嘅角度等,但大多数嘅解释都来源于于唔可以改变嘅几何推论。当然,呢类约束存在嘅前提是我哋要建立嘅知识嘅一致性。

    HTV 能做乜嘢

    而家嘅 AI 行业其实正喺度蓬勃发展,有几家公司已经推出‌全自动驾驶汽车,而谷歌嘅 Duplex 系统凭借其能够进行自然语言对话嘅能力赢得‌好多受众。而最近嘅 GPT3 模型已经证明能够编写非常令人信服嘅故事,并在测试期间甚至可以执行语料外嘅任务(论文中嘅零样本学习部分)。但係,仍有好多人工智能无办法做到嘅事。今日嘅人工智能系统缺乏人类水平嘅常识理解,喺机器人操作物体方面好笨拙,喺任意推理方面都好差。另一个问题是,而家嘅人工智能无办法从人类咁样嘅少数例子中学习,需要大量数据嚟进行训练。但係,最重要嘅系,今日嘅人工智能系统都好狭窄,都就是 DARPA 提到嘅 Narrow AI——佢哋只能在训练数据分布嘅范围内执行佢哋被训练完成嘅任务。只要今日嘅人工智能系统被要求在训练数据分布之外工作,佢哋通常就会失败。

    换句话说,家阵时嘅 AI 更注重归纳(Induction)出嚟嘅结果。但是矛盾点就喺这入面,如果 AI 真嘅要向人脑学习,噉学者哋就好难绕开波普尔(Popperian)提出嘅认知论,而喺呢个认知论度,佢反对归纳法,认为归纳法唔系科学知识增长同发展所必需嘅。而目前嘅好多机器学习甚至好多科学研究,其实本质上都相当于贝叶斯归纳法,而且当下一个好流行嘅观点就是,所有嘅人工智能系统都系近似嘅索罗门诺夫归纳法(Solomonoff induction)。

    好似某辩论节目中讲嘅那样,哲学更多是用嚟证伪,而唔系用嚟证实。而 AI 正是在为‌几乎为‌几乎不可能嘅 “证实” 在努力。简单嚟讲,AI 希望能够产生理论,而且理论完全准确。但这显然系不可能嘅。喺波普尔睇嚟,理论向嚟都系为认识决问题而出现嘅“大胆猜想”,而唔系直接从经验中学嚟嘅。举个例子,星星其实都是一个个太阳,只不过佢哋比太阳离我哋更远,这是阿纳萨哥拉斯(Anaxagoras)在公元前 450 年首次提出嘅大胆猜想。虽然人工智能研究人员对点样产生咁样嘅猜测非常感兴趣,但波普尔并唔系几关心点样产生猜测,相反,佢认为这是一个心理学家需要回答嘅问题。毕竟,一个猜想嘅真实性同佢嘅来源无关。虽然经验能够并且确实讲畀我哋边啲猜想应该保留,边啲应该抛弃,特别是以经验检验嘅形式,但在波普尔睇嚟,经验总是带有理论色彩嘅。换句话说,不可能像弗朗西斯 · 培根所说嘅那样,以一种完全客观嘅方式进行观察。

    对波普尔嚟讲,理论同观测边个先出现嘅问题好像先有鸡仲是先有蛋嘅问题。科学理论是建立在观察嘅基础上嘅,但从某种程度上说,呢啲观察又是由之前嘅科学理论提供嘅,咁样不断追溯我哋甚至可以追溯到史前科学嘅神话中。因此,虽然理论嘅实证检验在证明某啲理论是错误嘅同时保留第啲理论方面发挥住作用,但波普尔认为,从根本上说,所有嘅理论都来源于 “内部”,而唔系嚟自外部嘅印象。如果可证伪性是一个理论系咪科学嘅关键,噉么建立在神话之上嘅理论,能够对神、魔鬼同鬼魂嘅行为做出可证伪嘅预测,就应该被认为是科学嘅吗?波普尔通过佢嘅“可证伪性嘅程度” 概念,喺一定程度上解决‌将呢啲明显不科学嘅理论从科学领域中移除嘅任务,但呢一原则嘅有效性我哋依然不清楚。

    于是 HTV 嘅存在就好有必要嘎啦,因为佢好像可以用于作为区分科学理论同不科学理论嘅替代标准。对应嘅,AI 既然声称自己嘅模型要成为智能,噉么 HTV 都可以用嚟证明 AI 模型输出嘅有效性。

    AI 同 HTV 嘅关系

    通常嚟讲,HTV 可以咁解释:对应一个特定嘅理论,有几多个等价嘅解释存在。例如,喺机器学习嘅环境度,HTV 原理可以分别应用于各种类型嘅模型架构,每一种都有固定数量嘅参数。有更多参数嘅模型能够表达更大嘅函数类,因此更容易变化。

    从表面上睇,HTV 原理似乎同经典统计中嘅偏 – 方差权衡(bias-variance trade-off)嘅其中一方面有关,即参数过多嘅模型更容易对其训练数据进行过拟合,导致对测试数据嘅泛化能力较差。但係,回谂一下,我哋感兴趣嘅系外推(分布外嘅模型能力),而唔系训练分布范围内嘅经典泛化。偏差 – 方差权衡只针对分布中嘅泛化,因此同 HTV 原理是基本不相干嘅。而且在机器学习度,随住更多嘅参数添加到模型度,偏见 – 方差权衡已经被证明会失效——如超过某个阈值,导致 “双下降” 曲线嘅发生[6]。因此目前嚟讲,更多嘅参数总是有帮助嘅,而唔会有坏处。所以,偏差 – 方差权衡本身嘅存在都变得值得怀疑嘎啦。点样区分适用偏差 – 方差权衡嘅模型同不适用偏差 – 方差权衡嘅模型仍然是一个正喺度进行嘅研究领域。同时,过度拟合嘅问题通常可以用更大嘅数据集嚟补偿。因此,大型模型在本质上并唔系不好嘅,这取决于可用数据嘅数量。

    因此,其实 HTV 同奥卡姆剃刀(Occam’s razor)原则似乎更接近。简单嚟讲,呢个原则所表达嘅意思就是模型(参数)越简单越好,简单嘅模型可以完成嘅事没必要用复杂嘅嘢嚟完成。Kolmogorov complexity 可以好好地衡量呢一原则(具体在 AI 中点样应用会在后面说)。

    如果字符串 s 嘅描述 d(s)具有最小长度 (就算用最小比特数),则称为 s 嘅最小描述,d(s) 嘅长度 (即最小描述中嘅比特数) 为 s 嘅 Kolmogorov 复杂度,写成 K(s)。而最短描述嘅长度取决于描述语言嘅选择; 但是改变语言嘅影响是有限度嘅(呢个结果被称为不变性定理)。这在 AI 度,呢种简单性嘅衡量可以有有两种方式:

    • 一是利用所有已有嘅解释框架,或者睇呢个训练好嘅模型有多复杂。Hochreiter 同 Schmidhuber 发现,喺参数空间嘅损失函数表面上存在平面极小值嘅深度学习模型更易于推广。呢一点好好解释,平面极小值表示该模型拥有较低复杂度(更易于压缩)。但是,最近发现‌同以下观点相反嘅例子:损失函数曲率较低嘅深度学习模型具有更高嘅通用性。如果结合 Popper 嘅观点,呢种利用具有较低曲率嘅函数比具有较高曲率嘅函数 “更简单” 等观点嚟证明简单性是不对嘅,Popper 认为,通过简单性嚟进行函数排序嘅做法是出于美学或实践考虑,但并没有在任何深层次嘅认知原理中建立良好嘅基础。

    • 衡量简单性嘅另一种方法是查睇模型中自由参数嘅数量。这项措施似乎更符合 Deutsch 嘅可变性概念。带有更多自由参数嘅模型(或使用 Occam 嘅语言 “实体”)更具可变性,因为可以轻松地调整参数以适合不同嘅数据。Deutsch 却反驳‌呢一观点 – 实体较少嘅模型可变性较小,佢讲:“有好多简单嘅解释都系高度可变嘅,例如’Demeter did it’。” 睇起嚟 Deutsch 正喺度研究嘅系理论上嘅各种约束,包括内部同外部,以及参数嘅微小变化改变模型预测嘅程度。弗朗索瓦 · 乔列(Fran Ocois Chollet)辩话,奥卡姆(Occam)嘅剃刀同推断系对立嘅。例如,如果模型是在训练数据上取得良好性能嘅最简单方法,噉么在新情况下就不太可能取得良好嘅效果。Chollet 认为模型应该包含 “外部” 信息,以便能够进行推断。

    点样衡量 AI 模型嘅 HTV 性

    要衡量 AI 模型嘅 HTV 性,就要先明确 HTV 性在 AI 模型中嘅表现形式是乜嘢。深度学习在工业界应用嘅常见问题就是极其不稳定,就比如图像识别领域,照明条件、图像分辨率、图像嘅呈现形式等等等等,都有可能成为深度学习模型嘅拦路虎。另外一个比较出名嘅例子就是 DeepMind 为‌电脑游戏《星际争霸》而开发嘅 AlphaStar 系统嘎啦。对于畀定嘅地图同角色,模型可以轻松战败人类,但呢种能力唔可以泛化到第啲嘅角色同地图度,必须分别重新训练。呢啲问题都在向我哋说明,AI 模型好难在训练数据嘅分布外完成其任务,都就是好难完成条件跟训练时不同嘅任务。而 HTV 则指引我哋,一个好嘅模型,应该在一个新嘅场景下以最小嘅代价最高程度地完成新嘅任务。

    因此对应于训练好嘅模型,[1]中定义‌两个概念:

    • 内部灵活性(internal variability):一个模型 / 理论在多大程度上可以内部改变,同时仍然产生相同嘅预测。好明显呢个越小越好,如果以上面嘅神话为例,神话嘅内部灵活性显然极大;

    • 外部灵活性(external variability):为‌适应新嘅数据,模型必须改变几多。好显然,呢个条件是越小越好,都就是说以最低嘅代价完成新任务。

    对应于这两个性质,如果能够好好地衡量 AI 模型中这两个性质嘅实现程度,噉么就能更好嘅达到所谓嘅通用人工智能(Artificial General Intelligence, AGI)。本小节嘅剩下内容会分开介绍这两个性质在 AI 中对应乜嘢,以及一啲概念上对呢啲性质进行衡量嘅方式。

    内部灵活性

    内部灵活性嘅定义是一个模型 / 理论在多大程度上可以内部改变,同时仍然产生相同嘅预测。考虑一个基于输入变量 x 预测输出 y 嘅常见问题。科学家首先会引入同现有系统相关嘅先验知识,并且通常会引入先验已知嘅科学定律。然后,利用呢啲先验知识,佢哋会系该关系派生或猜测一种功能形式,使其适合数据,并查睇其工作情况。重要嘅系,该功能保持相对简单,因此仍然可以理解 – 除咗准确预测之外,仲要存在理解嘅隐含需求。相比之下,喺机器学习度,从业人员仅关注预测准确性,因此可以接受大嘅黑匣子功能。Leo Brieman 指出,使用大型多参数函数(例如神经网络)时会出现一个奇怪嘅事实–大量模型在任何数据集 {x,y} 上都可能具有相等嘅误差(损失)[8]。每当数据嘈杂时都系咁,好似在任何实际应用程序中一样。佢称这是罗生门效应,是在一部日本电影度,四个人都目睹‌一个人死亡嘅事件。喺法庭上,佢哋都报告睇到相同嘅事实,但系对于所发生嘅事,佢哋嘅解释截然不同。喺神经网络中都可以发现呢种有趣嘅现象——用不同嘅随机初始化训练嘅深度神经网络可以达到相同嘅精度,但内部工作方式不同(例如,使用不同嘅功能),这是一个未被充分认识嘅事实。测量深度学习模型嘅罗生门集嘅大小,相当于确定等价最小值嘅数量。这是一个水平集问题,据我哋所知,喺呢一领域仲未有做太多嘅研究,并且没有简便嘅方法嚟计算此集合嘅大小。

    外部灵活性

    那么点样实现分布外嘅预测能力呢,噉模型需要更勇敢嘅向外进行推理,都就是外断(Extrapolation)。为‌衡量外断嘅能力,都有‌外部灵活性嘅概念。为‌衡量外部灵活性,我哋可以再次假设我哋正喺度为一个简单嘅函数 y = f(x)建模,并试图将佢拟合到一个数据集 {(x, y)}。为‌测量外部可变性,我哋希望直观嘅知道我哋需要改变几多 f(x) 嚟使模型适应数据集嘅变化。我哋可以通过考虑两种截然不同嘅预测模型嚟进一步认识呢一点——k 最近邻同基于物理嘅模拟嚟计算核塌超新星中作为其质量函数嘅最大压力。第一种模型可以灵活地适用于任何函数 y = f(x),而第二种模型则是为特定用途量身定制嘅。另一个高度灵活模型嘅例子是基于优化器嘅神经网络(在畀定数据集嘅情况下做出预测,神经网络得先在数据上拟合)。

    为‌进行量化,我哋必须有一种方法嚟量化模型中嘅变化,以适应新嘅数据集。算法信息理论可以帮助解决这两个问题。畀定一个图灵机同数据集 D1, D1 中嘅算法信息,都称为 Kolmogorov 复杂度,是用我哋选择嘅特定图灵机复制 D1 嘅最短程序嘅比特串 s1 嘅长度。记为 H(D1) = length(s1)。而家假设我哋有一个在不同数据集 DAI 上训练过嘅人工智能算法 sAI,我哋希望测量佢需要改变几多才能在 D2 上工作得最优。s1 同 sAI 之间嘅相对算法信息,记为 H(s1|sAI)是畀定 sAI 复制 s1 嘅最短嘅改变算法嘅长度。因此,佢是一种使 sAI 在 D2 上发挥最优作用所需嘅变化量嘅测量方法。不幸嘅系,呢种复杂性是无办法计算嘅。但係,我哋可以利用呢个复杂性嘅近似值,而唔系试图揾到复制 D2 嘅最优程序。我哋指定一个精度边际(尽可能多地列举所有可能性),然后,喺我哋设定嘅范围内寻找重现 D2 所需嘅 sAI 长度嘅最小变化。注意,我哋不关心 sAI 有多大,只关心佢需要改变几多嚟适应新嘅数据 DAI。因此,呢种 “HTV” 性嘅概念同 “奥卡姆剃刀” 是不同嘅。我哋仲未有指定点样设置 DAI (AI 设计嘅初始数据集)同 D2。显然,呢啲数据集唔可以随机生成。无免费午餐定理说明所有算法在对每个可能嘅问题平均时都系等价嘅。因此,当试图从一个随机选择嘅数据集推断到另一个数据集时,所有算法都将处于平等嘅基础上。我哋所处嘅情况同 Chollet 试图严格定义智力时所面临嘅情况非常相似。Chollet 嘅解决方案是将问题空间限制为一组人类可以解决嘅问题。乔列指出,自然世界符合一系列非常基本嘅先验,如客体性(存在不同嘅对象)、基本物理学、主体性(存在有目标嘅主体)、数字同算术、基本几何同拓扑。我哋同样可以断言 D1 同 D2 嘅生成必须符合一组先验规则。或者更简单一点,我哋可以说 D1 同 D2 是由物理现象产生嘅。这充分限制‌问题 / 数据空间,使外推变得可行。

    点样等模型学习到 HTV 解

    AI嘅哲学系思考—认知不变性同AI

    • 论文地址:https://arxiv.org/pdf/2009.00329.pdf

    • Code: 链接

    前面较为表面地论述‌ HTV 同 AI 嘅关系,为‌等 HTV 真正对 AI 算法产生效果,仲有好多细节需要确定,比如说 HTV 可以解决 AI 嘅具体乜嘢问题,点样解决等等。LEARNING EXPLANATIONS THAT ARE HARD TO VARY 畀出‌一个好好地尝试,佢首先清楚地定义‌在 AI 中 HTV 可以帮助解决嘅问题(如图 2 所示):

    AI嘅哲学系思考—认知不变性同AI

    图 2:HTV 对应 AI 中嘅问题 [7]

    呢个问题简单嚟讲就是当数据分布变化时,最优解可能会发生变化,从而都就失去‌不变性。为‌验证呢一点,作者特意生成‌两组数据,然后按照传统嘅训练方法在不同嘅初始化参数(白色圆圈)下获得‌两个局部最优解(星星),但是当这两组数据分开训练嘅时候,由于生成数据嘅特殊性,两组数据嘅损失曲面会在一条线(左下嘅图是一条竖线,右下图是一条横线)上达到最小值,噉么呢一条线上嘅所有啲都系局部最优解,会产生好多好多个局部最优解,呢种情况下基本就好难在揾到最上面图右上角嘅嗰个最优解嘎啦,除非初始化嘅参数正好等佢哋得到‌ (0.8,0.8) 呢个最优解(概率几乎为 0,相当于 1/*∞*)。

    在呢个例子入面,显然下面两张图中左下角嘅解符合 HTV 嘅原则,而第啲嘅解都极其易于变化,而当数据变多时,呢啲极易变化嘅解大多数都不在有用嘎啦。作者都用‌一个更加现实主义嘅例子解释‌ HTV 在 AI 中到底需要实现乜嘢效果(如图 3 所示):

    AI嘅哲学系思考—认知不变性同AI

    图 3:HTV 可以解决乜嘢[7]

    图 3 展示‌两种笔记,左边嗰种笔记好难用再第啲嘅棋谱上(如果棋谱尺寸变化,就不再有用‌),但是右图嘅笔记是可以嘅。比如如果有第三本棋谱,棋谱嘅大小比例跟图 3 中嘅棋谱完全不同,这时出现咗跟左图中类似嘅场景,用箭头就好可能会出错。想象一个比图 3 大一倍嘅棋谱,噉箭头指向嘅位置可能正好比原嚟少一半嘅格子,而用符号描述嘅方法就不存在呢种问题。

    上面嘅例子都从侧面论证‌ HTV 嘅重要性,图示类嘅笔记好容易改变,如果箭头弯一下或者棋谱变一下都会产生问题,而用文字嘅表述时,想要表达每一步棋嘅方法是确定嘅,都就更易于广泛地推广到更多嘅棋谱。因此,作者希望揾到类似于右图嘅笔记作为最优解。

    为认识决呢个问题,作者提出‌一种 AND mask,呢种 mask 唔系 mask 输入,而系对梯度进行 mask。作者先将数据分成多份,每一份被认定为一个环境中产生嘅数据(类似于平时训练时嘅 batch),喺正常嘅训练度,我哋会对每个 batch 进行类似于 average 嘅操作,咁样就会导致图 4 所示嘅问题,Batch A 同 Batch B 嘅梯度方向完全不一致,但最终佢哋嘅影响都被保留嘎啦。

    AI嘅哲学系思考—认知不变性同AI

    图 4:非一致性[7]

    为‌确认边啲梯度要被 mask,对于每个环境(batch)下得到嘅参数θ,作者在参数θ嘅情况下对每个环境(下式中嘅 e,都就是 batch)嘅损失函数进行比较从而得到呢个参数 ILC(Invariant Learning Consistency, 学习嘅一致性)。简单嚟讲,就是只保留嗰啲被更多数据认可嘅梯度方向,作者提到嘅 geometric average 都是为‌表达呢个意思。

    AI嘅哲学系思考—认知不变性同AI

    除咗前面提到嘅具体解决方案(AND mask)外,文中都提纲挈领嘅提出‌几个导致训练结果唔可以 HTV 嘅常见问题(有啲其实已经被解决‌):

    • 没揾到最优解就停止‌训练。既然没揾到最优解,噉么更别说揾到 HTV 解嘎啦。

    • 梯度聚合方式。如果在训练嘅时候,信号是独立学习嘅(batch),噉么呢啲信号嘅聚合方式就好重要嘎啦,合理嘅聚合方式才能保证所有信息不被丢失。如前文(图 4)所示,我哋常用嘅 average 在好多情况下会丢失重要嘅信息,比如图 4 中向左嘅信息就被丢失嘎啦,如果更多嘅 batch 希望向左,但是值却好小,噉么 average 下仲是向右,但是更 general 嘅方案显然系向左。

    最后作者在自己生成嘅数据上验证‌自己嘅想法,都在 CIFAR 10 上确定‌自己嘅方式有一定嘅优势,虽然所有嘅实验对比都系在一定嘅限制下嘅,但是本文提出嘅思路,以及将 HTV 嵌入到 AI 中嘅思路,都好值得学习。

    总结

    对于 HTV 性,如果将嚟可以将呢一性质定量嘅加入到模型嘅损失函数中去,噉么可以预见嘅,AGI 将离人类更进一步。当然,本文全篇嘅假设仲是基于如果 AI 嘅学习对象仲是人脑,如果 AI 研究过程中能够发现一啲跟人脑功能无关,但是依然有效嘅算法,都未尝不可。总而言之,为‌实现 DARPA 所说嘅第三波 AI 甚至更高级嘅 AI,我哋需要发现一种更综合嘅 loss 嚟完成我哋预期嘅任务。

    参考文献

    [1] Elton, D. (2021). Applying Deutsch’s concept of good explanations to artificial intelligence and neuroscience – An initial exploration. Cognitive Systems Research, 67, 9–17.

    [2] Lesia Semenova and Cynthia Rudin (2019). A study in Rashomon curves and volumes: A new perspective on generalization and model simplicity in machine learning. CoRR, abs/1908.01755.

    [3] Giambattista Parascandolo, Alexander Neitz, Antonio Orvieto, Luigi Gresele, & Bernhard Schölkopf. (2020). Learning explanations that are hard to vary.

    [4]Deutsch, David (October 2009). A new way to explain explanation ( 链接). TED talk. Also available from YouTube ( 链接).

    [5] Wiki for Explanatory power. Available at: 链接

    [6]Nakkiran, Preetum, et al. “Deep double descent: Where bigger models and more data hurt.” arXiv preprint arXiv:1912.02292 (2019).

    [7]Giambattista Parascandolo, Alexander Neitz, Antonio Orvieto, Luigi Gresele, & Bernhard Schölkopf. (2020). Learning explanations that are hard to vary.

    [8] In Memory of Leo Breiman. Available at: 链接

    cantonese.live 足跡 粵字翻譯

    2021-03-22 15:06:45

  • 0
  • 0
  • 0
  • 164
  • 请登录之后再进行评论

    登录
  • 任务
  • 发布
  • 偏好设置
  • 单栏布局 侧栏位置: