简介
“图灵奖”得主、“深度学习三巨头”之一、“卷积神经网络之父”……由于在人工智能领域的突出贡献,杨立昆被中国计算机科学界和企业界所熟知。 杨立昆的科学之路,谱写了一段关于勇气的宣言。他为了知识本身求学,而不是文凭,他用自己的经历,证明了通过激烈的考试竞争进入名校不是科学成功的窄门。他广泛阅读,为他科学思维的形成奠定了坚实的理论基础。他特立独行,做自己感兴趣的事情,即便那件事在短时间里不被人看好。在人工神经网络研究的低谷期,他寂寞地坚持,终于取得了举世瞩目的成就。 人工智能正在颠覆人类社会,未来机器能思考吗?杨立昆的这部著作,讲述正是人工智能在我们面前崛起——这个历史上绝无仅有的时刻发生的故事。
作者介绍
杨立昆是法国人,名字原文为Yann;Le;Cun,姓氏为Le;Cun,因在美国常被误缩写为Y.L.Cun,于是把LeCun合写在一起。中文译名原为扬•勒丘恩,华人AI圈一直亲切地称他为“杨乐康”,他本人听闻后,干脆自己给自己取了中文名字——杨立昆。
他被誉为;“卷积神经网络之父”,2019年3月,因在人工智能深度学习方面的贡献获得2018年度图灵奖。此外,他还获得了2014年IEEE神经网络先锋奖(Neural;Network;Pioneer;Award)、2015;年;IEEE;PAMI;杰出研究奖和2016;年;Lovie;终身成就奖。
他为卷积神经网络(CNN,Convolutional;Neural;Networks)和图像识别领域做出了重要贡献,以手写字体识别、图像压缩和人工智能硬件等主题发表过190多份论文,研发了很多关于深度学习的项目,并且拥有14项相关的美国专利。研究领域包括人工智能、机器学习、机器感知、移动机器人学和计算神经学。
部分摘录:
我职业生涯真正意义上的转折点出现在1985年2月,在阿尔卑斯山莱苏什举行的研讨会上。在那次会议上,我遇到了当时世界上对神经网络感兴趣的顶级专家,他们有物理学家、工程师、数学家、神经生物学家、心理学家,尤其是遇到了在科学界宛如神话一般的贝尔实验室里一个新成立的研究神经网络的小组成员。得益于在莱苏什的相识,三年后,我被该小组聘用。
这次研讨会是由我所在的法国研究小组LDR的成员组织的,他们是弗朗索瓦丝和她当时的丈夫热拉尔·韦斯布赫(Gérard Weisbuch),后者时任巴黎高等师范学院的物理学教授,以及当时在法国国家科学研究中心(CNRS)任职的理论神经生物学家埃利·比嫩斯托克(Élie Bienenstock)。会议汇聚了许多对“自旋玻璃”感兴趣的物理学家,以及物理学和神经科学等领域的权威人士。
自旋是基本粒子和原子的特性。此特性可将它们同化为向上或向下的小磁体,这两个状态可以与人工神经元的两个状态进行类比:激活或者非激活。它们遵守相同的规则。自旋玻璃是一种晶体,其中的杂质原子充斥着自旋,每个自旋依据耦合权重与其他原子自旋交互。如果权重为正,则它们倾向于在同一方向上对齐;如果权重为负,则它们倾向于相反的方向。我们将向上自旋赋值为+1,将向下自旋赋值为–1。每个杂质原子的自旋方向取决于相邻杂质原子的加权和。换句话说,确定自旋方向的函数类似于确定神经元处于激活或非激活状态的函数。约翰·霍普菲尔德那篇关于自旋玻璃和神经网络的开创性文章[1],引得许多物理学家开始关注并学习人工神经网络,但当时仍有许多工程师和计算机科学家不愿谈及这个话题。
在莱苏什,我是年龄最小的与会者之一,我当时刚开始着手写博士论文。令我无比紧张的是,我需要在众多享誉业界的大咖面前,用英语做一个关于多层网络和HLM算法(反向传播的前部研究)的英文报告。
尤其有两位听众给了我巨大的压力:一位是贝尔实验室的部门负责人拉里·杰克尔(Larry Jackel),后来我很荣幸地加入了他的部门;另一位是该部门的二号人物约翰·登克尔(John Denker),他是一位来自亚利桑那州的真正牛仔,身穿牛仔裤和牛仔靴,有着垂到脸颊的头发……这位刚刚完成博士论文的“非典型研究人员”拥有令人难以置信的强大气场!当某位研究者发言之后,他能够很快就议题展开讨论,表明自己的观点。他谈话时虽没有攻击性,却掷地有声,有理有据。当然他的自信也是有缘由的,弗朗索瓦丝·福热尔曼曾说:“贝尔实验室的研究人员有着巨大的优越感。当你要研究某个课题时就会发现,要么贝尔实验室早在10年前就已经研究过了,要么已经证明这条路行不通了。”简直太可怕了!
我做完了关于多层网络和HLM算法的报告,与会者中真正听懂的人寥寥无几(这已经让我够紧张了!),然后,约翰·登克尔举起了手,我简直紧张到窒息!但他在所有听众面前对我说:“讲得真的很好!谢谢您,让我知道了很多事情……”我确信我的名字已经留在他和拉里·杰克尔的脑海中。一年后,他们邀请我去他们的实验室做报告。两年之后,我接受了贝尔实验室的面试。三年后,我正式加入了他们的团队!
同样是在莱苏什,我碰到了特伦斯·谢诺夫斯基,也就是与杰弗里·辛顿共同发表关于玻尔兹曼机的文章的作者。他是在我完成报告后到场的。我在下午的茶点时间找到了他,向他阐述了我在多层神经网络方面的工作。在交流之前,我并不确定他是否会感兴趣。他只是耐心地听着,并没有告诉我他与杰弗里·辛顿也在进行反向传播研究,也没有告诉我,辛顿已经成功实现反向传播,只不过没有对外公布而已。
伟大的发明之间能够相互启发。辛顿的研究就使用到了加利福尼亚大学圣迭戈分校的戴夫·鲁梅尔哈特的思路,辛顿在之前的几年里曾跟随戴夫读博士后。1982年,戴夫提出这个方法并编写了程序,只可惜没能成功运行。他找到辛顿,辛顿说:“失败的原因出在了局部一些极为细微的问题上。”(参见第四章“多个谷底的困扰”)后来,戴夫放弃了。但是,在研究玻尔兹曼机的过程中,辛顿意识到问题并没有自己当初想象的那么严重。因此,他用LISP语言在Symbolics公司的LISP机器上用戴夫的方法重新编写了程序,这一次程序成功运行起来。
因此,在我们交流的过程中,特伦斯很快注意到我的HLM方法和反向传播非常相似。他没有告诉我,在反向传播成功后,他已经在研究此后几个月将会风行一时的实际应用了。特伦斯回到美国后向辛顿提到了我:“法国有个孩子在进行跟我们同样的研究!”
同年春天,我写了第一篇关于自己研究成果的文章(我承认,这篇文章离科学文献的标准有点远),并在1985年6月举办的Cognitiva大会上将其公开,那是法国第一次召开集合了人工智能、神经网络、认知科学和神经科学的综合性大会。杰弗里·辛顿是当时的主讲嘉宾,他在开幕辞上介绍了玻尔兹曼机。结束后,将近50个人聚集在他的周围,我也想上前交流,但并没有机会靠近他。随后,我注意到他转向其中一位会议组织者丹尼尔·安德勒(Daniel Andler),并问道:“你认识一个叫杨立昆的人吗?”丹尼尔开始四处观望,我立马大喊道:“我在这儿。”其实,辛顿已经在会议论文集上看到了我的文章,虽然他不精通法语,但依然看懂了文章的内容,他意识到我就是特伦斯提过的那个“孩子”。
我们在第二天碰了面,并一起在一家古斯古斯(来自北非马格里布地区的美食)餐厅吃了午饭。他向我解释了反向传播的原理,他知道我能听懂!辛顿说自己正在写一篇文章,其中引用了我的研究成果,我听后非常自豪。我俩很快意识到,我们的兴趣、方法以及思路都十分相似。辛顿邀请我参加1986年在卡内基·梅隆大学举办的关于联结主义模型的暑期培训班,我欣然接受。当时在认知科学界,研究者通常用“联结主义模型”这个术语来称呼神经网络这个未知领域。