• 欢迎访问热点图书网

联邦学习-电子书下载

人文社科 2022年7月14日

简介

如何在保证本地训练数据不公开的前提下,实现多个数据拥有者协同训练一个共享的机器学习模型?传统的机器学习方法需要将所有的数据集中到一个地方(例如,数据中心),然后进行机器学习模型的训练。但这种基于集中数据的做法无疑会严重侵害用户隐私和数据安全。如今,世界上越来越多的人开始强烈要求科技公司必须根据用户隐私法律法规妥善地处理用户的数据,欧盟的《通用数据保护条例》是一个很好的例子。在本书中,我们将描述联邦学习(亦称联邦机器学习)如何将分布式机器学习、密码学、基于金融规则的激励机制和博弈论结合起来,以解决分散数据的使用问题。我们会介绍不同种类的面向隐私保护的机器学习解决方案以及技术背景,并描述一些典型的实际问题解决案例。我们还会进一步论述联邦学习将成为下一代机器学习的基础,可以满足技术和社会需求并促进面向安全的人工智能的开发和应用。

作者介绍

杨强
杨强教授是微众银行的首席人工智能官(CAIO)和香港科技大学(HKUST)计算机科学与工程系讲席教授。他是香港科技大学计算机科学与工程系的前任系主任,并曾担任大数据研究院的创始主任(2015-2018 年)。他的研究兴趣包括人工智能、机器学习和数据挖掘,特别是迁移学习、自动规划、联邦学习和基于案例的推理。他是多个国际协会的会士(Fellow),包括ACM、AAAI、IEEE、IAPR 和AAAS。他于1982 年获得北京大学天体物理学学士学位,分别于1987年和1989 年获得马里兰大学帕克分校计算机科学系硕士学位和博士学位。他曾在在滑铁卢大学(1989-1995 年)和西蒙弗雷泽大学(1995-2001 年)担任教授。他是ACM TIST 和IEEE TBD 的创始主编。他是国际人工智能联合会议(IJCAI)的理事长(2017-2019 年)和人工智能发展协会(AAAI)的执行委员会成员(2016-2020 年)。杨强教授曾获多个奖项,包括2004/2005 ACM KDDCUP 冠军、ACM SIGKDD 卓越服务奖(2017)、AAAI 创新人工智能应用奖(2018, 2020)和吴文俊人工智能杰出贡献奖(2019)。他是华为诺亚方舟实验室的创始主任(2012-2014 年)和第四范式(AI 平台公司)的共同创始人。他是Intelligent Planning (Springer)、Crafting Your Research Future (Morgan & Claypool)、Transfer Learning (Cambridge UniversityPress)与Constraint-based Design Recovery for Software Engineering (Springer)等著作的作者。

部分摘录:
在过去几年里,我们见证了机器学习(Machine Learning,ML)在人工智能(Artificial Intelligence,AI)应用领域中的迅猛发展,例如计算机视觉、自动语音识别、自然语言处理以及推荐系统等[4-6]。这些机器学习技术的成功,尤其是深度学习,无一不是建立在大量的数据(亦称大数据)基础之上的[4,5,7]。通过使用这些大数据,深度学习系统能够在许多领域执行人类难以完成的任务。例如,由数百万张图像训练得到的深度学习人脸识别系统,能够达到应用领域所需级别的人脸识别准确度。这些系统的训练都需要很大的数据量才能达到一个令人满意的性能水平,例如Facebook公司的目标检测系统是由来自Instagram的3.5亿张图像训练得到的[8]。
一般而言,训练人工智能应用模型所需要的数据量都是非常庞大的。然而,在许多应用领域,人们发现满足这样规模的数据量是难以甚至无法达到的。事实上,我们能够获得的通常都是“小数据”,即这些数据要么规模较小,要么缺少标签或者部分特征数值等重要信息。为了得到合适的数据标签(label),通常需要该领域专家付诸大量的工作。例如,对于医疗图像分析,医生们常被雇用来为患者的器官扫描图像提供专业诊断,这一过程无疑是枯燥且十分费时的。因此,高质量、大数量的训练数据通常是很难获得的,我们不得不面对难以桥接的数据孤岛。
随着社会的不断发展,现代社会正在逐渐意识到数据所有权的重要性,即什么人或者组织能拥有和使用数据建立人工智能技术应用的权力。在一个人工智能驱动的产品推荐服务中,服务的拥有者一般会要求获取产品数据和购买记录数据的拥有权,但关于用户购买行为和支付习惯的数据拥有权是不明确的。由于数据是由不同组织的不同部门产生并拥有的,传统的方法是收集数据并传输至一个中心点(例如,一个数据中心),这个中心点拥有高性能的计算集群并且能够训练和建立机器学习模型。然而,这种方法近来已经不再有效或适用了。
随着人工智能在各行各业的应用落地,人们对于用户隐私和数据保安全的关注度也在不断提高。用户开始更加关注他们的隐私信息是否未经自己许可,便被他人出于商业或者政治目的而利用,甚至滥用。最近有许多互联网企业由于泄露用户数据给商业机构而被重罚。此外,垃圾邮件制作者和不法的数据交易也常常被曝光和处罚。
在法律层面,法规制定者和监管机构正在考虑出台新的法律来规范数据的管理和使用。一个典型的例子便是2018年欧盟开始执行的《通用数据保护条例》(General Data Protection Regulation,GDPR)[9]。在美国,《加利福尼亚州消费者隐私法》(California Consumer Privacy Act,CCPA)于2020年1月在加利福尼亚州正式生效[10]。此外,中国的《中华人民共和国民法通则》以及2017年开始实施的《中华人民共和国网络安全法》同样对数据的收集和处理提出了严格的约束和控制要求。附录A将会给出更多关于这些新的数据保护法律和法规的信息。
在这样的法律环境下,随着时间的推移,我们在不同组织间收集和分享数据将会变得越来越困难。更加重要的是,某些高度敏感的数据(例如,金融交易数据和医疗健康数据等)的拥有者也会极力反对无限制地计算和使用这些数据。在这种情况下,数据拥有者只允许这些数据保存在自己手中,进而会形成各自孤立的数据孤岛[1]。由于行业竞争、用户隐私、数据安全和复杂的管理规程等,甚至在同一家公司的不同部门之间,数据整合都会遇到很大的阻力。与此同时,高昂的成本也导致在不同机构之间聚合分散的数据显得十分困难[11]。现在看来,以往的隐私侵入方式的数据收集和共享方法已经属于非法行为,所以未来在不同组织之间进行数据的整合工作将是十分有挑战性的。
如何在遵守更加严格的、新的隐私保护条例的前提下,解决数据碎片化和数据隔离的问题,是当前人工智能研究者和实践者面临的首要挑战。倘若不能很好地解决这个问题,将会很可能导致新一轮的人工智能的寒冬[1]。
人工智能产业面临数据困境的另一个原因是,各方协同分享处理大数据的益处并不明显。假设有两个组织试图将各自的医学数据联合起来,协同训练一个联合机器学习模型。对于从一个组织向另一个组织传输数据,传统方法将会导致数据的原始拥有者失去对自己数据的掌控。而一旦数据不在自己手中,其利用价值便会大幅减小。而且,虽然将数据整合起来训练得到的模型性能会更好,但是整合带来的性能增益是如何在参与方中分配的也不能完全确定。人们对于数据失去掌控的担忧,以及对于增益分配效果的不透明,加剧了所谓数据碎片化和孤岛分布的严重性。
随着物联网和边缘计算的兴起,大数据往往不会拘泥于单一的整体,而是分布在许多方面。例如,人们不能期望拍摄地球影像的卫星可以将所有数据传输回地面数据中心,因为这样所需的传输带宽太大。同样,对于自动驾驶汽车,每辆汽车必须能够在本地使用机器学习模型处理大量信息,同时需要在全球范围内与其他汽车和计算中心协同工作。如何安全且有效地实现模型在多个地点间的更新和共享,是当前各类计算方法所面临的新挑战。

下载地址

下载