推广 热搜： 免费网赚论坛中国网赚网赚qq群福缘网赚如何网赚网赚博客酷我网赚在家上网赚钱外国网赚网赚任务平台

机器学习内部-杜克大学教授吹捧“联邦”方法的潜力

日期：2024-04-26 07:33:19 来源：http://www.900614.com/ 作者：小编浏览：128

编者注:这篇来自杜克大学福库商学院的文章是我的第二篇文章关于机器学习的未来在WRAL TechWire的定期“深度潜水”专题中。本月早些时候第n次深度潜水采访了北卡罗来纳大学的凯南研究所:“我们能在机器学习中实现公平吗?北卡罗来纳大学的研究人员有了新的方法。”

+++

杜伦——杜克大学福库商学院副教授徐嘉明表示，联邦学习是一种有望改变人工智能(AI)系统训练的新方法。

徐说考虑联合学习，考虑章鱼。它有九个大脑。甜甜圈形状的中央大脑占据了它的头部，但每根触手的底部都有一个迷你大脑。它们合起来占了章鱼思维能力的三分之二。这种八只手的头足类动物的智力是分布的。每条手臂都做出独立的决定，并与主大脑交换信息。大的大脑并不总是知道触角在做什么，但来回的运动训练了每条肢体更有效地工作。

徐说:“联邦学习是一个非常新的概念，其基础理论在未来肯定会非常重要。”

徐是联邦学习:统计最优性和可证明安全性的国家科学基金会职业奖的获得者。

据徐介绍，传统的计算机学习(也称为机器学习)要求所有数据集中在一个数据中心。相反，联合学习，也称为协作学习，使用从分散来源接收的输入来训练中心模型的算法。在联邦学习中，边缘设备发挥着关键作用。这些是任何数据收集工具，如智能手机、气候传感器、半自动汽车、卫星、银行欺诈检测系统和医疗可穿戴设备，所有这些都可以远程共享它们的数据，以根据需要重复循环训练中央学习模型。

徐说，联邦学习之所以对科学家、医生和公司如此有吸引力，是因为数据本身从未真正离开边缘设备。由于HIPAA(健康保险可携性与责任法案)等隐私法律的存在，以及黑客攻击的威胁，这对一系列行业，尤其是医疗保健行业具有巨大的吸引力。

像徐这样的研究人员还指出，联合学习还有其他好处——它需要更少的通信和电力，在设备空闲时发生，并且可以立即投入使用。他说，现在只是在寻找实际应用的早期阶段，因为手机和类似设备的计算能力比过去要强大得多。

徐说，尽管如此，联合学习不会是一个完美的解决方案。当服务器和边缘设备通信时，黑客攻击的可能性仍然存在。徐说，窃听者仍然有可能根据发送的参数推断出私人数据。

为了帮助找到隐私解决方案，Xu开发了查询策略和分析技术，这些策略和分析技术可以作为联邦学习的防盗框架的一部分。他在第24届国际人工智能与统计会议上发表的《IEEE信息论学报》和《针对窃听的私有顺序学习的最优查询复杂性》两篇论文中分享了他的发现。这两本书的合著者是斯坦福大学商学院运营、信息和技术副教授徐匡(Kuang Xu)和康奈尔大学统计和数据科学助理教授达纳·杨(Dana Yang)。

他说:“现在正在进行大量关于联合学习的研究。”“企业正在对此进行调查，但在这些系统付诸实践之前，还必须消除许多障碍。”

挫败邪恶的窃听者

徐说，当谷歌创造“联合学习”这个术语时，它并不是一个全新的概念。为了加快人工智能训练的速度，公司已经开始在计算机服务器上分摊计算负荷。

根据徐的说法，联邦学习将其提升到了另一个层次。它的工作原理是这样的:一开始，应用程序在中央服务器上的本地副本存在于所有边缘设备上。随着时间的推移，每个设备都有了经验，自我训练，变得更智能。在指定的时刻，当被中央服务器查询时，设备将它们的训练结果(而不是原始数据本身)传输到服务器。它对结果进行平均和汇总，并自我更新。然后，用户下载用自己的数据创建的更新、更智能的版本，并在需要时重复这个循环。简而言之，联合训练将学习带到远程设备，并将电子邮件、照片、财务和健康数据等敏感信息安全保存在收集位置。

在他关于最优查询复杂性的论文中，Xu和他的合著者考虑了恶意窃听的可能性。

作者写道:“因为学习者(中央计算机)必须经常与数据所有者(边缘设备)进行交流，以便进行分析，他们的查询可能会被第三方对手窃听。”“反过来，对手可以使用观察到的查询来重建学习到的模型，从而允许他们以学习者的代价搭便车，或者更糟的是，利用这些信息来进行未来的破坏。”

Xu和他的合著者面临的问题是如何阻止第三方看到边缘设备的响应。

徐说:“我们开发了一种策略，可以让你尽快查询到一个数字，同时又不会向对手泄露信息。”“这使得它无法准确地定位回复中信息的真实价值。”

许和他的合作者设想了一个私人的顺序学习问题——用外行人的话来说，一个猜谜游戏——使用二分搜索模型。甲方要求乙方在0.0到1.0之间猜一个数字。乙方回答:“是否大于0.3?”甲方说:“是的，数字在0.3到1.0之间。”然后，乙方通过问:“这个数字在0.3到0.4之间吗?”来缩小正确答案的范围。但与此同时，在徐提出的解决方案中，乙方也提出了一大堆其他问题，如“数字是否在0.4和0.5之间?”“这个数字在0.6和0.7之间吗?”等等。因此，窃听者将无法分辨出是哪个问题将提问者引向正确答案。

为了理解它是如何运作的，徐提出了一个类比，一个石油公司打了很多井，只打了一口就发现了石油，并且想阻止其他公司知道它已经这样做了。

“为了迷惑你的竞争对手，他们会看到你打了很多井，但不知道哪一口是成功的，”徐说。

这个学习问题游戏有一个额外的问题。除了制造烟幕，徐和他的合著者还有另一个同样重要的目标——他们希望训练需要尽可能少的查询。

“在联邦学习中，通信带宽是一种稀缺资源。因此，有效使用查询是至关重要的，”徐和他的合著者写道。“在二元搜索模型下，研究准确性、隐私性和查询复杂性之间的权衡可以为联邦学习中的算法设计提供有价值的见解。”

一个重要的发现是，查询过程中最需要隐私保护的部分发生在学习者获得合理准确的猜测之后。这样，将最优查询过程分为两个阶段。首先，在纯学习阶段，主要目标是将搜索范围缩小到包含真实数字的较小区间。在这一点上，隐私不是最重要的。然后，在私有细化阶段，学习器在区间内缩小猜测范围，并为混淆分配更多的查询。

如何“最佳地模糊”学习器的查询也构成了学习者私有凸优化的主题。本文使用一种称为凸优化的现实问题解决技术寻求解决方案。这种数学方法决定了如何在面对相互冲突的需求时做出最优选择，是联邦学习中经常使用的框架。

这类似于猜谜游戏的例子，但现在的关键是构造许多间隔，这些间隔足够远，但从窃听者的角度来看，它们同样可能包含最优选择。这些区间中只有一个包含真正的最优选择，而在每个其他区间中，学习者随机生成一个假代理。这样，窃听者就无法从众多虚假代理中区分出真正的最优选择。

徐和他的合著者用自动驾驶的例子解释了私人凸优化如何使公司受益。“目标是保护旗舰制造商(学习器)的隐私免受竞争公司(窃听对手)的模型窃取攻击。自动驾驶算法的规避风险性质迫使攻击者确保被盗模型在所有情况下都能可靠地运行....如果没有最坏情况的保证，对手就无法对窃取的模型采取行动……[并且]策略使对手无能为力，”他们写道。与最优查询优化论文中一样，结果是一样的——私有数据得到了保护——但实现目标的数学策略不同。

跨设备困境

有两种类型的联合学习——跨设备和跨竖井。跨设备学习最有可能发生在消费设备上，并且可能涉及数百万用户。跨筒仓的参与者通常要少得多，每个参与者都有大量数据，比如金融机构或制药公司。

一个通用的模式可能在跨部门的情况下工作得很好，但当它涉及数百万智能手机时，就很难实施了，每个智能手机的用户都有不同的习惯。Gboard就是一个例子。这款Android键盘使用联合学习来预测搜索和写消息时要输入的下一个单词。手机可以学习新的短语和单词，存储信息及其上下文，并将其用于联合训练。

但据徐说，有一个问题与个性化有关。

“你键入特定单词的习惯可能与我键入的方式不同。如果你只是为每个人训练一个通用的模型，它可能不会对每个人都有效。”“你想让这个模型对所有个人用户都是可预测的。”

如何将用户划分到适当的训练组是第36届神经信息处理系统会议上提交的一篇论文“混合回归的联邦学习的全球收敛”的主题。徐与东北大学电子与计算机工程助理教授苏丽丽以及清华大学统计科学中心助理教授杨鹏坤共同撰写了这份报告。

为了解决这个问题，他们求助于一种叫做集群的概念。它假定并非每个客户都是相同的(例如，有些汽车总是在下雪时行驶，而另一些总是在下雨时行驶)，并且可以根据这些特征(在下雪或下雨时行驶的汽车)划分为确定数量的组。服务器不知道一辆特定的汽车应该进入哪一组，但它必须训练各种模型来面对这种不确定性。

“这是一个先有鸡还是先有蛋的问题，”徐说。“如果你知道真正的组划分——哪个客户属于哪个组——那么你就可以为每个组训练单独的模型。这里的挑战在于，一开始你不知道每个人和群体的真实本性。”

为了摆脱这种困境，Xu和他的合著者设计了一种新的算法方法，允许服务器估计一个人应该进入哪个组，然后相应地为该组训练一个联合学习模型。

徐认为，公司现在需要关注联合学习的含义。

徐说:“如果你的公司不投资于隐私保护技术，那么客户可能会转向投资于隐私保护技术的竞争对手。”“在接下来的10年里，你将越来越难以使用自己的内部隐私技术，因为你可能不再能够收集数据用于自己的内部机器学习。你可能会因此失去很多商业机会。”

注:本文最初发布于:https://www.fuqua.duke.edu/duke-fuqua-insights/will-federated-learning-revolutionize-ai-training

文章链接：http://900614.com/news/show-89481.html 内容来源:

更多>同类资讯

推荐图文

推荐资讯

点击排行

• 北京二日游值得去的地方(北京二日游跟团价格)	• 北京旅游景点分布图片(北京旅游景点排名前十图
• 冰峪沟门票多少钱一位(庄河冰峪沟门票多少钱一	• 北京新发地长途客运站时刻表(北京新发地长途客
• 北海必去8个景点(不由不由让我想起一堆好吃的)	• 八大处公园门票预约(八大处公园门票预约当天)
• 呼伦贝尔大草原几月份去最美(呼伦贝尔大草原几	• 国内十大旅行社排名(国内十大旅行社排名电话号)
• 四川旅游必去景点(九寨沟门票预约)	• 吉林省地图高清版大图(吉林省地图高清版大图简