自从三年前第一篇研究这项技术对环境影响的论文发表以来,在研究人员中兴起了一种运动,即自我报告他们工作中产生的能源消耗和排放。拥有准确的数字是做出改变的重要一步,但实际上收集这些数字可能是一个挑战。
西雅图艾伦人工智能研究所(Allen Institute for AI)的研究科学家杰西·道奇(Jesse Dodge)说:“你无法改善无法衡量的东西。”“如果我们想在减排方面取得进展,第一步就是我们必须有一个好的衡量标准。”
为此,艾伦研究所(Allen Institute)最近与微软(Microsoft)、人工智能公司拥抱脸(hug Face)以及三所大学合作,开发了一个工具,可以衡量运行在微软云服务Azure上的任何机器学习程序的用电量。有了它,构建新模型的Azure用户可以查看图形处理单元(gpu)——专门用于并行运行计算的计算机芯片——在项目的每个阶段(从选择模型到训练模型并将其投入使用)所消耗的总电量。它是第一个向用户提供机器学习程序对能源影响的信息的主要云供应商。
虽然已经有工具可以测量运行在本地服务器上的机器学习算法的能源使用和排放,但当研究人员使用微软、亚马逊和谷歌等公司提供的云服务时,这些工具就不起作用了。这些服务不能让用户直接看到他们的活动消耗的GPU、CPU和内存资源,而现有的工具,如Carbontracker、Experiment Tracker、EnergyVis和CodeCarbon,需要这些值来提供准确的估计。
新的Azure工具于去年10月推出,目前报告的是能源使用情况,而不是排放量。因此,道奇和其他研究人员想出了如何绘制能源使用与排放的地图,并在6月底的一个大型计算机科学会议FAccT上就这项工作发表了一篇相关论文。研究人员使用了一种名为Watttime的服务,根据运行11个机器学习模型的云服务器的邮政编码来估计排放量。
他们发现,如果研究人员在特定的地理位置和特定的时间使用服务器,排放可以显著减少。如果训练在电网上有更多可再生电力可用的时候开始,训练小型机器学习模型的排放可以减少80%以上,而如果训练工作在可再生电力稀缺时暂停,在可再生电力更充足时重新启动,大型模型的排放可以减少20%以上。