首页 前沿科技正文

谷歌在数据中心使用机器学习来提高效率

前沿科技 2019-12-03 15:33:13

我们能降多低?这对谷歌这样的公司来说是个大问题,因为它需要仔细考虑数据中心的能源使用情况,而数据中心是谷歌整个业务的支柱。谷歌积极寻求更有效利用能源的方法。事实上,谷歌并不羞于谈论它为自己的努力感到多么自豪。谷歌在5月28日的一篇博客文章中说,十多年来,他们一直在设计和建造能耗只有一般数据中心一半的数据中心,而且他们一直在寻找进一步降低能耗的方法。该博客作者、数据中心副总裁乔·卡瓦(Joe Kava)说,在公司追求效率的过程中,他们发现了一种新工具——机器学习。卡瓦说,公司已经开始使用神经网络来分析它收集的关于服务器群的海量数据,并提出改进的建议。Kava在博客上说,谷歌开发了一种机器学习算法,从运行数据中学习,模拟工厂的性能,并预测PUE。

PUE是什么?数据中心行业使用电力使用效率来衡量效率。一个2.0的PUE意味着每消耗1瓦特的IT能量,就会消耗1瓦特的额外能量来冷却和分配IT设备的能量。PUE接近1.0意味着几乎所有的能量都用于计算。谷歌表示,他们的计算包括全球所有数据中心的性能。他们的计算是全年进行的,而不是季节性的。最后,他们所有数据中心的12个月PUE值为1.12,包括所有的开销来源。(谷歌包括服务器、存储和网络设备,如IT设备电源和其他一切开销电源。此外,季节性天气模式会影响PUE值,在较冷的地区PUE值较低。即使在亚特兰大炎热潮湿的夏季,谷歌的数据中心站点的PUE平均值也很低。这意味着所有谷歌数据中心的平均PUE是1.12,尽管如果使用更窄的边界,它们本可以拥有更低的数字。谷歌还声称,所有谷歌数据中心的TTM能量加权平均PUE为1.12,使其成为世界上效率最高的中心之一。

5月28日,谷歌发布了由谷歌团队工程师Jim Gao撰写的白皮书《数据中心优化的机器学习应用》。本文讨论了神经网络是如何被用来优化数据中心的操作和驱动能源使用到新的低点。卡瓦强调了对Gao的贡献的赞扬,因为他研究了机器学习,然后开始建立模型来预测和改进数据中心的性能。

将机器学习原理应用于数据中心监控并非易事。卡瓦说,高的设计和其他机器学习的例子一样有效,比如语音识别,计算机可以从大量数据中识别模式并从中“学习”。尽管如此,卡瓦说,在数据中心环境中,“人们很难看到所有的变量——负荷、外部空气温度等等——是如何相互作用的。电脑擅长的一件事就是从数据中发现潜在的故事,所以吉姆把我们在日常运作中收集的信息通过一个模型进行分析,以帮助理解复杂的交互作用,而他的团队——仅仅是僵尸——可能没有注意到这些交互作用。”

在这篇论文中,高说,“机器学习方法利用现有传感器数据的过剩来开发一个数学模型,这个数学模型可以理解操作参数和整体能源效率之间的关系。”这种类型的模拟允许操作员对直流进行虚拟化,以确定最佳的电厂配置,同时减少围绕电厂变化的不确定性。”

卡瓦说,Gao的模型预测PUE的准确率为99.6%。“这意味着他可以利用这些模式想出新办法,提高我们业务的效率。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请 第一时间联系我们修改或删除,多谢。