探访百度阳泉云计算中心:AI时代的基础设施长什么样?
来源:    发布时间: 2019-05-21 09:08   194 次浏览   大小:  16px  14px  12px
探访百度阳泉云计算中心:AI时代的基础设施长什么样?

  中新经纬客户端4月16日电 (常涛)在百度阳泉云计算中心的机房内,工作人员反复提醒参观者不要随意触动机柜中服务器的数据线接口,以免发生故障。直到参观结束后,百度智能云产业智能化业务负责人李硕才透露,这其实是给大家开了个玩笑。

  他说:“别说拔掉一根数据线,就是把整个阳泉数据中心关掉,用户端也不会有任何感知,服务也不会受到任何影响。”

  这是百度阳泉云计算中心在容灾和备灾能力方面的一个细节。百度系统部总监张炳华介绍,截至4月8日,百度阳泉云计算中心已安全运行1744天,目前还没有遇到过极端意外情况,即使是在2019年春晚“数据海啸、惊涛骇浪”的情况下。

  根据百度官方公布的数据,春晚期间,全球观众参加百度App互动次数达到208亿次,春晚数据流量为每秒峰值5000万次,每分钟峰值10亿次。抢红包这个行为对于用户来说只是点点屏幕,但对于保障互动正常进行的数据中心来说,并不容易。而百度阳泉云计算中心在2019年春晚红包互动中就发挥了关键作用。

  李硕介绍说,在稳定性上,百度拥有一套智能调度系统,采用分层机制,基本能够做到N+1的服务模式,即一个用户可以通过多个入口来访问百度的服务。比如,在阳泉能够访问的服务也可转到西安进行访问。

  另一方面,百度阳泉云计算中心通过AI控制,可将网络故障排查时间缩短至5分钟。阳泉数据中心设置了7乘24时值班,负责现场运营管理、故障处理和维护保养,一旦有突发情况,可以快速反应。

  据了解,百度阳泉云计算中心于2014年投入使用,已建成投产12万平米,服务器超过15万台,拥有超过300万颗CPU核、6EB级存储容量,可存储信息量相当30多万个中国国家图书馆的藏书总量。所以,业内形象地将它比作百度的“心脏”。

  作为百度AI业务的基础设施,百度阳泉云计算中心除了云计算厂商常规的存储等服务外,还面临着越来越多企业智能化升级、复杂生产环节数字化的需求,这也对云计算中心提出了更高的要求,需要更强的计算能力,以及能够提供针对性的定制化解决方案。

  张炳华介绍,百度阳泉云计算中心可以为百度智能云、百度App、百度地图、智能城市、小度、Apollo等百度内外部的产品和厂商提供强劲的计算能力。2018年1月该中心第10万台服务器上线了,成为国内首个单体规模突破10万台的数据中心,目前已上线万台。包括了天蝎整机柜服务器、“冰山”冷存储服务器、X-MAN超级AI计算平台等多种百度自研计算系统。

  其中,2017年上线,是国内首个采用液体冷却技术的GPU解决方案,实现了超高的散热效率,规模应用后,可以全面去除制冷机组,全面实现无冷机运行。

  另外,百度阳泉云计算中心使用百度自主研发高性能交换机,提供超大规模的网络吞吐,支持10G、25G的通用计算网络接入和100G的AI高速无损网络互联技术。

  在数据中心外部,百度网络构建了三个时延圈:从数据中心覆盖用户时延不超过30ms,从POP点覆盖用户的时延不超过10ms,从CDN覆盖用户的时延不超过2ms,确保全国用户的全面覆盖和就近接入。

  在数据中心内部,百度通过大带宽、低时延、无损网络,把数据中心数十万台服务器连接成为一个超级计算机,成为AI时代云上百度最强大的技术硬核。(中新经纬APP)