在疫情所导致的隔离之下,你很难不依赖互联网带来的沟通便利。
然而,谁能想象到,就在疫情快速在全球蔓延的境况之下,Google,这个世界级的互联网科技巨头,却出现了服务崩溃的情况,甚至让 Google Search 搜索引擎、Gmail 这样最重要和常见的服务都不能正常使用。
这也真是关键时刻掉链子。
Google 此次宕机,发生在美国东部时间 3 月 26 日。
当天上午 11 点,陆续有美国东部网友发现,包括 Gmail、YouTube、Hangouts 和 Google Docs 等在内,一系列的 Google 服务发生了不可用的情况。
这对于正处于疫情中的美国东部用户(尤其是美国疫情最为严重的纽约州)群体来说,简直是雪上加霜。
一开始,对于这次宕机,Google 并没有在 Twitter 上说明具体原因。不过,在 3 月 26 日中午左右,Google G Suite Dashboard 进行了更新,其中显示除了 Google Sites 和 Google Groups 之外,其他的 Google 服务都出现了问题。
雷锋网了解到,也有不少用户宣称,整个 Google 服务都出现了问题,包括 Google Search 搜索引擎——这简直是太要命了。
根据用户反馈,上述出现问题的服务偶尔可用,但多数情况下会出现 500 错误,也就是服务器内部错误。
有网友在 Twitter 上评论称:Google 也会宕机,真是活久见了。
随后,到了下午,Google Cloud 负责技术基础设施的高级副总裁 Urs Hölzle 终于在 Twitter 上发布关于此次宕机的声明:
我们对此感到非常抱歉! 我们在亚特兰大发生了路由器故障,这影响了通过该地区的流量。 现在情况应该恢复正常了。
为了消除用户对于疫情之下流量过载的担忧,Urs Hölzle 还特意强调称,这次宕机事故与网络流量或任何类型的过载无关,而 Covid-19 并未对 Google Cloud 的网络造成压力。
言外之意,Google Cloud 方面并不认为这是其云服务负载能力的问题。
对于这次网络故障,Google Cloud Status Dashboard 也发表了详细声明称:
今天,由于太平洋时间上午 8:18 在亚特兰大的一个数据中心中的路由器发生重大故障,导致网络拥塞,我们的一些用户遇到了服务中断。 结果,在该数据中心中运行的 Google 服务受到直接影响,直到我们的工程师重新路由流量并将这些服务移至备用设施后才可用。 由于网络拥塞,美国东南部的用户在访问更广泛的 Google 服务时可能还会遇到暂时的困难。
当然,Google 方面也宣称,自己正在解决问题,而且问题不会再次发生。
而 Urs Hölzle 也在后续声明中解释称,这次的故障是由第三方供应商所提供的路由器导致的,具体来说,是因为一个软件 Bug。他认为,这样的错误非常罕见,但的确会对大量用户造成影响。
Urs Hölzle 也在 Twitter 上再次强调,预计问题不会再次出现。
不过,针对此次宕机问题,一家从事网络检测的企业 ThousandEyes 认为,Google 的解释其实是存在一定水分的。
毕竟,美国东海岸的用户在大约 20 分钟的时间里无法访问任何 Google 服务,这背后的原因可以理解为是亚达兰大路由器故障——但事实上,这次宕机不仅仅影响到了美国东海岸用户,也影响到了其他地区的用户。
具体来说如下图:
可以看到,在美国东海岸之外,此次宕机也影响到了美国中部和美国西海岸,甚至包括旧金山、洛杉矶和西雅图等周边区域。
对此,ThousandEyes 产品销售总监认为,这些错误具备一致性,即无法访问正确加载各种服务所需的后端系统;实际上,从 Google 的前端服务器到后端服务,所有经由受影响区域的流量都会受到影响。
这也可以解释,为什么美国西海岸用户也受到影响。
雷锋网注意到,也许是为了再次抚慰用户,3 月 26 日当天,Google Cloud 负责技术基础设施的高级副总裁 Urs Hölzle 再次发表博客,就宕机和 Google 的网络系统进行了更加详细的说明。
Urs Hölzle 上来就表示:
随着冠状病毒大流行的蔓延,越来越多的人转向工作或在家学习,自然而然地想知道 Google 网络是否可以处理这种负担。简短的回答:是。
雷锋网截图在 Google 官网
他还表示,Google 的网络设计是基于需求旺盛时期运行的,而且以往 Google 就有处理高峰期流量的经历,比如说世界杯决赛。而在本次疫情中,用户使用 Hangouts 来视频的频率在增加,但 Google 已经降低了 YouTube 的默认清晰度,以应对流量负载。
在基础架构的构建层面,Urs Hölzle 表示:
Google 的网络由高容量的光缆系统组成,该系统在陆地和海洋下环绕地球,将我们的数据中心相互连接并与您连接。流量通过了我们的专用网络,并且就速度和可靠性进行了优化;然后我们才将其传递给 200 多个国家和地区的 3000 多家互联网服务提供商(ISP),并覆盖数百个接入点和世界各地成千上万的边缘位置。
Urs Hölzle 还表示,Google Cloud 在全球的网络部署和运营团队会根据需要随时随地增加容量,并且在出现中断的情况下尽快恢复服务——在 Twitter 转发语中,Urs Hölzle 还总结称:
COVID-19 不会损坏 Google 网络。
尽管言辞恳切,但 Google 这次掉链子还是引起了一些担忧。
外媒 ZDNET 所认为:
当我们担心互联网会给我们许多人从家里工作和视频会议取代会议带来多大的负担时,这令人担忧地提醒我们:互联网并没有我们想要的那么稳定。 是的,这个特定的实例的确与冠状病毒没有任何关系。 但是,如果仅仅是因为一台路由器故障,就将数千万用户抛弃于 Google 服务之外,那就太令人担忧了。
更何况,Google 尚且如此,那其他的互联网服务提供商又会如何呢?
本文参考链接:
https://twitter.com/uhoelzle
https://www.blog.google/inside-google/infrastructure/keeping-our-network-infrastructure-strong-amid-covid-19/
https://www.zdnet.com/article/is-google-down-users-reporting-sporadic-outages/
https://www.zdnet.com/article/it-wasnt-just-you-why-google-suffered-widespread-outages/