4000-271-266
免费试用

数字化“惊雷”,大厂App为何排队宕机?

作者:曾宪天、林敏倩 无雀科技转载

2024-03-02 08:55:56

数字化时代,经得起几次“宕机”?


不差钱不缺人,掌握着庞大互联网生态与领先技术的大厂们,最近排着队宕机


12月3日晚,腾讯视频App出现“首页内容无法加载内容”“VIP用户无法观看会员视频”等情况,相关话题随即成为热搜爆词。


无独有偶,前不久的11月27日,多地用户反馈滴滴出行App无法使用,出现了地图无法加载,打不到车,在寒风中锁不上单车等情况,故障时间长达12小时。


1-1.jpg



就连互联网“老大哥”阿里,也掉了链子。10月23日,蚂蚁集团旗下在线文档编辑与协同工具语雀,经历了将近8个小时的服务器宕机故障,导致在线文档和官网无法打开。


“双11”购物节刚刚结束,11月12日阿里云底层授权模块出现接近3个小时的服务不可用,涵盖范围涵盖阿里旗下多个业务版块。


钉钉等应用直接无法打开,打工人们纷纷到社交媒体上吐槽,淘宝、天猫、闲鱼等平台则出现交易系统故障,不少网购用户刷着刷着就白屏了,还有的付不了款......


“阿里全系产品崩了”、“滴滴崩了”、“腾讯视频崩了”.....颇有一种大厂一起玩“萝卜蹲”游戏的既视感


此前红星资本局曾在相关报道中指出,以引发多家媒体报道或者登上各大社交媒体的热搜榜为基准,2023年,APP发生崩溃的事件已有14起;而在去年则约有9起。


不少深受影响的网友们也开始玩梗,用裁员、降本增项等行为来讽刺互联网大厂缺乏稳定性的系统服务,但这真的是事件背后的真相吗?


1、真是“降本增效”惹的祸?


在自家APP崩掉后,大厂们的回应往往都模棱两可,并不会提及确切的深层原因。


12月3日当晚,腾讯视频的系统故障,造成了不少用户以为会员过期,因而重新在腾讯视频App充值会员,但这部分用户的遭遇并未被腾讯视频的公告所提及。


腾讯视频只是公布了一则简短的公告回应称:“腾讯视频出现了短暂技术问题,我们正在加紧修复,各项功能在逐步恢复中。”



1-2.jpg


滴滴出行系统崩溃,给用户带来的麻烦更大。比如晚上加班后打不到车,共享单车关不上锁,通勤早高峰期无法使用滴滴叫车而在月底丢掉全勤奖等等,舆论场中充斥着大量的用户吐槽。


不过滴滴的补救措施比较全面,强调会在系统恢复后做好各类善后工作,因系统故障导致的订单异常都会统一处理,并同时发放10元优惠券。然而尴尬的是,依然出现了网友领取优惠券时系统加载异常的故障情况。


根据光明网、界面新闻等媒体报道,滴滴崩溃的十二小时内,预估损失过千万的订单量和超4亿的交易额。滴滴最终发布道歉并说明此次宕机原因是底层系统软件发生故障。


阿里旗下的APP 虽然故障时间虽然不如滴滴故障的时间长,但涵盖的范围更广,影响也或许更深远,不仅对自己的产品造成了较大的损失,也对瑞幸咖啡、蜜雪冰城、芒果TV等造成了一定影响。


不少网友对于官方回应的故障原因并不买账,在吐槽系统崩溃导致的糟糕使用体验之余,更是将宕机事件与各个互联网大厂裁员行为联系了起来,认为是企业所谓的“开源节流、降本增效”策略,波及到了相关技术、运维团队的正常运作,精简人员导致相关的技术服务、底层系统稳定性也要打折扣。


不过上述言论也仅仅是网友们的调侃或猜测,虽然真实原因难以考究,但理论上来说,在成熟的互联网技术体系中,引发大规模宕机事件的因素,更多是技术层面的问题,实际与裁员的关联性并不大。


互联网分析师丁道师对此列举了大厂们常见的几种故障原因。


首先是边缘设备故障,比如腾讯微信曾出现过大规模故障,后查证是附近的施工方把光缆切断了;人为管理漏洞,误操作或恶意行为等;系统免疫机制,比如过载保护、温度控制等,像机房冷却系统故障后,免疫机制为了防止机房升温导致火灾,会将服务器宕机下线。



1-3.jpg


另外还有外部黑客攻击、网络病毒攻击,系统自带的原生BUG,代码错误等原因,或许都是引发大规模宕机的因素。由此可见,所谓大厂降本增效、裁撤运维人员导致的宕机,可能性并不高。


2、数字化时代,经得起几次“宕机”?


移动互联网时代历经十余年的发展,人们如今的生活越来越离不开各种App,数字化应用已经融入到了我们的工作、生活、出行等方方面面。


未来的数智化发展,还将进一步让各类数字技术与人类社会的生活、生产所结合,如果依然频繁发生类似的系统大规模宕机事件,必然会产生更严重的后果和影响,这不仅仅是简单局限于一部分用户和某个商业公司的问题。


对此阿里云、腾讯云、百度云等各类云服务巨头们,往往会着重强调自己云服务体系的稳定性、先进性,安全可靠等卖点。然而事实却说明,目前类似资源弹性扩展,容灾备份,高可用系统等解决方案,都还是会出现由于系统故障而导致的业务中断问题。


无论是云服务巨头还是各类细分市场的技术服务商们,或许还需不断探索更加全面的系统解决方案,一方面尽可能地避免大规模宕机事故,另一方面则是如何将突发的系统宕机影响降至最低。



1-4.jpg


不过根据上观新闻的报道,中国计算机学会常务理事、北京大学教授金芝表示,软件系统的开发是一个复杂的系统工程,但相比于其它工程制品的构造而言,软件的“易修改性”使软件制品更易于演化和更新,即方便增加新功能,但这也对软件质量的保障带来很大挑战。


这也意味着,互联网技术朝着生态化、体系化方向深化发展的核心趋势下,系统的稳定性、可靠性建设,注定不是个容易的事。


当然,这必然不能只靠第三方云服务商的努力,各家互联网大厂们也应提升对运维团队的重视程度。在当前互联网+的模式下,大厂们都会有自己一个的技术团队,包括开发、运营维护等。当前出现的APP故障大多数与运维团队有着强关联性。


简而言之,运维团队的技术能力和响应速度,是确保云服务稳定运行的基石。大厂们通过加强培训、实施有效的监控系统和建立快速反应机制,以确保团队在面对突发事件时能够迅速有效地处理问题,与云服务商的相关技术团队更好地进行协同,尽可能地缩短宕机时间,从各方面降低宕机带来的影响。


但目前的现状是有部分企业认为运维团队是“非营利部门”、“纯开支部门”,从而忽视了团队的培养建设,也没有配置更好的资源和资金投入,导致遇到系统宕机这类突发事件时,缺乏更好地应对能力和处置机制。


经历多次大规模宕机后,互联网大厂们应该意识到损失的不仅仅是预估的金额数字,也包括用户体验下滑带来的潜在流失风险品牌声誉和口碑受损等问题。


而在未来万物互联的时代,越来越多的智能终端,越来越智慧化的功能会不断涌现,这背后对于技术体系稳定可靠的要求和门槛也将不断提升,大规模宕机产生的危害后果也将愈发严重,或许再难经得起频繁的大规模宕机“折腾”,担此重任的互联网大厂以及云服务商们,必须得抓点紧了。


无雀科技-中国专业数字化服务商!无雀数字化管理系统一数字化转型一站式工作台!无雀科技专注于政企数字化转型,提供整体数字化解决方案和咨询服务帮助客户实现组织数字化、管理数字化和业务数字化!

作者| 曾宪天、林敏倩

校对| 秦必功     

免责声明:本内容来自无雀科技平台转载,不代表无雀科技的观点和立场!此文版权归原作者所有,若有来源错误或者侵犯您的合法权益,您可通过邮箱与我们取得联系,我们将及时进行处理。邮箱地址:1601561830@wuquedata.com

评论 0

文明上网理性发言,请遵守《新闻评论服务协议》

请先登录后,发表评论~
江苏无雀数据科技有限公司 www.wuquedata.com 版权所有
服务热线4000-271-266
ICP备案编号:苏ICP备2022045370号

一对一专业企业顾问

工作时间:9:00-18:00 在线服务

实时解答疑难问题

工作时间:9:00-18:00 在线服务

4000-271-266

工作时间:9:00-18:00 在线服务

售后咨询 电话联系 售前咨询