危情时刻(危情24小时)

21世纪经济报道记者白杨北京报道。

危情时刻(危情24小时)

1月10日上午,广东省粤康码突然来访异常,给很多正在办公的人带来了诸多不便。

事后,悦康码发布公告称,“10日上午8点31分,平台监测到悦康码流量异常增加,高达每分钟140万次,超过承载极限,触发系统保护机制,导致部分用户访问悦康码缓慢或异常。运行支持团队进行了紧急处理,于9: 04得到部分缓解,并于9: 56完全恢复平稳运行”。

一周前,Xi安易通在短短半个月内两次倒闭。2021年12月20日上午,Xi安一号代码出现异常访问,修复工作持续了一整天;2022年1月4日上午,Xi安亿通再次垮塌,中午恢复正常。

对于第一次故障,Xi安官方的回复是“每秒访问量达到上一次峰值的10倍以上,造成网络拥堵”,而对于第二次故障,也是因为“访问量太大”。

近两年,随着疫情防控常态化,健康码成为人们出行的“必需品”。这导致了卫生代码问题,这也将对人们的生活产生很大影响,特别是在Xi安,这是在抗击疫情的关键时刻。卫生法典的失效也直接阻碍了防疫工作。

有了前车之鉴,地方政府急需思考的一个重要问题是如何防止卫生代码崩溃。

安全与效率的博弈

不过,业内专家李明告诉21世纪经济报道记者,从技术角度来说,健康码运营支持已经非常成熟,但面对突如其来的访问压力,要保证100%不出现问题是不现实的。

且不说理论上不存在绝对稳定的系统。从目前健康码崩溃最常见的原因——流量过载来看,其背后仍然存在效率、成本、安全的博弈问题。

李明说,一般的系统架构都有一个承载阈值,当用户流量超过这个阈值时,系统就会崩溃。其实这个问题在很多产品上都出现过。比如之前的微博,有很多次某个明星突然曝出八卦新闻,用户量瞬间增加,导致产品崩溃。

很多人会好奇,为什么不提高这个门槛,避免超载呢?这就涉及到接入效率和成本的平衡。因为提高门槛需要更多的服务器,也意味着更多的成本。

李明透露,以健康码为例,几千万人的接入成本大概是几千万。如果一个城市的卫生码日并发峰值只有10万,为此准备50万并发服务器是浪费资源。

所以在实际操作中,各个城市的卫生规范都会根据当地的情况设定一个合理的门槛,至少可以保证日常使用。但这也会留下一个隐患,就是当当地居民大规模使用健康码时,用户流量会超过阈值。

虽然是小概率事件,但也说明健康码因为流量突然增加而崩溃,这也是意料之中的事情。所以真正要解决的问题是系统过载后能否快速恢复。

李明说,从技术角度来说,他已经具备了快速反应的能力。它提到了几个设计原则:

首先,在设计系统架构时,要考虑极端情况。例如,如果一个城市有1000万人口,那么架构设计至少应该考虑到这1000万人口可能出现的极端情况。

在框架下,需要具备灵活扩展的能力。比如平时只需要用100台服务器。特殊情况下,100台服务器不够用,需要支持快速灵活的扩展。这个场景其实是云计算的一个核心能力,目前已经非常成熟。

此外,系统还需要灾难恢复。这是为了确保当用户的访问过载且灵活性不起作用时,至少有一组记录可以被及时激活。

另外,就像对系统流程进行解耦,将整个业务流程分成不同的层次,防止流量的集中涌入;或者通过分布式体系结构将流量分成不同的处理区域。这些可以有效避免整个系统的崩溃。

Xi安一通通的警告

所以卫生法典遇到问题并不可怕。只要能快速恢复,基本能满足群众需求。然而,Xi安易通这次备受关注。一方面,第一次崩盘持续了一天;另一方面,短时间内连续出现两次问题。

根据上面提到的一些解决方案,Xi安易通通第一次遇到流量过载时,正常运行应该是弹性扩容处理,但易通通系统最终崩溃,说明在系统架构上,设计之初没有充分考虑负载均衡和弹性扩容。

据钛媒体App从一位接近Xi安“一码通”项目的人士处获悉,整个故障的大致原因已经基本明确,即流量过载、系统架构不足以应对高并发导致的系统性故障,最终导致防火墙拦截数据无法返回。

李明告诉记者,防火墙也有吞吐量限制。如果流量太大而超过吞吐量限制,防火墙将无法响应。通常,防火墙也应该有一个负载平衡机制。当一个防火墙不支持它时,将启用其他防火墙来共享它的流量。

当然,这背后是公有云和私有云的问题。李明表示,目前整个政府市场倾向于使用私有云。如果防火墙是私有云架构,那么即使平时不使用容灾的防火墙,也是要花钱买的,但是这个成本是省不下来的。

系统架构无法满足快速扩展,这也导致Xi安易通在遇到高并发流量时变得僵化。至于为什么会出现这种情况,李明认为,这说明整个系统在设计的时候没有充分考虑到所有可能的情况。而且在已经有了全市范围的疫情防控时,也要提前做好系统的抗压测试和演练。

此外,部分地区卫生法规建设存在转包不合理问题。一般来说,作为总承包商,核心模块是不应该分包的。

这里的核心模块包括整个健康码的存取、生成、代码检查等关键引擎。“当然,至于其他简单的业务模块,转包是没有问题的,几乎所有的卫生码项目都是转包的”,李明说。

对于健康码项目,李明认为首先要明确项目的边界,比如承载多少并发,紧急情况下能容忍多少处理时间;

其次,要有严格的审核机制。整个系统架构要仔细审查,审查人员要终身负责制,不能走形式,导致不知道找谁的问题;

然后,在进行投标时,要保证投标公司有足够的能力。这时候不仅要看他们承诺的能力,还要看他们做过什么案例;

最后是预警机制。比如当流量达到高峰的一定比例时,就要提前启动预案。比如某地出现局部疫情,就要提前采取措施。

Xi安亿通两次倒闭引发的巨大舆论,给其他地方政府敲响了警钟。比如,最近在北京召开的疫情防控会议上,提出要用好“北京健康宝”,加强压力测试和系统运维,确保正常运行。

在疫情反复无常的常态下,我们希望卫生法典不要出现异常。如果出现异常,我们也希望能尽快恢复,而不是让人等上一天甚至半天。

(应采访者要求,李明为化名)

更多信息请下载21金融APP。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/307025.html

发表回复

登录后才能评论