服务器云(华为云云服务器)

6月16日,腾讯宣布自研业务全面上线云端。三年时间,云规模突破5000万核,累计节约成本超过30亿。这意味着腾讯服务,包括QQ、微信、腾讯视频、王者荣耀等。,都是在公有云的基础上开发运营的,就像腾讯云的百万级外部客户一样。

服务器云(华为云云服务器)

据腾讯集团高级执行副总裁、云与智慧产业事业群CEO唐道生介绍,腾讯自主研发的业务云不仅将帮助腾讯构建面向未来的技术架构和R&D文化,还将全面锤炼腾讯的产品、技术和综合服务能力。这将帮助腾讯开启云增长的新时代。

时间回溯到2018年。当时,腾讯进行了史上第三次战略升级,宣布扎根消费互联网,拥抱产业互联网。伴随着战略调整,腾讯在技术上启动了两个集团级项目:云自研和开源协作。

作为一个涉及腾讯业务基础转型的技术项目,自研上云意味着腾讯的技术和产品将面临腾讯这个超级客户的考验。难点在于,腾讯自研业务不仅体量和复杂度是业内最大的,而且对稳定性的要求也是最严格的。

由此,腾讯云在这个考场上成功经受住了考验,产品能力也得到了转型和进化。其中,CVM、腾讯云服务器,扮演着最基础、最核心的角色,是一个缩影。

“亏损下不来,云上不来”

自研云的决定一度让CVM云服务器团队兴奋不已。对他们来说,曾经折磨客户灵魂的问题是“腾讯的业务用腾讯云吗?”-我即将有一个自信的答案。

但是,把腾讯复杂的自研业务搬到云端,并没有想象中那么简单。第一个挑战是指向CVM的核心性能指标:虚拟化损失。

所谓虚拟化,就是把物理服务器的资源连接成一个大的服务器资源池,可以根据需要划分组合成各种规格的云服务器。虚拟化可以解决传统IT在敏捷性、灵活性和可扩展性方面的不足,实现更高的工作负载移动性和更高的资源可用性。

但是虚拟化也有它的软肋:在虚拟化的过程中,虚拟化作为一个任务进程,必然会占用物理服务器的资源,也就是虚拟化损耗。

腾讯自研业务关注虚拟化亏损。一方面,腾讯大部分自研业务面对的是大量用户,每个业务模块对单个服务器的性能要求很高,损耗过大会影响业务稳定性;另一方面,过多资源的流失会导致业务占用更多的服务器,使得上云的成本不降反升。

说到这里,还需要插空回顾一下腾讯云虚拟化技术选择的历史——

2013年,腾讯云面临着虚拟化技术路线的选择:是业界成熟但未来可能遭遇性能瓶颈的Xen,还是社区新出但尚未验证的KVM。

经过决策,腾讯云在国内率先进入KVM的技术队列。一方面是因为KVM在技术架构上有更好的前景,在面对超大规模集群场景时更有优势;另一方面,当时KVM社区已经非常活跃,这也符合腾讯拥抱开源的技术思路。

随后几年,行业的发展证明了腾讯云当初选择的正确性,KVM逐渐成为所有主流云计算厂商的虚拟化解决方案。腾讯云也因为在KVM领域的早期投入和持续深耕,在虚拟化领域一直保持领先地位。

然而,即使在自研业务需求很高的情况下,这样的领先地位仍然面临很大的挑战。

当时腾讯云在服务器虚拟化方面的性能损失在15%左右,虽然是行业最好的水平。但是,自开发业务,如微信和QQ群业务,预计可以接受8%以内的虚拟化性能损失。换句话说,如果虚拟化损失不能降低,这些业务就上不了云。

虚拟化损耗的优化成为CVM团队接下来几个月的首要任务。

定位后,团队找出优化方向:

在网络虚拟化层面,团队发现虚拟化网卡底层有一个VPC网络,对UDP随机端口的访问性能较差,于是采用增加网卡队列数量的方式来保证网络性能。同时,在网络IO的设计上,创造性地设计了单拷贝、永不拷贝的机制,保证整个过程中不会产生过多的拷贝,从而节省开支。

在CPU虚拟化层面,为了解决云服务器核间通信带来的性能开销过大的问题,团队采用了即使CPU空闲置,云服务器也不会卖给主机的方式,以保证云服务器独占资源;

同时,腾讯云首款自研服务器星海也已正式投入生产环境,为云带来更合适的硬件支持;

……

软硬件联合定制优化后,CVM服务器实测虚拟化成本突飞猛进地降低到5%以下。这甚至超出了业务团队的预期。

让CVM团队印象深刻的是,腾讯广告业务曾询问为何云服务器性能比之前物理服务器提升20%以上,并要求尽快明确定位…

解决了虚拟化损耗指数大的问题,初步解决了云上自研的第一道障碍。但是,走向云的挑战还远远没有结束。

“被人肉DDoS的感觉”

因为我们面临的业务场景比以前的任何客户都更加复杂和庞大,CVM团队也需要面对各种问题。

以性能测试为例。以前业界都是在验证云服务器的性能。因为很难列举每个用户场景,所以它采用了功能验证,主要遵循行业的几个标准化指标。

但在腾讯自研业务的云端,业务更倾向于做不同场景下的精细化测试。比如QQ红包,分为场景测试和性能压力测试两类。一个场景测试区分三个场景,有近十个指标,比如延迟,丢包率等等。

更何况QQ红包团队和QQ基础团队的测试标准不一样,在QQ群场景下测试逻辑也会发生变化。扩展到微信、游戏、视频等业务场景,需要处理的问题就翻倍了。很多时候,一个很难预料的小开关或者小变化,都会在不同的业务中反映出问题。

“为什么你的丢包这么高?”“你的表演不能再在这里上演了吧?”一堆问题接踵而至,CVM团队经常有被人肉DDoS的感觉。

最终,CVM团队配合业务团队,通过与业务团队一次次的验收对接,优化了性能点。

同时,CVM团队在整合不同业务部门需求的前提下,集成了更大、更多样、更面向业务的测试工具集,包含不同语言环境下的编译测试、AI测试等多个子项,能够反映云主机在真实业务场景下的实际表现。

除了技术本身的优化,CVM团队时不时还要处理一些非技术问题。

例如,当微信服务转向云时,业务团队发现一台运行在90核(45物理核)CVM云主机上的服务器效率异常低。通过CVM团队、星海团队、微信团队的联合分析发现,由于代码形成于微信业务的前期,运行逻辑上存在一定的特殊性,导致其在奇异物理核上运行时出现奇怪的效率降低;物理机核数是偶数,所以之前的操作没有暴露问题。业务部门更新代码后,这个性能问题就解决了。

腾讯游戏的天涯岳明刀游是另一个例子。当时这款大作上云后,业务团队发现云服务器的性能并没有预期的好,导致游戏服务器经常处于高负载状态,玩家掉线,登录异常。商业团队只能不断安抚球员的情绪。如果这种情况持续下去,游戏的运营和生命周期都会受到很大的影响。

经过CVM团队和业务团队的共同定位,问题终于明确:原来申请资源时没有考虑云服务器主频与之前游戏设计主频的匹配,导致云服务器持续高负载,更换新的云服务器后成功解决了这个问题。事后,腾讯云团队还收到了业务团队分享的庆祝蛋糕。

这样的技术优化和服务体验正在不断注入腾讯云的产品服务和交付体系,为云上的用户提供严谨场景的保障。

“利用率上升,成本下降”

除了提高效率,降低成本也是尚云公司的核心业务。CVM团队一直在思考云服务器的打包率。

所谓云服务器的装箱率,类似于东西装箱时箱子的利用率空。由于物品无法同时装进两个箱子,箱子里的物品收拾得越整齐,可以装的东西就越多。云服务器场景也是如此。云服务器中配置的总和越接近主机的容量,打包率越高,资源利用率越好。

在腾讯自研业务的场景中,不得不面对这样一个问题:很多业务由于使用场景和习惯,通常需要大规格的服务器。

这就带来一个问题:如果一台物理主机有80个核心,业务需求是60个核心,那么剩下的20个核心应该如何使用?如果不能投入使用,将为腾讯自研业务的云体量带来巨大的资源浪费。

只有提高利用率,才能降低成本。

为了解决这个问题,CVM团队在第一次打包时,根据不同业务的资源需求,优化配置打包速率,尽量保证物理服务器能够“充分利用”。对于云服务器退订造成的资源缺口,CVM团队可以借助成熟的热迁移技术,定期进行整体调度,寻找合适的业务来填补。

最后,在自研业务的云项目中,腾讯云的服务器打包率从80%+一路提升到现在的97-98%,大大降低了运营成本。

标签

在腾讯自研的云项目中,业务目标并不是简单的将业务从物理机迁移到云上的虚拟机。但是,腾讯云CVM在提炼的过程中不断实现自己的产品进化:

他们通过网络优化和数据迁移流程重构,将云服务器迁移的成功率从70%提高到98%。

他们在处理器厂商的内存中发现了RAS技术的不足,大大提高了云服务器的可靠性。

他们优化了云服务器的网络和IO性能,分别实现了700%和300%的性能提升;

在腾讯开会最关键的时刻,他们支持了8天100万核的业务拓展;

在云上自研的基础上,他们现在把虚拟化损耗降到0%;

……

正是在这样的一轮进化中,腾讯自研上云的基石不断得到强化和深化,并支撑自研业务走向云起源的新未来。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/318872.html

发表回复

登录后才能评论