蚂蚁集团回应语雀崩了:运维升级Bug,将向所有用户赠送6个月会员
10 月 24 日消息,语雀是蚂蚁团体旗下的在线文档编写与协同工具,应用了“构造化知识库管理”,形式上相似书籍的目录,该软件于 2023 年 2 月 22 日正式推出 iOS 及 Android 版本。
据多位 读者反馈,这款工具在今日14:00~15:00之间呈现大范围服务器故障,在线文档和官网目前均无法打开。
在阅历了近10小时的故障之后,语雀服务现已所有恢复正常,各端语雀都可以正常拜访,功效也恢复,目前官方宣布了故障完全报告内容,并发布将向全部用户赠送 6 个月语雀会员。
故障原因及处置进程
10月23日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具bug,导致华东地域生产环境存储服务器被误下线。受其影响,语雀数据服务产生严重故障,造成大面积的服务中止。 为了尽快恢复服务,我们和数据存储运维团队努力进行数据恢复工作,但受限于恢复计划、数据量级等因素,整体用时较长。
具体进程如下:
14:07数据存储运维团队收到监控体系报警,定位到原因是存储在升级中因新的运维工具bug导致节点机器下线; 14:15接洽硬件团队尝试将下线机重视新上线; 15:00确认因存储体系应用的机器类别较老,无法直接操作上线,立即调剂恢复计划为从备份体系中恢复存储数据。 15:10开始新建存储体系,从备份中开始恢复数据,由于语雀数据量宏大,此进程历时较长 19:00 完成数据恢复;同时为保障数据完全性,在完成恢复后,用时2个小时进行数据校验; 21:00 存储体系通过完全性校验,开始和语雀团队联调,最终在22点恢复语雀所有服务。用户全部数据均未丧失。
语雀团队声称,“通过这次故障我们深刻认识到,语雀作为一款服务千万级客户的文档产品,应当做到更完美的技术风险保障和高可用架构设计,尤其是面向技术变革操作的‘可监控,可灰度,可回滚’的体系化创建和流程审计,从同Region多副本容灾升级为两地三中心的高可用才能,设计足够的数据和体系冗余实现快速恢复,并进行定期的容灾应急演练。只有这样,才干晋升严重基本设施故障时的恢复速度,并从根本上避免这类故障再次呈现。”
为此,语雀团队制订了如下改良举措:
1、升级硬件版本和机型,实现离线后的快速上线。该举措在本次故障修复中已完成; 2、运维团队增强运维工具的质量保障与测试,杜绝此类运维bug再次产生; 3、缩小运维行动灰度范畴,增添灰度时间,提前发现bug; 4、从架构和高可用层面改良服务,为语雀增添存储体系的异地灾备。
语雀团队表现,为了表达歉意,团队将向全部受到故障影响的用户供给如下赔偿计划:
针对语雀个人用户,我们赠送6个月的会员服务。操作流程:进入工作台「账户设置」,点击左侧「会员信息」,在会员信息页面点击「立即领取」,即可获得赠送服务。 针对语雀空间用户,由于情形比拟庞杂,我们会单独制订赔偿计划。请空间管理员留心语雀站内信。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。