人工智能

OpenAI发布12月11日ChatGPT宕机故障报告:集群出现死循环把工程师挡在门外

字号+作者:蓝点网 来源:蓝点网 2024-12-16 13:44 评论(创建话题) 收藏成功收藏本文

12月11日OpenAIChatGPT和Sora等服务出现长达4小时10分钟的宕机,此次宕机只是个小更改导致的,而且这个小更改仅在部署3分钟后就被发现出现问题,按理说这么'...

12月11日OpenAIChatGPT和Sora等服务出现长达4小时10分钟的宕机,此次宕机只是个小更改导致的,而且这个小更改仅在部署3分钟后就被发现出现问题,按理说这么快发现问题应该是很容易解决的。Y0v品论天涯网

不过OpenAI也出现了和某些公司相同的错误:服务挂了后把工程师也给锁门外了,即工程师无法正常连接控制面进行问题处理。Y0v品论天涯网

Y0v品论天涯网

OpenAI采用的后端服务架构:Y0v品论天涯网

OpenAI的后端服务都运行在全球数百个Kubernetes集群中,其中有个负责集群管理的控制面和和数据面,OpenAI向用户提供服务的是K8S数据面。Y0v品论天涯网

接下来是事故大概情况:Y0v品论天涯网

12月11日太平洋标准时间下午3:12,工程师部署新的遥测服务来收集K8S控制面指标,由于遥测服务覆盖范围非常广,因此这个新服务配置无意中导致每个集群上的每个节点都执行资源密集型的K8SAPI操作。Y0v品论天涯网

由于数千个节点同时执行资源密集型的APi操作,导致API服务器不堪重负而宕机,这导致大多数集群中的K8S数据面瘫痪无法再提供服务。Y0v品论天涯网

K8S数据面很大程度上确实可以独立于控制面运行,但DNS依赖于控制面,如果没有K8S控制面,那么服务就不知道如何相互联系。Y0v品论天涯网

而不堪重负的API操作破坏了基于DNS的服务发现,也就是导致服务无法相互连接,那为什么3分钟就成功定位问题但要花费大量时间才能解决呢?Y0v品论天涯网

原因在于要回滚刚刚的遥测服务需要先到K8S控制面上把旧服务删除,但现在控制面已经挂了因此工程师们也无法成功连接,这就造成了死循环,这种死循环在其他公司的事故中也挺常见,没想到OpenAI也存在类似的问题。Y0v品论天涯网

最终的处理方式:Y0v品论天涯网

OpenAI工程师探索快速恢复集群的不同方法,包括缩小集群规模减少对K8S的API负载、阻止对用于管理的K8SAPI访问让服务器能够恢复、扩大K8SAPI服务器增加可用资源来处理请求。Y0v品论天涯网

最终这三项工作同时进行让工程师们重新获得控制权,也就是能够重新连接K8S控制面并删除有问题的服务,一旦重新连接就可以回滚遥测服务更改逐渐恢复集群。Y0v品论天涯网

期间工程师们还将流量转移到已经恢复的集群或新增的健康的集群中,这样继续降低其他问题集群的负载然后进行处理,但由于许多服务试图同时下载资源导致资源限制饱和和并需要额外的手动干预,因此一些集群花费了大量时间才完成恢复。Y0v品论天涯网

经过这次事故相信OpenAI应该能学到解决死循环问题,至少下次再发生类似情况是可以快速连接解决问题,而不是将工程师锁在门外。Y0v品论天涯网

viaOpenAIStatusY0v品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]