OpenAI 对 API、ChatGPT 和 Sora 面临的问题的事后分析
周三,OpenAI 几乎所有设备都出现了四个小时的中断。他们现在发布了一份详细的事后分析,其中包括有关“全球数百个 Kubernetes 集群”的一些有趣的技术细节。
罪魁祸首是新部署的遥测系统:
遥测服务的占用范围非常广泛,因此这个新服务的配置无意中导致每个集群中的每个节点执行资源密集型 Kubernetes API 操作,其成本随着集群的大小而变化。由于数千个节点同时执行这些操作,Kubernetes API 服务器不堪重负,导致大多数大型集群中的 Kubernetes 控制平面瘫痪。 […]
Kubernetes 数据平面可以在很大程度上独立于控制平面运行,但 DNS 依赖于控制平面——如果没有 Kubernetes 控制平面,服务不知道如何相互联系。 […]
DNS 缓存通过提供陈旧但功能正常的 DNS 记录来暂时减轻影响。然而,随着缓存记录在接下来的 20 分钟内过期,服务由于依赖实时 DNS 解析而开始失败。
始终是 DNS。
标签: devops 、 dns 、 kubernetes 、 openai 、 chatgpt 、事后分析
原文: https://simonwillison.net/2024/Dec/13/openai-postmortem/#atom-everything