CloudflareAPIoutage（中断）与ReactuseEffect漏洞相关，导致服务过载和恢复失败

2025-12-20 00:13:43 安全新闻来源：ZONE.CI 全球网 0 阅读模式

Cloudflare发布了一份详细的事后分析报告，解释了2025年9月12日发生的重大 outage事件，该事件导致其控制台和API中断服务一个多小时。

该公司将这一事件追溯到其控制面板中的一个软件漏洞，该漏洞与一次服务更新结合，在一个关键的内部系统中引发了连锁故障。

这一事件始于Cloudflare仪表板新版本的发布。根据该公司的报告，此次更新的React代码中存在一个漏洞，导致其反复、过度地调用内部租户服务API。该服务是负责处理API请求授权的核心组件。

该漏洞存在于一个useEffect钩子中，该钩子被错误地配置为在每次状态变化时触发API调用，导致在单次仪表板渲染期间出现请求循环。此行为与租户服务API自身更新的部署时间重合。

结果，这个有问题的仪表盘发出的“请求洪流”让新部署的服务不堪重负，导致其出现故障且恢复不当。

由于租户服务需要对API请求进行授权，它的故障导致Cloudflare控制台及其许多API从协调世界时17:57开始出现大面积中断。

事件响应与恢复

Cloudflare的工程团队首先注意到租户服务的负载增加，随后采取措施减轻压力并增加资源以应对。

他们实施了一项临时的全球速率限制规则，并增加了该服务可用的Kubernetes pod数量，以提高吞吐量。虽然这些措施帮助恢复了部分API可用性</b0，但仪表盘仍然处于故障状态。

随后在协调世界时18:58尝试对该服务进行补丁修复，以解决出错的代码路径，但此举反而适得其反，导致API可用性再次受到短暂影响。这一变更很快被撤销，到协调世界时19:12，服务已完全恢复。

值得注意的是，Cloudflare指出，此次中断仅限于其控制平面，该平面负责配置和管理工作。而处理客户流量的数据平面由于严格的隔离未受影响，这意味着终端用户服务仍保持在线状态。

事件发生后，Cloudflare概述了多项措施以防止类似情况再次发生。该公司计划优先将租户服务迁移至Argo Rollouts，这是一款部署工具，若检测到错误会自动回滚版本。

为缓解“惊群”问题，仪表板将进行更新，在其API重试逻辑中加入随机延迟。租户服务本身已分配到显著更多的资源，其容量监控也将得到改进，以提供主动警报。

本站仅做备份收录，仅供研究与教学参考之用。
读者将信息用于其他用途的，全部法律及连带责任由读者自行承担，本站不承担任何责任。

ZONE.CI 全球网

安全领域涉猎者-乌云独行地带