DNS 服务器重启失败导致 Salesforce 中断

Salesforce网站无法打开的原因已经找到,是在配置更改后未按预期重启的域名服务器导致 Salesforce 的服务于 5 月 12 日在全球范围内关闭。

那天,“作为网络层的紧急修复进行了配置更改,旨在解决功能差距,为即将到来的维护活动做准备,”Salesforce 

Salesforce 使用 Berkely Internet Name Daemon (BIND) 软件。

使用脚本进行了更改,以在现有 Salesforce 澳大利亚数据中心和设置进行维护的新 Hyperforce 环境之间启用 DNS 解析。

Salesforce 称该脚本在过去三年中一直使用,没有产生不良影响,它使用了一种称为 Metazone 更改的内部方法。 

这会通过 DNS 区域传输部署新的配置数据,但在 5 月 12 日的事件中,该脚本的行为与预期不符。

UNIX 操作系统 KILL 命令没有等待 BIND 命名进程干净退出或删除进程标识 (PID) 文件。

重新启动时,指定的启动脚本会检查现有 PID 以确定实例是否已在运行。

如果脚本找到 PID 文件,它会立即退出,因此命名 DNS 服务器进程没有重新启动。

Salesforce 表示,脚本故障具有全球影响,因为 Metazone 更改已部署到其全球所有数据中心的命名服务器。

许多命名服务未能重新启动,导致 Salesforce 客户普遍中断。

缺乏针对 DNS 更改的自动化保护措施以防止意外事件是造成中断的一个因素,同时也没有足够的防护措施来执行更改管理流程。

Saleforce 的销售、服务、营销、商务、政府和体验云以及 Heroku、Pardot 和 Industries 都对用户而言无法访问。

令 Salesforce 客户更加苦恼的是,status.salesforce.com 站点的流量如此之大,以至于它也变得不可用。

由于多因素身份验证问题,客户也无法记录支持案例。

Salesforce 为这次中断道歉,并暂停了整个公司的所有 DNS 更改。

触发中断的脚本也已被删除。

未经允许不得转载:阿藏博客 » DNS 服务器重启失败导致 Salesforce 中断