16:46 ? 10月18日晚上 22:00 我们对处于灰度发咘阶段的新版博客后台(Angular Core Core Core 版博客站点引起的,虽然我们进行了充分的准备但还是低估了高并发下的复杂问题。 以下是故障背景与大致经過: 在这个炎炎夏日我们正热火朝天地忙着整个 .NET Core 迁移工程的收官
14:25 ? 非常抱歉,今天早上 6:37~8:15 期间由于获取网站首页博文列表的 SQL 语句出现突發的查询超时问题,造成访问网站首页时出现 500 错误由此给您带来麻烦,请您谅解 故障的情况是这样的。 故障期间日志中记录了大量下媔的错误 06:37:24.635 [Error...
12:35 ? 非常抱歉,今天上午 10:48 ~ 11:33 期间我们所使用的数据库服务(阿里云 RDS 实例 SQL Server 2016 标准版)又出现了 CPU 近 100% 问题,由此给您带来麻烦请您谅解。 这次刚开始出现 CPU 近 100% 问题时没有造成大的影响,后来有段时间 C...
12:15 ? 非常抱歉昨天 18:40~19:10 再次遭遇上次遇到的 SQL 语句执行超时引发的网站首页访问故障,由此您带来麻烦请您谅解。 上次故障详见之前的故障公告上次排查下来以为是 SQL Server 参数嗅探问题引起的,但在引起参数嗅探的漏洞被修复后再次出现故障说明上次的判断是错误的 今天出现...
14:30 ? 非常抱歉,由于一台使用阿里云抢占式实例的缓存服务器被自动释放造成紟天 10:20-11:30 左右网站无法正常访问,由此给您带来很大的麻烦恳请您的谅解。 这台阿里云抢占式实例服务器的出价方式是“使用自动出价”の前我们使用这种出价方式的阿里云抢占式实例从来没有被自动释放过...
15:25 ? 昨天晚上,我们使用的阿里云 RDS SQL Server 2008 R2 实例突然出现持续 CPU 100% 问题后来我们通过重启实例恢复了正常(详见故障公告)。但是在恢复正常后发现了新问题这台 RDS 实例 IOPS 不够用,必须要进行升级而且当时过了 0 点也是升级的好时间,再加上我们对...
11:16 ? 非常抱歉今天 10:30-10:45 左右由于 docker swarm 集群节点出现问题,造成除博客之外的站点出现访问异常由此给您带来很大的麻烦,请您谅解 故障开始时出现有时访问正常有时访问出现 502 或 500 ,当时我们就判断是某个节点出现问题但无法直接定位出哪个节点,只能依次将一个...