Transparent Edge - Status page
Affected services:
Opened on Thursday 14th December 2023, last updated
Resolved — DESCRIPCIÓN DEL PROBLEMA Y AFECTACIÓN DEL SERVICIO El 13 de Diciembre a las 08.05 CET, los servicios de monitorización comienzan a detectar problemas sobre varios nodos, debido a un tráfico anormal en ellos . El equipo de guardia examina de inmediato la incidencia y se pone a trabajar en ella, movilizando al equipo de sistemas. Tras diversas actuaciones detalladas más adelante, el servicio queda totalmente estabilizado, tras varias oleadas, a las 10.02. El análisis de las peticiones tanto en el momento de las actuaciones como posterior deja claro que ha sido un ataque DDoS dirigido a la CDN, intentando interrumpir su correcto servicio. En el ataque han estado implicadas más de 20.000 direcciones IP desde 17 países distintos, con payloads aleatorios, provocando picos de tráfico en la oleada más dura que multiplican por 7 el tráfico habitual total para esa hora. ACTUACIONES Y MEDIDAS CORRECTIVAS Una vez se detecta la subida de la carga en los servidores afectados, se siguen las actuaciones procedimentadas en caso de ataque y se moviliza a todo el equipo de sistemas, que comienza a evaluar y tratar el problema. A pesar de la inestabilidad en una serie de nodos, más castigados por la avalancha de IPs, el servicio se sigue prestando, no llegando el ataque a tener éxito en su objetivo de tirar la plataforma. Estos nodos saturados provocaron cierta ralentización en peticiones, especialmente en Estados Unidos y el norte de Europa. En España, dos nodos resultaron afectados pero el balanceo automático los sacó de los cluster de delivery, solo afectando al servicio en el transcurso de la operación de balanceo. A las 8.21CET se detecta un patrón en el ataque y se efectúan rotaciones a nivel de DNS para concentrar el ataque en determinados puntos donde tuviéramos mayor poder de actuación, haciendo que los clientes en plataforma compartida se estabilizaran a nivel de tiempos de respuesta y tráfico. Ante la concentración del ataque, los atacantes intensifican los esfuerzos, pero gracias a la localización y concentración del ataque podemos empezar a aplicar medidas más restrictivas, bloqueando directamente las IPs implicadas en el ataque. Al ver la pérdida de efectividad del mismo, el atacante decide a las 8.52CET lanzar otra oleada de peticiones e IPs mayor que la anterior, siendo esta ya esperada y localizada por el equipo de sistemas, que las aísla minimizando el impacto sobre la plataforma. A las 10.01 la combinación de los sistemas automáticos de mitigación y el buen hacer del equipo de sistemas anula completamente el ataque, quedando estable el tráfico a las 10.02 a niveles normales. CONSIDERACIONES ADICIONALES Si bien consideramos que la detención del ataque ha sido un éxito y demuestra una mejora y un pulido de nuestros procedimientos de ataque, somos conscientes de que aún tenemos margen de mejora en estos casos. Nos enfrentamos a ataques diarios -en crecimiento constante durante este año-, la mayoría de los cuales anulamos sin afectación al servicio, pero ante las nuevas amenazas a veces aún sufrimos algún problema. La detección proactiva del ataque puede ser más rápida, y estamos diseñando medidas para que los sistemas automáticos sean más rápidos y ejecuten acciones antes de que se noten los efectos del ataque. También somos conscientes de que en algunos casos los sistemas bloquean tráfico lícito y algunos clientes han sufrido bloqueos en la interacción con nuestra API, y debemos ser más quirúrgicos a la hora de eliminar tráfico malicioso sin afectar al lícito, por lo que mejoraremos también esa parte. Finalmente, creemos que si conseguimos reducir el tiempo que tarda la monitorización en sacar nodos del balanceo de tráfico, el impacto sobre el tráfico será menor, por lo que trabajaremos también en esa línea.