Amazon se hace cargo de sus errores

Amazon ha ofrecido una disculpa y una explicación detallada acerca de los problemas que hubo con su servicio de almacenaje en la nube de la semana pasada. Durante una operación para incrementar la capacidad de su red, el tráfico de una red de sistemas fue incorrectamente cambiado a una red secundaria que tenían de backup, pero más lenta. El apagón del servicio afectó a varias páginas web, incluyendo a Foursquare y Reddit.

amazon-se-hace-cargo-de-sus-errores

Normalmente los datos son sincronizados simultáneamente a través de varios nodos. Si un nodo detecta que su compañero no está respondiendo asume que hay una falla y le pide al servidor que cree otro. Normalmente, este proceso es automático y sucede tan rápidamente que la intervención humana no es necesaria; de cualquier manera, el cambio a una red más lenta reventó las capacidades del sistema de sincronización, resultando en un embotellamiento masivo comenzando a las 12:47 AM PDT del 21 de Abril de 2011.

Los ingenieros diagnosticaron rápidamente la naturaleza del problema, pero restaurar el balance del tráfico de redes manualmente es algo dificultoso de realizar. Dentro de las dos horas, los ingenieros de Amazon fueron capaces de remover la situación sin afectar otras funciones, y unas horas después ya habían resuelto el problema, pero todavía quedaba un 13% de los volúmenes EBS que no habían podido resolver. Encontrar capacidad extra para poder restaurar completamente el servicio requería mover físicamente nuevos servidores dentro de los clústers del depósito de datos afectados. Esa operación no empezó hasta las 2:00 AM del día siguiente, el 22 de Abril.

Devolverle el balance al tráfico de la red manualmente tomó la mayor parte de los próximos dos días, pero a las 6:50 PM del 23 de Abril, las operaciones fueron normalizadas. De cualquier manera, 2.2% de los volúmenes tuvieron que ser recuperados manualmente.

La compañía está reanalizando sus procedimientos para hacer cambios a su red, y han dicho que "incrementarán la automatización" para evitar errores humanos similares a este en el futuro. Amazon promete una lista de otras mejoras, como por ejemplo, tendrán más capacidad disponible para recuperarse de algún error.

Amazon también publicó una disculpa a sus clientes, diciendo que:

"Por último, pero no menos importante, queremos disculparnos. Sabemos cuán importantes son nuestros servicios para los negocios de nuestros clientes y haremos todo lo posible para aprender de este evento y utilizarlo para hacer mejoras a través de todos nuestros servicios. En el campo de los problemas operacionales pasaremos muchas horas en los próximos días y semanas tratando de comprender mejor todos los detalles de las diferentes partes de este evento y poder determinar cómo hacer los cambios para mejorar nuestros servicios y procesos."

Por último, los clientes obtendrán un crédito extra de 10 días, ya sea que su servicio fue afectado o no. Excelente movida por parte de Amazon.

Categorías

Imagen de Matias Dominguez
Publicado por: Matias Dominguez

0 ComentariosComentar

El contenido de este campo se mantiene privado y no se mostrará públicamente.