Las alertas son importantes para responder rápidamente ante posibles interrupciones del servicio. Sin embargo, alertar a un responsable de incidentes para que realice una acción manual sigue siendo un proceso que consume tiempo. Es por ello que New Relic automatiza lo máximo posible, centrándose en los sistemas autorreparables.
El escalado automático reduce el toil del equipo de ingeniería
New Relic ha invertido considerablemente en algoritmos de escalado automático capaces de aumentar o reducir rápidamente los servicios según la demanda. Estos algoritmos utilizan métricas como el uso de CPU y memoria para realizar los ajustes necesarios. Esto ha reducido significativamente las interrupciones y las notificaciones al equipo. Por ejemplo, antes no era raro que nuestro equipo de Logging recibiera entre dos y cuatro alertas por semana para ayudar a escalar un servicio. Después de implementar el escalado automático, el equipo recibe muchas menos notificaciones.
Reversión automática que garantiza la fiabilidad
Aunque los servicios de New Relic pasan por una serie de verificaciones antes de desplegarse en producción, a veces algunos errores llegan a ese entorno. En esos casos, New Relic utiliza la reversión automática del servicio. Cuando se despliega un cambio a través del pipeline de despliegue continuo de New Relic, se inicia un flujo de trabajo que supervisa la salud de la entidad. Si el servicio presenta fallos, ese flujo de trabajo activará el pipeline de despliegue continuo para revertir las instancias no saludables.