Tu dashboard principal está completamente en verde. Tu objetivo de nivel de servicio (SLO) principal para el tiempo de actividad se mantiene en un sólido 99,95 %, y tu presupuesto de errores parece estar bajo control. Todo indica que el servicio es fiable y que los usuarios están contentos.

Pero ¿realmente es así?

Con demasiada frecuencia, un único SLO de alto nivel se parece a una sandía: verde por fuera, pero con problemas graves ocultos en su interior. Ese indicador global de cumplimiento puede ocultar fácilmente problemas críticos y generar una falsa sensación de fiabilidad. Los promedios ocultan los valores atípicos, y una disponibilidad del 99,95 % puede parecer excelente hasta que descubres que, para tus clientes empresariales más valiosos o para toda una región geográfica, la disponibilidad real es del 98 %.

Para superar esta ilusión, necesitamos hacernos preguntas más precisas. No se trata solo de "¿Estamos cumpliendo nuestro SLO?", sino de "¿Estamos ofreciendo un servicio fiable para todos los usuarios, en todas las circunstancias?".

Esto requiere una estrategia de dos frentes: primero, separar la señal del ruido y, segundo, dividir nuestra visión monolítica de la fiabilidad en segmentos significativos.

Estrategia 1: aislar la señal silenciando el ruido planificado

Una de las mayores fuentes de ruido en los cálculos de SLO es el mantenimiento planificado. Todo SRE conoce esa situación: tienes que realizar una actualización necesaria de la base de datos o un despliegue programado, y simplemente aceptar que tu presupuesto de errores se verá afectado. Este enfoque tiene un problema de base.

Un presupuesto de errores debería reflejar el nivel aceptable de fallas no planificadas. Es el margen que utilizas para innovar y asumir riesgos. Gastarlo en tiempo de inactividad planificado y previsto genera tres problemas:

  1. Genera exceso de alertas: las alarmas se activan durante períodos de inactividad previstos, lo que acostumbra a los equipos a ignorarlas.
  2. Distorsiona tu percepción de la fiabilidad: no es fácil distinguir entre el impacto en la fiabilidad causado por un incidente real y el causado por un cambio planificado.
  3. Penaliza injustamente a los equipos: el presupuesto de errores se agota incluso cuando el equipo ha hecho todo correctamente.

La solución consiste en tratar el tiempo de inactividad planificado como una categoría independiente. Al implementar ventanas de mantenimiento, puedes configurar tu plataforma de observabilidad para excluir de los cálculos de SLO períodos específicos aprobados previamente. Esto garantiza que tus métricas no estén contaminadas por ruido y reflejen únicamente el rendimiento de tu servicio durante sus períodos operativos previstos.

En New Relic, puedes programar estas ventanas para eventos puntuales o configurar programaciones recurrentes para períodos fuera del horario laboral. El resultado es un presupuesto de errores más limpio y preciso, que refleja con mayor fidelidad el impacto de los incidentes no planificados.

Estrategia 2: desglosa tu SLO para sacar a la luz información oculta

Una vez que hayas limpiado tu señal, el siguiente paso es desglosarla. Un SLO global es un punto de partida, pero la verdadera fiabilidad reside en los detalles. La clave es analizar tu servicio no como un monolito, sino como un conjunto de experiencias de usuario diferenciadas.

Es aquí donde segmentar tus SLO por atributos se convierte en una ventaja estratégica. En lugar de crear decenas de SLO independientes y difíciles de mantener, puedes desglosar (o aplicar FACET a) los datos de rendimiento de un único SLO utilizando los atributos que ya existen en tu telemetría.

Piensa en las dimensiones que son realmente importantes para tu negocio:

  • Por infraestructura: awsRegion, dataCenter, kubernetesClusterName
  • Por clientes: customerTier (p. ej., Free vs. Enterprise), subscriptionLevel
  • Por tecnología: deviceType (p. ej., móvil vs. escritorio), appVersion

Al segmentar tu SLO por estos atributos, puedes pasar de un único indicador a un análisis comparativo mucho más completo. En New Relic, habilitar la segmentación en un SLO proporciona de inmediato un desglose del cumplimiento y del presupuesto de errores para cada segmento. Podrías descubrir que, aunque la latencia global parece estar dentro de lo esperado, la región us-west-1 presenta problemas, o que los usuarios de la nueva versión de tu aplicación están teniendo una experiencia mucho peor.

Esta vista detallada te permite:

  • Detectar y corregir problemas de forma proactiva antes de que se conviertan en incidentes generalizados.
  • Centrar los esfuerzos de ingeniería donde más se necesitan.
  • Configurar alertas más precisas. En lugar de una alerta global llena de ruido, puedes crear una alerta específica que se active únicamente cuando un segmento crítico determinado (como tu nivel de clientes Enterprise) esté en riesgo.

Todas las piezas encajan: un enfoque más maduro de la fiabilidad

Cuando combinas estas dos estrategias, tu capacidad para gestionar la fiabilidad del servicio aumenta considerablemente. Ahora puedes utilizar una segmentación por atributos para identificar una región con problemas y, a continuación, usar una ventana de mantenimiento para implementar una corrección en esa región sin agotar el presupuesto de errores que le queda.

Así es como se ve una gestión madura de los niveles de servicio. Se trata de dejar atrás la ilusión de un único indicador en verde y adoptar una visión más matizada, honesta y accionable del rendimiento de tu sistema.

Al aislar el ruido y desglosar tus SLO, por fin puedes tener la certeza de que, cuando tus dashboards están en verde, lo están para todos.

Obtén más información