Die globale für das Logmanagement verantwortliche Engineering-Organisation von New Relic verwendet ebenfalls die eigenen Produkte, um internen und externen Kund:innen einen herausragenden Service zu bieten. Das Logmanagement nimmt bei der New Relic Engineering-Organisation erheblichen Raum ein: Monat für Monat werden diverse Petabytes an Logs sowie Milliarden von Log-Abfragen verarbeitet. Die Organisation setzt echtes Continuous Deployment ein, mit häufigen, manchmal mehreren Dutzend Deployments pro Tag, und nutzt New Relic für Observability. Bei so häufigen Änderungen ist die zuverlässige Validierung von Deployments unverzichtbar, und New Relic liefert die dafür erforderlichen Einblicke.
„New Relic on New Relic“ und unser Loggingprodukt bringen uns echte Resultate:
- Servicequalität: Der Hauptnutzen liegt darin, dass wir der Kundschaft eine bestimmte Servicequalität bieten können, da sichergestellt wird, dass das Loggingprodukt intern effektiv funktioniert.
- Proaktive Fehlererkennung: Durch tägliche Verwendung von New Relic können Teams Probleme noch vor der Produktion ermitteln und beheben, wodurch die Auswirkungen auf die Kundschaft minimiert werden.
- Größere Release-Sicherheit: Die Möglichkeit, Probleme frühzeitig zu erkennen und zu beheben, sorgt für mehr Sicherheit bei Releases neuer Funktionen und Updates.
- Schnellere Incident Response: Die Teams, die zur New Relic Emergency Response Force (NERF) gehören, vertrauen auf das Loggingprodukt von New Relic zur effektiven Incident Response. Mit New Relic Alerts verknüpfte PagerDuty-Alerts liefern Diagramme mit Schlüsselmetriken und Runbook-Links, sodass die Diagnose in wenigen Schritten und die Behebung ohne Kontextwechsel durchgeführt werden kann.
Aus den vielen Metriken, die nachverfolgt werden, sind nachstehend diejenigen aufgeführt, die für einen zuverlässigen Betrieb am nützlichsten sind:
- Service-Level-Indikatoren (SLIs): Top-Level-SLIs werden regelmäßig auf wichtige Faktoren überprüft, z. B. Endpoint-Latenz für die Logerfassung und Compliance über verschiedene Integrationen hinweg (z. B. AWS Kinesis Firehose, TCP, syslog).
- Service-Level Objectives: Zuverlässige Verfügbarkeit steht auf der Prioritätenliste von New Relic ganz oben, und diese Metrik spiegelt die Verpflichtung von New Relic zur Einhaltung von Datenintegrität und Zuverlässigkeit wider.
- JavaScript-Fehler: Diese werden nach Umgebung, Browser, Benutzer:innen und Produktkomponenten überwacht, um die User Experience nachverfolgen und potenzielle Probleme zu ermitteln.
- Datenverzögerungen: Den Anstieg und Rückgang von Verzögerungen zu überwachen, ist besonders für die Incident Response wichtig, denn New Relic Kund:innen sind auf eine hohe Plattformverfügbarkeit angewiesen.
Für das Logmanagement nutzt die Engineering-Organisation zahlreiche New Relic Features, z. B.:
- Service-Level, APM, Infrastruktur-Observability und Logs: Dies sind Schlüsselelemente der Plattform. Sie dienen dazu sicherzustellen, dass die Hauptservices im Rahmen festgelegter Fehlerbudgets betrieben werden, und dass Probleme proaktiv erkannt und behoben werden.
- Proaktives Alerting: Für On-Call-Engineers ist das Alerting ein wesentlicher Bestandteil ihrer Incident Response, vor allem, wenn ihr Pager wegen potenziell schwerwiegender Probleme losgeht. Diese Alerts sind direkt mit New Relic Alerts verknüpft, die hilfreiche Diagramme für eine schnelle Diagnose bereitstellen. Durch diesen integrierten Alerting-Prozess zusammen mit etablierten Runbooks wird die Antwortzeit erheblich verkürzt und Probleme können proaktiv identifiziert und behoben werden.
- Umfassende Integrationen: Integrationen für die Services der großen Cloudanbieter, Open-Source-Tools sowie New Relic Agents ermöglichen eine toolübergreifende Datenerfassung und Logkorrelation, und das wiederum sorgt für flächendeckende Observability.