Back to top icon

A Era da Observabilidade

Por que o futuro é aberto, conectado, e programável

Introdução

Quando o fundador da New Relic, Lew Cirne, criou o monitoramento de desempenho de aplicativos (APM), a principal inovação era obter uma visibilidade aprofundada dos códigos em aplicativos monolíticos executados em um data center. Então, ele disponibilizou o APM como uma solução de SaaS para todos os engenheiros de desenvolvimento e de operações. Hoje, conforme novas tecnologias e práticas, como nuvem, microsserviços, contêineres, processos sem servidor, DevOps, engenharia de confiabilidade de sites (SRE) etc., aceleram a velocidade e diminuem a dificuldade de criar um software do código à produção, elas também apresentam uma complexidade maior. 

Como a empresa que desbravou e aperfeiçoou o monitoramento de desempenho de aplicativos, acreditamos que os desafios que as equipes modernas de software enfrentam necessitam de uma nova abordagem. A observabilidade resolve a complexidade e melhora o modo como os engenheiros mantêm a disponibilidade de sistemas modernos e oferecerem experiências excelentes ao cliente.

A observabilidade está ganhando atenção no mundo dos softwares devido à sua eficácia ao permitir que engenheiros gerem experiências excelentes para os clientes com o software, apesar da complexidade das operações digitais modernas.

Mas vamos deixar uma coisa clara: observabilidade não é uma palavra chique para monitoramento.

O monitoramento dá instrumentação às equipes de software, que coleta dados sobre seus sistemas e permite que elas respondam rapidamente em caso de erros e problemas. Ou seja, o monitoramento é a preparação de seus sistemas para coletar dados, com o objetivo de saber quando algo dá errado e começar a responder rapidamente. 

Já a observabilidade é a prática de instrumentalizar esses sistemas com ferramentas para coletar dados viáveis que esclareçam não só quando um erro ou problema ocorreu, mas ainda mais importante, o porquê. O segundo item é o que as equipes precisam resolver depressa para solucionar emergências em softwares modernos.

A observabilidade ajuda as equipes de softwares modernos a:

  • Fornecer softwares de alta qualidade em larga escala
  • Desenvolver uma cultura sustentável de inovação
  • Otimizar investimentos em ferramentas modernas e na nuvem
  • Ver o desempenho de seu negócio digital em tempo real

Na New Relic, acreditamos que métricas, eventos, logs e traces (ou M.E.L.T., como chamamos) são os tipos de dados de observabilidade essenciais. No entanto, a observabilidade é muito mais do que apenas dados.

Como você pode estabelecer a observabilidade de seus sistemas? E quais resultados você pode esperar quando tem observabilidade? Na nossa opinião, há quatro desafios principais que demandam observabilidade. E para enfrentar esses desafios, as empresas precisam adotar uma prática de observabilidade com base em três componentes: instrumentação aberta, dados conectados e programabilidade. Neste e-book, apresentaremos essas tendências, desafios e componentes.

Capítulo 1: As arquiteturas modernas necessitam de uma nova abordagem de monitoramento

O ritmo das inovações tecnológicas nos últimos cinco a dez anos é impressionante e afetou muito as equipes de software. As principais tendências incluem:

  • Pressão para inovar rápido: as equipes de software enfrentam uma pressão imensa para lançar no mercado novos recursos e experiências mais rapidamente e com mais frequência do que a concorrência. A nuvem aumentou o cenário competitivo ao diminuir a barreira de entrada, exigindo que equipes de software trabalhem e se adaptem mais rápido do que nunca e, muitas vezes, com menos recursos. As equipes de alto desempenho implantam software entre uma vez por hora e uma vez por dia, já as equipes de elite implantam sob demanda várias vezes ao dia.
  • Expectativas mais altas dos clientes: os clientes estão esperando mais e tolerando menos. Experiências de usuário lentas, com erros ou design insatisfatório não têm chance com os clientes. Se não conseguirem fazer o que querem, eles vão te abandonar. De acordo com a desenvolvedora de aplicativos para dispositivos móveis Dot Com Infoway, 62% das pessoas desinstalam um app se passarem por crashes, engasgos ou erros. As equipes de elite no desempenho de entrega de software restauram o serviço em caso de incidente ou defeito que afete os usuários em menos de uma hora. Em comparação, as equipes de baixo desempenho demoram de uma semana a um mês para restaurar o serviço.1

  • Mais opções de tecnologia: atualmente, as organizações desenvolvem arquiteturas de microsserviços e sistemas distribuídos em diferentes provedores de nuvem e plataformas de computação. Esses sistemas estão mais fáceis de adotar e usar do que nunca e trabalham juntos de maneira cada vez mais otimizada. Você pode escolher vários sistemas e serviços para dar suporte ao que precisar em um stack de tecnologia moderno, sem o esforço de gerenciamento para configurar e mantê-lo.

  • A ascensão de DevOps e automação: as empresas estão se organizando em torno de equipes autônomas, responsáveis pelo design de ponta a ponta, entrega e operação de serviços de sua produção. Às vezes, elas usam as plataformas e ferramentas comuns fornecidas como serviços por equipes internas da plataforma. A automação reduz o trabalho repetitivo e de baixo valor e melhora a confiabilidade. Em uma arquitetura nativa na nuvem, tudo no stack é controlado por softwares e toda a área da superfície é programável. No entanto, como toda automação é um software, ela pode falhar. As equipes precisam monitorar seu CI/CD e outras ferramentas de automação exatamente como fariam com aplicativos que atendem a seus clientes diretamente. A coleta de dados sobre todos os componentes de um sistema é a essência da observabilidade.

Essas tendências estão criando quatro grandes desafios que geram a necessidade da observabilidade nos sistemas modernos:

  1. Maior complexidade: embora as tecnologias nativas na nuvem tenham transformado o desenvolvimento, a entrega e a operação dos aplicativos, elas também aumentaram a complexidade para as equipes de manutenção. Como os aplicativos monolíticos são refatorados em microsserviços, em que a vida útil de um contêiner pode ser medida em minutos ou menos, agora as equipes de software têm serviços em constante mudança. Já que cada aplicativo é repartido em possíveis dezenas de microsserviços, as equipes de operação enfrentam a complexidade do dimensionamento: elas agora são responsáveis por serviços que conhecem pouco, mas precisam manter.
  2. Maior risco: implementações frequentes e infraestrutura dinâmica introduzem mais risco e com mais frequência. Esse risco aumentado torna a detecção e a reversão instantâneas muito mais importantes do que na época de implementações esporádicas. E, conforme as empresas adotam práticas ágeis e entrega contínua para fornecer softwares ainda mais rapidamente, elas estão adicionando outra área da superfície de software (por meio de ferramentas e pipelines de entrega) que precisa ser monitorada e mantida.
  3. Lacunas de habilidades: a explosão de arquiteturas de microsserviços trouxe novos desafios, pois as equipes de software precisam repensar como projetam, desenvolvem e implementam os aplicativos. Todos os membros da equipe também precisam entender e poder solucionar problemas em partes de aplicativos antes desconhecidas. Atualmente, um especialista em banco de dados, por exemplo, precisa entender de redes e de APIs. A desvantagem é que o número de tecnologias novas e diferentes que as equipes precisam aprender a usar é vasto demais para uma única pessoa dominar. As equipes precisam poder entender melhor essas tecnologias no contexto do trabalho que realizam.
  4. Ferramentas demais: ambientes híbridos, milhares de contêineres em produção e diversas implantações por dia resultam em volumes imensos de dados de telemetria operacional. Lidar com várias ferramentas de monitoramento e a mudança de contexto para encontrar e correlacionar os dados mais importantes, ou para encontrar e resolver problemas, gasta um tempo precioso que as equipes não têm quando seus clientes são afetados por um problema de produção.

Considerando essas tendências e desafios, além do ritmo geral das mudanças tecnológicas, as equipes precisam de uma única solução para reduzir a complexidade e o risco, que também faça isso com pouca sobrecarga. A solução precisa fechar as lacunas de habilidades e ser fácil de usar, entender e navegar ao coletar o contexto essencial. Ela também precisa permitir que qualquer equipe de uma organização veja todos os seus dados de observabilidade em um só lugar e obtenha o contexto necessário para deduzir um significado e tomar a medida certa.

1. “Accelerate: State of DevOps 2019,” DORA, setembro de 2019

Capítulo 2: A era da observabilidade

Embora o monitoramento em geral tenha começado pelo menos no começo da era Unix (a primeira edição foi lançada em 1971), o termo monitoramento de desempenho de aplicativo (APM) só começou a ter seu uso difundido no começo dos anos 2000. Desde então, o monitoramento evoluiu para fornecer métricas e tracing detalhados, além de alertas de desempenho e experiência do usuário por todo o stack de tecnologia, incluindo a nuvem.

Agora, como os ambientes modernos estão cada vez mais complexos, a observabilidade é extremamente importante para o sucesso futuro das equipes de software e suas organizações. Com ela, as equipes têm uma visualização conectada de todos os seus dados de desempenho em um só lugar, em tempo real, para localizar problemas mais rapidamente, entender suas causas e, por fim, proporcionar experiências excelentes para o cliente.

A observabilidade não é um conceito novo. Ela tem sua origem na teoria de engenharia e controle e foi introduzida pelo engenheiro húngaro-americano Rudolf E. Kálmán para sistemas dinâmicos lineares. Uma definição geral aceita da observabilidade, como aplicada na teoria de engenharia e controle, é uma medida de como os estados internos de um sistema podem ser inferidos de conhecimentos de suas saídas externas.

No ciclo de vida dos softwares, a observabilidade engloba a coleta, visualização e análise de métricas, eventos, logs e traces para criar um quadro holístico da operação de um sistema. A observabilidade permite que você entenda por que algo está errado, enquanto o monitoramento apenas avisa quando algo está errado.

Yuri Shkuro, autor e engenheiro de software da Uber Technologies, explica a diferença da seguinte maneira: o monitoramento mede o que você decide que é importante com antecedência, enquanto a observabilidade é a habilidade de fazer perguntas que você não sabe de antemão sobre seu sistema.

Como dissemos anteriormente, na New Relic acreditamos que métricas, eventos, logs e traces são os tipos de dados essenciais da observabilidade, e que os eventos são um tipo de telemetria essencial (e muitas vezes negligenciado) que deve fazer parte de qualquer solução de observabilidade. Falaremos mais sobre isso em breve. No fim das contas, quando instrumentamos tudo e usamos esses dados de telemetria para criar um conhecimento fundamental e funcional das relações e dependências de nosso sistema, além de seu desempenho e integridade, estamos praticando a observabilidade. Porém, a abordagem da New Relic é ainda mais complexa do que isso, pois acreditamos nos três principais componentes da observabilidade.

Capítulo 3: Os três principais componentes da observabilidade

Até agora, definimos observabilidade como a prática de instrumentalizar sistemas para coletar dados viáveis que proporcionem, além do momento de um erro, também o seu porquê. A habilidade de responder por que é como as equipes realmente resolvem problemas na sua causa raiz e garantem a confiabilidade do sistema. Para alcançar a observabilidade de seus sistemas, acreditamos que você precisa de três elementos principais:

  1. Instrumentação aberta: definimos instrumentação aberta como a coleta de dados de telemetria de código aberto ou específico do fornecedor em um aplicativo, serviço, host de infraestrutura, contêiner, serviço na nuvem, função sem servidor, aplicativo para dispositivos móveis ou qualquer outra entidade que emita dados. Ela fornece visibilidade a toda a área da superfície de aplicativos e infraestrutura essenciais para o negócio.
  2. Entidades conectadas: esses dados de telemetria precisam ser analisados para que as entidades que os produzem sejam identificadas e conectadas. Além disso, os metadados precisam ser incorporados para criar correlação entre as entidades e seus dados. Essas duas ações criam contexto e significado em grandes volumes de dados. Com esse contexto, a seleção pode ser entregue como modelos visuais do sistema ou tecnologia sem configuração extra. O último benefício das entidades conectadas é que essa inteligência pode ser aplicada para gerar ainda mais significado. Inteligência aplicada é a aplicação de machine learning e ciência de dados para procurar por padrões ou anomalias nos dados, para que assim os humanos possam tomar decisões e agir.
  3. Programabilidade: cada empresa é única e nenhuma seleção automática consegue atender a todas as diferentes necessidades de uma empresa, nem se adequar a todos os seus casos de uso. As empresas precisam de uma maneira de criar seu próprio contexto e seleção com todos os dados de telemetria, misturando dados e dimensões comerciais críticos. A New Relic é única no espaço da observabilidade a reconhecer a importância dessa necessidade, permitindo que os clientes desenvolvam aplicativos com os dados de telemetria. Um exemplo: conseguir demonstrar claramente o custo de erros e falhas em um processo de negócios, correlacionar dinheiro de verdade a essas falhas e fornecer um caminho para se aprofundar nos dados para encontrar as causas.

Para saber mais sobre a evolução da observabilidade para dar suporte aos softwares modernos, leia The 10 Principles of Observability: Guideposts on the Path to Success with Modern Software.

Capítulo 4: Instrumentação aberta

Quando a New Relic começou em 2008, a melhor maneira de coletar telemetria para observabilidade era através dos agentes. Desenvolvedores de software e equipes de operações implementavam agentes em seus aplicativos e hosts e eles coletavam dados de métricas, eventos, traces e logs, os combinavam de maneiras proprietárias e os enviavam para serem agregados e exibidos.

Embora essa ainda seja uma maneira eficaz de coletar telemetria, hoje o setor mudou. Agora, há muitas outras fontes de telemetria. Muitas estruturas e sistemas abertos de desenvolvimento de software têm métricas, eventos, logs e traces incorporados que emitem resultados em formatos comuns. Para a observabilidade, você precisa coletar dados de fontes abertas e proprietárias e combiná-las em um só lugar. Você precisa aplicar a instrumentação automaticamente onde fizer sentido e adicioná-la aos locais onde mais precisa de visibilidade.

 

New Relic unified data eliminates blind spots

M.E.L.T.: uma explicação breve

Na maioria dos casos, as métricas são o ponto inicial da observabilidade. Sua coleta gera pouca sobrecarga, seu armazenamento não é caro, elas são dimensionais para análises rápidas e uma boa maneira de medir a integridade geral. Por causa disso, surgiram muitas ferramentas para a coleta de métricas, como Prometheus, Telegraf, StatsD, DropWizard e Micrometer. Muitas empresas até desenvolveram seus próprios formatos internos para a coleta de métricas com base em repositórios de dados abertos, compatíveis com séries de tempo, como o Elasticsearch. Uma solução de observabilidade precisa ser capaz de consumir métricas de qualquer uma das fontes que equipes diversificadas adotaram nas operações digitais modernas.

Os traces são importantes para exibir a latência de ponta a ponta de chamadas individuais em uma arquitetura distribuída. Essas chamadas proporcionam esclarecimentos específicos sobre as diversas jornadas dos clientes ao longo de um sistema. Os traces permitem que os engenheiros entendam essas jornadas, encontrem gargalos e identifiquem erros para a correção e otimização. Assim como as métricas, muitas ferramentas surgiram (Jaeger, Zipkin, e AWS X-ray, entre inúmeras outras) de soluções personalizadas criadas por organizações sofisticadas.

O contexto do trace W3C logo se tornará o padrão para propagar "contextos do trace" para além dos limites dos processos. O contexto do trace proporciona uma maneira padrão de rastrear o fluxo de dados em um sistema, rastreando chamadas originárias—spans pais e seus filhos—em sistemas distribuídos complexos. Quando os desenvolvedores usam um padrão para o seu contexto do trace, spans de sistemas diferentes podem ser reunidos de maneira confiável para a exibição e pesquisa em uma plataforma de observabilidade. O contexto do trace também contém tags importantes e outros metadados que aumentam a eficiência de pesquisa e correlação.

Parte da Cloud Native Computing Foundation (CNCF), o projeto de OpenTelemetry reúne a coleta de métricas e traces em um formato aberto. À medida que mais organizações adotarem a OpenTelemetry, esperamos ver mais instrumentação incorporada padrão e comum, que reduza a necessidade de executar agentes para a instrumentação de bytecodes no tempo de execução. Considerando a amplitude de ferramentas como Kubernetes e Istio na CNCF e sua rápida adoção, a OpenTelemetry deve se tornar onipresente nos softwares modernos como fonte de telemetria.

Os logs são importantes quando os engenheiros estão imersos no modo de debug, tentando entender um problema. Os logs fornecem dados de alta fidelidade e contexto detalhado sobre um evento, para que os engenheiros possam recriar o que aconteceu a cada milésimo de segundo. Assim como nas métricas e nos traces, surgiram ferramentas para reduzir o trabalho e o esforço de coletar, filtrar e exportar logs. Soluções comuns incluem Fluentd, Fluent Bit, Logstash e AWS CloudWatch, além de muitos outros padrões emergentes.

Todos esses projetos de métricas, logs e traces estão construindo um futuro em que a instrumentação ficará mais fácil para todos graças a essa abordagem no estilo "tudo incluso".

Eventos são um tipo de telemetria essencial, mas muitas vezes negligenciado, que precisa estar incluído em qualquer solução de observabilidade. Infelizmente, embora eventos e logs tenham algumas semelhanças, os dois muitas vezes são considerados uma coisa só. Os eventos são registros únicos e detalhados de pontos importantes de análise. Mas eles têm uma abstração maior do que o nível de detalhes fornecido pelos logs. Os logs são registros abrangentes e únicos de tudo que aconteceu em um sistema. Já os eventos são registros de fatos selecionados importantes que aconteceram, com metadados anexos ao registro para aumentar seu contexto. Por exemplo, quando o New Relic coleta eventos de transação, ou seja, ocorrências individuais da execução de um método ou bloco de códigos em um processo, os dados são adicionados automaticamente para mostrar o número de chamadas do banco de dados executadas e a duração dessas chamadas.

 

O que são os eventos?

Os eventos são o tipo de dados mais crítico para a observabilidade. Os eventos são diferentes dos logs. Eles são registros únicos e detalhados de pontos significativos de análise, mas proporcionam uma melhor abstração do que os detalhes fornecidos pelos logs. Alertas são eventos. Implementações são eventos, assim como as transações e os erros. Os eventos permitem fazer análises específicas em tempo real.

 

 

Embora a maioria das ferramentas de código aberto que fornece instrumentação essencial também ofereça um repositório de dados únicos para coletar, armazenar e disponibilizar dados para análise, isso diminui a utilidade da observabilidade, pois força engenheiros e equipes a conhecer e entender diferentes ferramentas. Sem um repositório de dados unificado, em caso de problemas ou emergências, os engenheiros precisam alternar entre os contextos de diferentes ferramentas para encontrar a raiz do problema. Uma solução de observabilidade aberta tem interoperabilidade de todos os seus dados, independentemente da origem. Além disso, ela cria automaticamente as entidades e conexões entre eles, fornecendo o contexto crucial.

Capítulo 5: Dados conectados e selecionados

Reunir dados de telemetria de praticamente qualquer origem em um só lugar é um bom começo, mas não é o bastante. Seus dados precisam estar conectados de uma maneira que ajude você a entender as relações entre entidades, além de estarem correlacionados com metadados para que você possa entender a relação deles com sua empresa. Essas conexões dão aos seus dados contexto e significado. Contexto gera, por exemplo, perspectivas selecionadas que trazem à tona as informações mais importantes sobre seus dados e modelam seu ambiente específico. Além disso, quando todos os seus dados e conexões de telemetria estão armazenados em um único lugar, você pode aplicar inteligência a conjuntos de dados enormes e identificar padrões, anomalias e correlações que não podem ser identificados facilmente por humanos observando painéis.

Basicamente, você precisa de uma maneira de enxergar as relações de todas as entidades de seu sistema umas com as outras quando desejar. Simplesmente não é viável manter um mapa mental do seu sistema quando ele muda todos os dias, todas as horas ou todos os minutos. Também não é viável contar com a configuração para gerenciar essas relações. Conforme as equipes vão adicionando novos sistemas, refatorando os antigos, ativando e desativando instâncias efêmeras de aplicativos, fica impossível manter um mapa mental. Mas as entidades, suas conexões e relações fazem parte de um contexto essencial para a observabilidade.

É impossível ter contexto sem metadados e dimensões. Dependendo de seu sistema, negócio ou aplicativo, o espectro de dados importantes pode ser enorme. Por exemplo, no caso de um aplicativo de e-commerce, o contexto útil inclui, sem limitações:

  • Detalhes sobre a equipe responsável, o runbook e o repositório de códigos
  • Tags do Docker ou provedor na nuvem da implantação
  • Sua função e tipo de serviço
  • As regiões onde foi implementado
  • Suas dependências upstream e downstream
  • Seus eventos de implantação ou alteração
  • Seu status de alerta
  • Qualquer dado de trace ou log associado à transação realizada
  • Dados comerciais extra (exemplo: valor do carrinho)

A seleção de visualizações de dados é uma ferramenta poderosa para trazer à tona entidades conectadas, compreendidas e bem definidas. Nós já sabemos como representar melhor um processo de aplicativo Java executado em um contêiner ou uma função do AWS Lambda que chama o DynamoDB após uma chamada do SQS, ou um cluster do Kubernetes que está executando uma implantação dinâmica; nós já solucionamos esses problemas. E para um engenheiro de SRE ou DevOps ocupado, modelar esses ambientes em um conjunto de painéis é uma perda de seu tempo precioso. Uma plataforma de observabilidade deve incorporar as práticas recomendadas dos líderes do setor e exibir os sinais mais importantes de integridade, além de fornecer experiências interativas para permitir que os engenheiros resolvam problemas rapidamente. Criar visualizações e painéis manualmente para tecnologias específicas e onipresentes é um trabalho árduo.

A seleção contextualizada também ajuda a fechar a lacuna de habilidades em uma operação digital complexa. Com ela, todos na organização conseguem visualizar os fluxos e dependências de seus sistemas complexos e ver tudo que é relevante para todo o ambiente. Uma vez que essa seleção modela diversos sistemas, cria-se uma compreensão mais acessível para as pessoas, mesmo quando elas não conhecem aquela tecnologia ou código específico.

A observabilidade não é nada se você não puder agir rapidamente em caso de problemas no sistema. Com machine learning e análises preditivas, a inteligência aplicada pega os dados de observabilidade e os transforma em algo significativo e prático. Às vezes chamada de inteligência artificial para operações de TI, ou AIOps de acordo com a Gartner, uma empresa de análises do setor, a inteligência aplicada encontra o sinal em meio ao barulho para que você possa tomar a decisão certa. 

A inteligência aplicada fornece orientações claras, mesmo em conjuntos de dados grandes e complexos. As máquinas são ótimas para identificar padrões, tendências e erros em dados em uma escala que os humanos não conseguem imitar. Os recursos certos de inteligência aplicada detectam problemas assim que possível a partir dos dados de telemetria e associam e priorizam eventos para reduzir a repercussão e o cansaço causado por alertas. A inteligência aplicada pode enriquecer automaticamente os alertas de incidentes com o contexto, as orientações e as sugestões relevantes, incluindo recomendações que podem ajudar você a identificar a verdadeira causa raiz de um problema e como resolvê-lo.

Veja um exemplo da inteligência aplicada em ação: sua equipe recebe um alerta sobre uma violação do limite de tempo de resposta em um aplicativo. A inteligência já examinou automaticamente a taxa de transferência, os erros de latência e os sinais de transação relacionados ao aplicativo nas seis horas anteriores ao alerta. Nessa situação, a inteligência detecta a latência no repositório de dados usado pelo aplicativo e revela uma ligação direta entre o problema do banco de dados e a resposta lenta do aplicativo. Seus benefícios têm duas vertentes:

  1. Como a inteligência aplicada já realizou a análise essencial de resolução de problemas e reduziu seu tempo médio até a descoberta (MTTD), sua equipe pode resolver o problema subjacente mais rapidamente e, por sua vez, diminuir o tempo médio até a resolução (MTTR).
  2. Já que a inteligência aplicada fica mais útil quando treinada com mais dados e você pode filtrar a interferência de alarmes insignificantes ou falsos, sua equipe reduzirá significativamente o cansaço geral causado por alertas, se concentrando em fornecer softwares melhores, mais depressa.
Example of a New Relic incident alert as viewed through a Slack message
blank image

 

Ao conseguir visualizar as dependências e detalhar os tipos de telemetria em tempo real, você consegue entender mais fácil e rapidamente os problemas do sistema e solucionar os erros para obter os motivos por trás dos dados. Quando a modelagem eficaz do ambiente técnico é feita automaticamente, as visualizações selecionadas facilitam a busca por causas raiz para todo mundo. E aplicar inteligência a conjuntos de dados grandes revela conexões nos dados, permitindo que as pessoas façam o seu melhor: tomar decisões complexas em situações difíceis.

Capítulo 6: Programabilidade

Conectar dados de observabilidade aos resultados comerciais é um passo essencial que as organizações precisam dar para se tornarem negócios digitais maduros. Você deve começar com medidas de sucesso críticas de negócios e então identificar os principais indicadores de desempenho (KPIs) que contribuem diretamente para o sucesso dessas métricas. Métricas como latência, erros ou carregamento de página são escolhas óbvias para entender o desempenho do aplicativo, mas não são tão úteis para entender o impacto dele na experiência do cliente e KPIs comerciais.

Por isso, é importante conectar a observabilidade novamente aos negócios e proporcionar às equipes os esclarecimentos necessários para tomar decisões orientadas por dados. A pergunta é: como? 

Para a maioria das soluções, a resposta é visualizar os KPIs em painéis. Os painéis são uma ótima ferramenta para exibir visualizações específicas de dados rapidamente. Eles são ferramentas flexíveis e eficazes, fundamentais para qualquer solução de observabilidade. Mas considerando o ambiente específico de tecnologia e os KPIs únicos da sua empresa, é mais importante do que nunca ir além dos painéis e desenvolver aplicativos para gerar dados sobre seu negócio digital e combiná-los com dados de telemetria. Ao conectar dados comerciais com sua plataforma de observabilidade, o aplicativo pode criar uma experiência selecionada interativa, com fluxos de trabalho incorporados e que permita a combinação de conjuntos de dados externos em tempo real. Os painéis não conseguem fazer isso, mas os aplicativos sim.

Para conectar dados comerciais e de telemetria em aplicativos, sua solução de observabilidade precisa ser uma plataforma e você precisa poder criar com base nela. Ela precisa ser programável.

Quando você tem uma plataforma de observabilidade na qual pode desenvolver aplicativos criados sob medida para suas necessidades específicas, consegue fazer coisas que antes não eram possíveis em uma ferramenta de observabilidade, como:

  • Priorizar investimentos em softwares e medir a eficácia deles em tempo real.
  • Entender, com contexto detalhado, as relações entre sua tecnologia, sua empresa e seus clientes.
  • Tomar decisões orientadas por dados que tem impacto direto maior em KPIs específicos.
  • Compartilhar conhecimento por visualizações interativas criadas para modelar sua empresa e não apenas seu ambiente tecnológico.
Example of a programmable dashboard showing click rate along a customer journey

 

Por fim, uma plataforma de observabilidade programável permite que as equipes desenvolvam aplicativos que levam seu sistema único de registros em consideração sem precisar implantar outra ferramenta. Isso tem vários benefícios: redução da alternância de contexto entre ferramentas em uma emergência, redução do tempo e trabalho de provisionamento, operação, manutenção e monitoramento de outro sistema, além da redução de custos com compra, desenvolvimento e aprendizado de mais uma ferramenta.

Capítulo 7: Unindo tudo

Com o avanço da inovação de softwares, o mundo continuará girando mais rápido e ficando mais complexo. Assim como as últimas tecnologias e tendências tecnológicas não poderiam ter sido previstas há alguns anos, não sabemos quais serão os próximos grandes avanços. O que sabemos é que essa inovação e complexidade contínuas continuarão aumentando as expectativas sobre nossas equipes para agir mais rápido, adotar novas tecnologias e não gerar erros, tudo em alta velocidade. Você também terá que automatizar mais e acompanhar o ritmo das expectativas dos clientes que foram definidas por outras empresas, incluindo seus concorrentes, que fornecem experiências de ponta.

Considerando esses desafios, você precisa de uma única plataforma de observabilidade que reduza a complexidade e o risco e faça isso com pouca sobrecarga. Você precisa de uma plataforma que acabe com as lacunas de habilidades por ser fácil de usar, entender e navegar para obter contextos essenciais, para que seu uso não seja um empecilho para as equipes de uma organização. Você precisa de uma plataforma que permita que sua equipe veja toda a sua telemetria e seus dados comerciais em um só lugar, obtenha o contexto que precisa para entender tudo rapidamente e tomar a decisão certa e trabalhe com os dados de maneira significativa para você e sua empresa.

Uma plataforma de observabilidade deve:

  • Coletar e combinar dados de telemetria abertos e internos em um só lugar. Essa instrumentação aberta reduz a proliferação de ferramentas e a alternância entre contextos em caso de problemas e emergências, visto que isso causa a interoperabilidade dos dados, independentemente da origem.
  • Formar conexões e relações entre entidades e aplicar essas conexões para criar contexto e significado, permitindo você entenda os dados. O contexto deve ser apresentado em visualizações selecionadas que mostram as informações mais importantes.
  • Permitir que você desenvolva aplicativos personalizados com base nela. Diferente dos painéis, os aplicativos proporcionam experiências interativas e selecionadas. Muitas vezes, eles têm fluxos de trabalho incorporados e permitem reunir conjuntos de dados externos em tempo real. A programabilidade redefine as possibilidades da observabilidade.

Quando você tem uma plataforma de observabilidade aberta, conectada e programável, os benefícios para o seu negócio são profundos: inovação mais rápida, implementações mais ágeis, menos trabalho, redução de custos e melhor compreensão de como priorizar seu tempo e atenção finitos. Tudo isso leva a uma compreensão compartilhada muito mais profunda de seus dados, sistemas e clientes. Assim, você melhorará sua cultura e impulsionará o crescimento da sua empresa à medida que ganha perspectivas de tempo real sobre o desempenho de seus sistemas digitais e como seus clientes interagem com seu software, o que permite que você se concentre no que mais importa: os resultados comerciais que precisa gerar todos os dias.

Observabilidade unificada para equipes de softwares modernos

Resolva problemas mais rápido, trabalhe com mais inteligência e crie experiências digitais melhores.

Começar Fale conosco