Em um mundo cada vez mais digital, as empresas estão buscando maneiras de garantir que seus sistemas e aplicações estejam sempre disponíveis e funcionando de maneira eficiente. É aqui que entram conceitos como Monitoramento, Observabilidade e AIOps. Esses termos, embora inter-relacionados, têm diferenças sutis e são usados para atender a diferentes necessidades das empresas.
O monitoramento é como uma foto estática. Ele nos dá uma visão instantânea do estado atual de nossos sistemas. No passado, ferramentas como Nagios e Introscope eram amplamente utilizadas para monitoramento. Elas forneciam alertas instantâneos quando algo dava errado, mas não ofereciam muita visão sobre o porquê. A verdade é que monitoramento é um termo amplo e que diz especificamente sobre acompanhar algo, porém hoje temos uma definição mais tradicional dependendo do contexto. Vamos ver muitos artigos e documentos tratando monitoração como uma prática como um todo e em outros veremos monitoração como algo arcaico, tradicional e obsoleto.
A observabilidade, por outro lado, é como um vídeo em movimento. Ela nos permite ver o que aconteceu no passado e como os sistemas evoluíram ao longo do tempo. Isso nos permite entender melhor o comportamento de nossos sistemas e identificar tendências ou padrões. Ferramentas modernas de APM (Application Performance Monitoring) como New Relic e Dynatrace são exemplos de soluções de observabilidade. Aqui temos uma evolução do que seria monitoramento, na verdade observabilidade é um super conjunto de monitoração como diria Cindy Sridharan. A monitoração está aqui inserida, mas a observabilidade traz algo mais, um modelo, uma prática e principalmente direcionamento para ambientes distribuídos e complexos.
Na observabilidade seguimos a busca pelos famosos pilares métricas, traces (rastreamento) e logs. Sim, eu sei, isso também existe na monitoração em conceito, mas como disse a observabilidade em grandes linhas, só traz uma prática mais integrada desses caras. Como citado acima, temos plataformas como Dynatrace, Datadog e outros que acoplam tudo isso em uma unica visão, fazendo que tenhamos mais qualidade ainda no dado monitorado, além de trazer também maior condição preditiva, visto que muitas das plataformas utilizam AI e ML para criar baselines (linhas de base) para o comportamento das métricas e conseguem ser mais dinamicas e proativa na detecção de possíveis desvios. Tudo isso, também permite que a visão de usuário seja mais qualificada, já que, com todos esses dados. podemos trilhar caminhos do botão de compras com lentidão para o usuário no site, até o disco rigido no storage do banco que apresentou problema e gerou lentidão, isso é basicamente a analise de RCA (Causa Raíz) que foi identificada e direcionada de maneira automática, onde ao invés de acionar o time de front, depois api, depois backend, depois banco e ai sim storage, ja teremos o responsavel direto pelo problema da lentidão na compra do usuário.
Finalmente, temos o AIOps, que é como o diretor de um filme. O AIOps usa inteligência artificial para analisar os dados de observabilidade e monitoramento, identificar problemas e sugerir soluções. Ele pode até mesmo tomar medidas automatizadas para resolver problemas antes que eles afetem os usuários. Nesse contexto, trazemos uma expansão ainda maior dos tópicos anteriores, porque nosso objetivo aqui é justamente fazer com que nossa operação e produção sejam ainda mais capacidades e automatizados.
Normalmente temos aqui grandes plataformas de Data Lake basicamente com ML e AI integrados (Splunk, Databricks e outras). A ideia é que todas nossas fontes de dados seja um Zabbix, Dynatrace, CMDB, ITSM estejam integrados e nosso AIOps consiga tanto receber o alerta direcionado, como correlacionar todos os envolvidos, impactantes e impactados, ao mesmo tempo que direciona a RCA diretamente para o responsável por soluciona-la e em um modelo maduro, junto com uma ferramenta de automação (Ansible Tower, Rundeck, vRO, etc) faça a correção automatizada do problema. Logo temos toda nossa camada de identificação de alertas, correlacionamento de eventos, mapeamento de causa raíz, normalização e formalização sendo realizados de maneira automatizada.
Empresas líderes de mercado como a Netflix e a Amazon têm investido pesado em observabilidade e AIOps. Eles reconhecem que, para oferecer a melhor experiência possível aos seus usuários, precisam não apenas monitorar seus sistemas, mas também entender como eles estão se comportando ao longo do tempo e ser capazes de prever e prevenir problemas antes que eles ocorram.
Espero que este artigo tenha ajudado a esclarecer esses conceitos para você. Lembre-se, cada um desses elementos — monitoramento, observabilidade e AIOps — desempenha um papel crucial na gestão eficaz dos sistemas de TI. Eles são como as peças de um quebra-cabeça que, juntas, nos dão uma imagem completa de nossos sistemas de TI.