AI / DevOps / SaaSProduct InterfacesDiscovery Sprint

Reduzindo o tempo de resposta a incidentes em 68% com um dashboard de observabilidade com IA

A NeuralOps tinha um motor de IA poderoso capaz de detectar anomalias de infraestrutura antes que se tornassem incidentes. O que faltava era uma interface que tornasse essa inteligência utilizável. Realizamos um Discovery Sprint, desenhamos o produto do zero e entregamos o dashboard v1 em 11 semanas.

68%

redução no tempo médio de resolução

91%

conversão de trial para pago (antes 9%)

340→18

alertas diários no Slack por engenheiro

4.7/5

pontuação de satisfação dos SREs aos 90 dias

11wks

do Discovery Sprint à produção

01 / O Problema

O pipeline de ML da NeuralOps gerava sinais precisos de alerta precoce — mas esses sinais chegavam por uma CLI e um emaranhado de alertas no Slack. As equipes de engenharia sofriam de fadiga de alertas: uma média de 340 notificações no Slack por engenheiro por dia, sem nenhuma forma de entender a severidade, agrupar eventos relacionados ou acompanhar o progresso da resolução. Os prospects adoravam a demo, mas a conversão de trial para pago estava travada em 9% porque o produto exigia muita expertise de configuração para parecer imediatamente valioso. O desafio central era claro: a inteligência existia; a interface para torná-la legível não.

02 / Nossa Abordagem

Iniciamos com um Discovery Sprint de cinco dias integrado às equipes de engenharia e sucesso do cliente da NeuralOps. Entrevistamos seis gerentes de engenharia e quatro engenheiros de confiabilidade de site em contas de trial, e acompanhamos duas rotações de plantão para entender como a resposta a incidentes realmente funcionava na prática — não como estava documentada. Três descobertas moldaram tudo: primeiro, engenheiros de plantão tomavam decisões de triagem em menos de 90 segundos, o que significava que o dashboard precisava comunicar severidade e raio de impacto de relance. Segundo, o colapso de contexto era a principal fonte de carga cognitiva — o mesmo problema subjacente poderia gerar mais de 40 alertas discretos sem nenhuma relação visível entre eles. Terceiro, as equipes queriam envolver o restante da organização de engenharia em post-mortems, mas não tinham um artefato compartilhável para ancorar a conversa. Também realizamos uma auditoria competitiva no Datadog, Grafana e PagerDuty — identificando onde a densidade de informações se tornava um obstáculo em vez de um ativo.

03 / A Solução

Desenhamos e construímos um dashboard React que organizou a inteligência de monitoramento em três camadas: uma superfície de Comando de Incidente em tempo real que agrupava alertas correlacionados em incidentes únicos com uma estimativa de raio de impacto gerada por IA; uma timeline de Saúde do Serviço que dava às equipes uma visão contínua de 72 horas da estabilidade de cada serviço, com drill-down para o sinal bruto; e um construtor de Post-Mortem que se auto-populava a partir dos dados do incidente e permitia anotação colaborativa antes da exportação. A linguagem visual foi deliberadamente contida — uma interface em modo escuro com um sistema estrito de quatro cores de severidade e gráficos de chama em D3.js que comunicavam a densidade de impacto sem sobrecarregar os engenheiros de plantão às 2h da manhã. Instrumentamos o dashboard com analytics de produto desde o primeiro dia, realizando sessões de revisão quinzenais com a equipe da NeuralOps para iterar nos padrões de interação com base em dados de uso real ao longo de um ciclo de lançamento de seis semanas.

Stack de Tecnologia

ReactTypeScriptTailwind CSSD3.jsWebSocketsStorybookVercel

“Tínhamos o modelo. A Leangency nos deu o produto. Antes do dashboard, nossos melhores clientes eram aqueles dispostos a lutar com a CLI — agora fazemos o onboarding de equipes enterprise em uma tarde. O agrupamento de incidentes por si só mudou como nossas rotações de plantão se sentem.”
P
Priya Anand
CTO, NeuralOps

Qual é o próximo passo

Pronto para construir algo assim?

Todo projeto começa com uma conversa. Agende uma call de discovery e vamos explorar como podemos ajudar.

Agendar uma Call de Discovery

Mais Casos de Sucesso