Dynatrace & New Relic — APM e Observabilidade
Guia técnico sobre APM com Dynatrace e New Relic: arquitetura, tracing distribuído, RUM, synthetics, data lakehouse, linguagens de query, automação, Kubernetes, OpenTelemetry e comparativo com Datadog e Grafana Cloud.
Visão geral de APM e observabilidade
Dynatrace e New Relic são plataformas de observabilidade full‑stack focadas em métricas, logs, traces, experiência digital (RUM/synthetics) e AIOps, com forte ênfase em ambientes cloud‑native e Kubernetes. Ambas competem diretamente com Datadog e Grafana Cloud, oferecendo APM, monitoramento de infraestrutura, logs, tracing distribuído, alertas e recursos de automação.
Em 2025, o padrão de mercado converge para: instrumentação automática (OneAgent/agents APM ou OpenTelemetry), data lake/lakehouse escalável, linguagem de query (DQL/NRQL), integrações profundas com pipelines CI/CD e automação via APIs e workflows.
Dynatrace — arquitetura OneAgent e plataforma
OneAgent e Smartscape topology
- OneAgent é o agente único da Dynatrace que, uma vez instalado em hosts ou clusters (VMs, containers, Kubernetes), auto‑descobre processos, serviços, pods, containers, bancos e dependências, instrumentando automaticamente tracing, métricas e logs.
- A partir desse inventário dinâmico, a Dynatrace monta o Smartscape, um grafo de topologia em tempo real que mostra a relação entre hosts, processos, serviços, aplicações e dependências externas, servindo de base para análises de causa raiz e navegação.
OneAgent combina instrumentação em nível de linguagem (Java, .NET, Node.js, etc.), infraestrutura (sistema operacional, contêiner, cloud) e, em alguns cenários, eBPF, reduzindo necessidade de configuração manual.
Davis AI para root cause analysis
- Davis AI é o motor de causal AI da Dynatrace, que ingere dados de métricas, logs, traces, eventos e topologia para detectar anomalias, agrupar problemas correlacionados e sugerir causa raiz com base em impacto de negócio.
- Em vez de alertar métrica por métrica, Davis combina o grafo do Smartscape com dados comportamentais (sazonalidade, baseline) para levantar “Problems” com contexto (serviços impactados, usuários, dependências) e, em Grail, aplicar algoritmos de anomalia em qualquer série temporal.
Dynatrace — RUM, synthetics e tracing distribuído
- Distributed tracing automático: com OneAgent, requests são rastreados fim‑a‑fim (PurePath tracing), capturando spans de serviços, chamadas externas, queries de banco, etc., sem necessidade de instrumentação manual na maioria das stacks.
- Real User Monitoring (RUM): captura performance e erros da perspectiva do usuário final em web e mobile, correlacionando sessões com backend (APM) para análise de impacto real.
- Synthetic monitoring: testes sintéticos de disponibilidade, latência e transações de usuário (click paths) em diferentes localidades, integrados à mesma vista de problemas e Davis AI.
Esses elementos permitem monitorar SLIs/SLOs (latência, erros, disponibilidade) tanto de usuários reais quanto sintéticos, alimentando incident response e SRE.
Dynatrace Grail e DQL
Grail data lakehouse
- Dynatrace Grail é o data lakehouse causal da plataforma, projetado para unificar dados de observabilidade, segurança e negócios com contexto preservado (sem indexação prévia rígida), usando um motor MPP.
- Armazena logs, eventos, métricas e traces (“Metrics on Grail”, “Traces on Grail”) com retenções longas (15+ meses) e explorabilidade instantânea, mitigando problemas de cardinalidade alta.
Grail é a fundação para analytics exploratório, data observability e novos casos de uso (graph analytics, lineage de dados), em estreita integração com Smartscape e Davis AI.
Dynatrace Query Language (DQL)
- DQL é a linguagem de query da Dynatrace para consultar e transformar dados dentro do Grail, semelhante a linguagens de logs/analytics (SQL‑like + operadores específicos).
- É usada para criar painéis, alertas, detecção de anomalias (via Davis AI) e workflows de automação; recentemente ganhou suporte a geração/explicação de queries via Davis CoPilot (assistente de IA).
DQL é o centro de análises customizadas, por exemplo, detectar anomalias em volume/freshness de dados de pipeline e acionar workflows automatizados.
Automação e Workflows na Dynatrace
- A plataforma oferece APIs REST e uma camada de Workflows low‑code para orquestrar ações com base em eventos, queries DQL e problemas de Davis.
- Exemplos:
- Executar DQL para verificar anomalias, e se o resultado excede threshold, abrir incidente em Jira/ServiceNow, escalar para PagerDuty ou reiniciar serviços via integração com Kubernetes.
- Automatizar runbooks de remediação com base em problemas recorrentes identificados por Davis AI.
Essa camada transforma a observabilidade em plataforma de auto‑remediação e data observability, indo além de dashboards/alertas tradicionais.
Integração da Dynatrace com Kubernetes
- OneAgent pode ser implantado como DaemonSet ou via operadora em clusters Kubernetes, reconhecendo automaticamente namespaces, pods, containers, serviços e controladores.
- A plataforma oferece visão “Kubernetes‑aware”: cluster explorer, métricas de nós/pods, eventos de control plane, health checks de workloads, auto‑discovery de apps e traces, tudo integrado ao Smartscape.
- Com Grail, métricas e traces do cluster são armazenados com contexto completo, possibilitando analytics avançados de consumo, capacidade, performance e até segurança (por exemplo, detectar padrões anômalos em pods).
New Relic — arquitetura New Relic One
New Relic One e agentes APM
- New Relic One é a plataforma unificada que agrega APM, infra, RUM, synthetics, logs, tracing, dashboards e alertas em um único plano de dados com precificação orientada a ingestão/usuários.
- Agentes APM estão disponíveis para Java, .NET, Node.js, Python, Go e outras linguagens, instrumentando automaticamente transações web, bancos, chamadas externas, erros e métricas chave.
New Relic enfatiza uso forte de OpenTelemetry: é possível combinar agentes proprietários com pipelines OTel (OTLP endpoint) para métricas, logs e traces, reduzindo lock‑in e facilitando migração futura.
Browser monitoring, infrastructure e logs in context
- Browser monitoring: script injetado para capturar RUM (timings, JS errors, Ajax) e correlacionar com transações backend.
- Infrastructure monitoring: agente infra coleta métricas de hosts, containers, cloud providers, integrando com APM para visão full‑stack.
- Logs in context: logs são correlacionados com traces e entidades APM através de campos de trace/span id; quando esses atributos são resolvidos, logs aparecem diretamente vinculados a traces/sessões, permitindo navegar entre views.
New Relic processa logs OTel via OTLP, mapeando campos de LogRecord para atributos internos; atributos como trace.id e span.id permitem logs‑em‑contexto para debugging.
New Relic — distributed tracing, NRQL, dashboards e alerting
- Distributed tracing: New Relic implementa tracing distribuído compatível com W3C Trace Context, correlando spans entre microserviços instrumentados por agentes ou OTel, permitindo visualizar transações ponta‑a‑ponta.
- NRQL (New Relic Query Language): linguagem SQL‑like para consultar métricas, eventos, logs e traces (ex.:
SELECT average(duration) FROM Transaction WHERE appName='api' SINCE 1 hour ago). - Dashboards são construídos sobre NRQL, permitindo visualizações customizadas, SLOs, SLIs e painéis multi‑time series.
- Alerting utiliza condições baseadas em NRQL (NRQL alerts) ou métricas predefinidas, com canais variados (e‑mail, Slack, PagerDuty, webhooks).
New Relic — synthetic monitoring, browser e infraestrutura
- Synthetic monitoring: monitores de ping, uptime, testes de API e scripts de browser para validar fluxos de usuário; integra com APM/RUM para análise conjunta de experiência digital.
- Browser monitoring: coleta page load timings, JS errors, AJAX timings, session traces e dados de front‑end, com segmentação por geo, device, navegador.
- Infrastructure monitoring: host/VM/container, CPU/memória/disco, processos, serviços, integrações com cloud providers (AWS, Azure, GCP).
Esses componentes formam um stack completo de DEM (Digital Experience Monitoring) e infra em linha com Dynatrace e Datadog.
Integração com OpenTelemetry na New Relic
- New Relic oferece endpoint OTLP para ingerir métricas, logs e traces diretamente de pipelines OTel, com documentação específica para logs, traces e correlação.
- Abordagem recomendada:
- Usar OpenTelemetry Collector para agregar dados de múltiplos serviços e enviar ao endpoint da New Relic.
- Configurar exportadores de logs, métricas e traces, garantindo inclusão de
service.name,trace_id,span_idpara correlação (logs em contexto).
Isso permite arquiteturas vendor‑neutral: dados coletados via OTel podem ir para New Relic hoje e, se necessário, ser redirecionados para outro backend no futuro (como Grafana Tempo/Mimir/Loki), com mínimo retrabalho.
Comparativo: Dynatrace vs New Relic (e Datadog, Grafana Cloud)
Foco de produto e UX
-
Dynatrace:
- Forte em auto‑descoberta opinativa (OneAgent + Smartscape) e causal AI (Davis) para root cause automatizado.
- Plataforma mais “fechada” e integrada, com lakehouse próprio (Grail + DQL) e experiências guiadas (problems, Davis CoPilot).
-
New Relic:
- Enfatiza plataforma única com precificação por ingestão e usuários, e forte suporte a OpenTelemetry.
- NRQL fornece flexibilidade alta para queries/dashboards; foco em custo previsível e transparência de preços em comparação a Datadog/Dynatrace.
-
Datadog (para referência):
- Muito forte em ecossistema de integrações (marketplace, integrações com quase qualquer stack), UI responsiva e detalhada, mas com modelo de licenciamento por SKU que pode se tornar caro e complexo em larga escala.
-
Grafana Cloud:
- Enfoque em stack baseado em projetos open source (Tempo, Loki, Mimir), com grande flexibilidade e forte apelo para times que querem uma plataforma observável “semi‑open” e orientada a OpenTelemetry.
Dados, lakehouse e query
- Dynatrace: Grail + DQL focados em retenção longa, cardinalidade alta, analytics e integração nativa com AI (Davis).
- New Relic: plano de dados unificado + NRQL para eventos/métricas/logs, com forte ênfase em ingest de qualquer dado observável via agents ou OTel.
- Grafana Cloud: estrutura mais modular (Tempo/Loki/Mimir/PromQL/LogQL), com trade‑off de integrações “faça você mesmo” vs plataformas mais plug‑and‑play.
Custo e lock‑in
- New Relic publica comparações de custo, alegando até 5x mais valor em certos cenários em comparação a Datadog, e custo similar ou menor que Dynatrace, graças a modelo usage‑based único para dados + usuários.
- Dynatrace e Datadog tendem a modelo por SKU/host/feature, que pode gerar “agent tax” e complexidade de licenciamento em stacks grandes.
- O uso de OpenTelemetry como camada de coleta comum reduz lock‑in para qualquer plataforma (Dynatrace, New Relic, Datadog, Grafana), permitindo “switch” de backend se necessário.
Em resumo:
- Escolha Dynatrace quando quiser máxima automação opinativa, causal AI forte e integração profunda com Kubernetes e topologia, aceitando maior acoplamento de plataforma.
- Escolha New Relic quando o foco for custo previsível, suporte forte a OpenTelemetry, flexibilidade via NRQL e stack full‑stack em um único “plano de dados” com logs em contexto.
- Considere Datadog se o ecossistema de integrações/pronta‑entrega e UX dinâmica forem prioridade; Grafana Cloud se quiser controle alto sobre stack open source e padronização em OTel/Prometheus/Tempo/Loki.
Fontes e leituras recomendadas
Dynatrace:
- Lançamento do Grail e integração com OneAgent, Smartscape, PurePath e Davis AI:
- Grail, Metrics on Grail, Traces on Grail e data lakehouse:
- Data observability em Grail + DQL + Workflows + Davis AI:
- Davis CoPilot para DQL:
New Relic:
- OpenTelemetry + New Relic One overview:
- Logs com OpenTelemetry e logs‑em‑contexto:
- Distributed tracing técnico:
- Comparativo de custo full‑stack (New Relic vs Dynatrace vs Datadog):
Comparativos gerais:
- Comparação Datadog vs New Relic vs Dynatrace (features, UX, pricing):
- https://www.graphapp.ai/blog/datadog-vs-new-relic-vs-dynatrace-comprehensive-comparison-guide
- Vídeo comparativo prático em 2025: https://www.youtube.com/watch?v=1KJzExbh3Kc
- Panorama de ferramentas de observabilidade 2025 (inclui Datadog, New Relic, Grafana, etc.):