Prometheus Grafana OpenTelemetry 可观测性实战调试指南

使用Prometheus、Grafana和OpenTelemetry构建可观测性：实战调试指南

Observability 6min 88 浏览 2026-06-14

KubernetesSREPrometheusGrafanaOpenTelemetry可观测性

场景

你的团队在Kubernetes上运行微服务，并已部署OpenTelemetry Collector收集追踪、指标和日志。Prometheus从Collector抓取指标，Grafana用于可视化。然而，你注意到某些服务的响应时间变慢，Grafana仪表盘中的指标缺失，分布式追踪中频繁出现错误。

症状

用户报告API响应延迟超过5秒。
Grafana中“请求延迟”面板显示为空或数据不完整。
Jaeger或Grafana Tempo中追踪跨度显示错误状态。
Prometheus目标状态显示up为0或部分失败。

诊断

检查OpenTelemetry Collector状态：使用kubectl get pods -n observability查看Collector Pod是否运行。检查日志：kubectl logs -n observability <collector-pod> --tail=50，查找导出错误或配置问题。
验证Prometheus抓取配置：查看Prometheus配置中scrape_configs是否包含Collector端点。运行promtool check config /etc/prometheus/prometheus.yml（如果容器内可用）。
测试Collector指标端点：直接curl Collector的/metrics端点，确认暴露Prometheus格式指标。例如：kubectl exec -n observability <collector-pod> -- curl localhost:8888/metrics | head
检查Grafana数据源：确保Prometheus数据源配置正确，测试连接。
分析追踪：在Grafana Explore中使用Tempo或Jaeger数据源查询最近追踪，查看错误跨度及其父跨度。

命令（示例）

# 查看Collector Pod状态
kubectl get pods -n observability -l app=otel-collector

# 查看Collector日志
ddLOG=$(kubectl logs -n observability --tail=100 -l app=otel-collector)
echo "$LOG" | grep -i error

# 使用curl从Collector获取指标
ddMETRICS=$(kubectl exec -n observability deploy/otel-collector -- curl -s localhost:8888/metrics)
echo "$METRICS" | grep -E "(otelcol|go_|process_)" | head -20

# 使用promtool检查Prometheus配置（需安装promtool）
promtool check config /etc/prometheus/prometheus.yml 2>&1 || true

# 查询Prometheus目标状态
kubectl port-forward svc/prometheus-server 9090:80 -n monitoring &
curl -s http://localhost:9090/api/v1/targets | jq '.data.activeTargets[] | {job: .labels.job, health: .health}'

风险控制

在非生产环境复制问题后再进行更改。
修改OpenTelemetry Collector配置前备份config.yaml。
使用Prometheus的--web.enable-lifecycle允许热加载配置，但生产环境建议通过ConfigMap更新。
不要直接修改生产Prometheus或Collector的配置，使用版本控制（Git）管理。

回滚

如果更改Collector配置导致问题，恢复之前的ConfigMap：kubectl apply -f backup-otel-collector-config.yaml，然后重启Pod。
对于Prometheus配置，同样回滚ConfigMap并触发重载：kubectl exec -n monitoring prometheus-server -- kill -HUP 1。
在Grafana中，可通过版本历史恢复之前的面板或数据源配置。

验证

确认所有Pod运行并准备就绪：kubectl get pods -n observability。
检查Prometheus目标状态全部为UP。
在Grafana中刷新仪表盘，指标应正常显示。
执行端到端追踪测试：使用示例客户端发送请求，并在Grafana Tempo中查看完整追踪。

何时提交OpsGlobal工单

在以下情况下提交工单： - 基本配置检查后问题依旧存在，怀疑Collector与Prometheus之间的兼容性问题。 - OpenTelemetry Collector持续重启或内存泄漏。 - Grafana数据源连接成功但无数据，且Prometheus有数据。 - 需要配置高级功能（如采样策略、多后端导出）但团队缺乏经验。

提交时请附上以下信息： - 相关Pod日志和描述输出。 - Prometheus和Collector的配置文件（不含敏感信息）。 - Grafana仪表板的JSON模型。 - 问题的具体复现步骤。

适用场景

适合正在处理 Observability、Kubernetes, SRE, Prometheus, Grafana 相关问题的团队，用于快速建立排查路径和交付标准。

问题背景

在Kubernetes微服务环境中，集成Prometheus、Grafana和OpenTelemetry可提升可观测性。本文通过实际场景，逐步诊断数据缺失等问题，提供命令、风险控制及回滚方案，并说明何时寻求OpsGlobal支持。

排查步骤

先确认影响范围和最近变更，再收集日志、配置、指标和链路数据，最后按风险从低到高执行修复。

命令示例

示例命令请替换为你的真实资源名，并使用环境变量保存账号、密码、token 等敏感信息。

风险说明

生产环境操作前需要确认备份、权限边界、变更窗口和回滚路径，避免扩大故障影响。

回滚方案

保留原配置和发布版本；如修复后指标异常，立即回退配置、镜像或数据库变更并复核日志。

交付清单

问题定位记录、关键命令、修复步骤、验证结果、后续优化建议。

使用Prometheus、Grafana和OpenTelemetry构建可观测性：实战调试指南

场景

症状

诊断