Как реализовать полный стек observability

О нас: Персональный сайт Тимофея Бугаевского и компании Зетка Интерактив

Руководства: Обширная коллекция технических руководств, написанных с точки зрения опытного разработчика. Каждая статья содержит подробные объяснения, практические примеры кода и паттерны для продакшена.

DevOps: CI/CD, контейнеризация и развёртывание

Вам нужна комплексная видимость ваших production-систем, включая metrics, logs, traces и alerts, чтобы быстро выявлять, диагностировать и устранять проблемы.

Постановка задачи

Три столпа observability

┌─────────────────────────────────────────────────────────────────────────┐
│ Observability Platform │
├─────────────────────┬─────────────────────┬─────────────────────────────┤
│ Metrics │ Logs │ Traces │
│ │ │ │
│ • System metrics │ • Application logs │ • Request flow │
│ • Application │ • Audit logs │ • Service dependencies │
│ metrics │ • Access logs │ • Latency breakdown │
│ • Business │ • Error logs │ • Error propagation │
│ metrics │ │ │
├─────────────────────┴─────────────────────┴─────────────────────────────┤
│ Alerting & Dashboards │
└─────────────────────────────────────────────────────────────────────────┘

Обзор архитектуры

┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ Application │ │ Application │ │ Application │
│ Pod A │ │ Pod B │ │ Pod C │
└──────┬───────┘ └──────┬───────┘ └──────┬───────┘
│ │ │
│ metrics │ logs │ traces
│ /metrics │ stdout │ OTLP
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ Prometheus │ │ Fluentd │ │ Jaeger │
│ Scraping │ │ Collection │ │ Collector │
└──────┬───────┘ └──────┬───────┘ └──────┬───────┘
│ │ │
▼ ▼ ▼
┌──────────────────────────────────────────────────┐
│ Grafana │
│ Dashboards, Alerts, Exploration │
└──────────────────────────────────────────────────┘

1. Metrics с Prometheus

Установка Prometheus Stack

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm repo update
helm install prometheus prometheus-community/kube-prometheus-stack \
--namespace monitoring \
--create-namespace \
--values prometheus-values.yaml

prometheus-values.yaml

prometheus:
prometheusSpec:
retention: 15d
resources:
requests:
memory: 1Gi
cpu: 500m
limits:
memory: 2Gi
cpu: 1
storageSpec:
volumeClaimTemplate:
spec:
storageClassName: fast-ssd
resources:
requests:
storage: 100Gi
# Service discovery для Pod с аннотациями prometheus.io
additionalScrapeConfigs:
- job_name: 'kubernetes-pods'
kubernetes_sd_configs:
- role: pod
relabel_configs:
- source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
action: keep
regex: true
- source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]
action: replace
target_label: __metrics_path__
regex: (.+)
- source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]
action: replace
regex: ([^:]+)(?::\d+)?;(\d+)
replacement: $1:$2
target_label: __address__
alertmanager:
config:
global:
slack_api_url: 'https://hooks.slack.com/services/xxx'
route:
group_by: ['alertname', 'namespace']
group_wait: 30s
group_interval: 5m
repeat_interval: 4h
receiver: 'slack-notifications'
routes:
- match:
severity: critical
receiver: 'pagerduty'
receivers:
- name: 'slack-notifications'
slack_configs:
- channel: '#alerts'
send_resolved: true
title: '{{ .Status | toUpper }}: {{ .CommonAnnotations.summary }}'
text: '{{ .CommonAnnotations.description }}'
- name: 'pagerduty'
pagerduty_configs:
- service_key: 'your-pagerduty-key'
grafana:
adminPassword: 'secure-password'
persistence:
enabled: true
size: 10Gi

Инструментирование application metrics

Node.js с prom-client

const client = require('prom-client');
const express = require('express');
// Создать registry
const register = new client.Registry();
// Добавить default metrics (CPU, memory и т. д.)
client.collectDefaultMetrics({ register });
// Пользовательские metrics
const httpRequestDuration = new client.Histogram({
name: 'http_request_duration_seconds',
help: 'Duration of HTTP requests in seconds',
labelNames: ['method', 'route', 'status_code'],
buckets: [0.001, 0.005, 0.015, 0.05, 0.1, 0.5, 1, 5]
});
register.registerMetric(httpRequestDuration);
const httpRequestsTotal = new client.Counter({
name: 'http_requests_total',
help: 'Total number of HTTP requests',
labelNames: ['method', 'route', 'status_code']
});
register.registerMetric(httpRequestsTotal);
const activeConnections = new client.Gauge({
name: 'active_connections',
help: 'Number of active connections'
});
register.registerMetric(activeConnections);
// Middleware для отслеживания metrics
const metricsMiddleware = (req, res, next) => {
const start = Date.now();
res.on('finish', () => {
const duration = (Date.now() - start) / 1000;
const route = req.route?.path || req.path;
httpRequestDuration.observe(
{ method: req.method, route, status_code: res.statusCode },
duration
);
httpRequestsTotal.inc({ method: req.method, route, status_code: res.statusCode });
});
next();
};
// Endpoint для metrics
app.get('/metrics', async (req, res) => {
res.set('Content-Type', register.contentType);
res.end(await register.metrics());
});

PHP/Laravel с Prometheus Exporter

// composer require promphp/prometheus_client_php
use Prometheus\CollectorRegistry;
use Prometheus\RenderTextFormat;
use Prometheus\Storage\Redis;
class MetricsController extends Controller
{
private CollectorRegistry $registry;
public function __construct()
{
$adapter = new Redis(['host' => env('REDIS_HOST')]);
$this->registry = new CollectorRegistry($adapter);
}
public function index()
{
$renderer = new RenderTextFormat();
return response($renderer->render($this->registry->getMetricFamilySamples()))
->header('Content-Type', RenderTextFormat::MIME_TYPE);
}
}
// Middleware для metrics-запросов
class MetricsMiddleware
{
public function handle($request, Closure $next)
{
$start = microtime(true);
$response = $next($request);
$duration = microtime(true) - $start;
$histogram = $this->registry->getOrRegisterHistogram(
'app',
'http_request_duration_seconds',
'Request duration',
['method', 'route', 'status'],
[0.01, 0.05, 0.1, 0.5, 1, 5]
);
$histogram->observe(
$duration,
[$request->method(), $request->route()->uri(), $response->status()]
);
return $response;
}
}

Аннотации Pod для scraping

apiVersion: apps/v1
kind: Deployment
metadata:
name: myapp
spec:
template:
metadata:
annotations:
prometheus.io/scrape: "true"
prometheus.io/port: "8080"
prometheus.io/path: "/metrics"
spec:
containers:
- name: app
ports:
- name: metrics
containerPort: 8080

2. Централизованное логирование

Установка Loki Stack

helm repo add grafana https://grafana.github.io/helm-charts
helm repo update
helm install loki grafana/loki-stack \
--namespace monitoring \
--set promtail.enabled=true \
--set grafana.enabled=false \ # Использовать существующую Grafana
--values loki-values.yaml

loki-values.yaml

loki:
persistence:
enabled: true
size: 100Gi
config:
limits_config:
retention_period: 30d
table_manager:
retention_deletes_enabled: true
retention_period: 30d
promtail:
config:
snippets:
scrapeConfigs: |
- job_name: kubernetes-pods
kubernetes_sd_configs:
- role: pod
pipeline_stages:
- cri: {}
- json:
expressions:
level: level
message: message
timestamp: timestamp
- labels:
level:
- timestamp:
source: timestamp
format: RFC3339
relabel_configs:
- source_labels:
- __meta_kubernetes_pod_label_app
target_label: app
- source_labels:
- __meta_kubernetes_namespace
target_label: namespace
- source_labels:
- __meta_kubernetes_pod_name
target_label: pod

Структурированное логирование в приложениях

Node.js с Winston

const winston = require('winston');
const logger = winston.createLogger({
level: process.env.LOG_LEVEL || 'info',
format: winston.format.combine(
winston.format.timestamp(),
winston.format.errors({ stack: true }),
winston.format.json()
),
defaultMeta: {
service: 'user-service',
version: process.env.APP_VERSION
},
transports: [
new winston.transports.Console()
]
});
// Использование
logger.info('User created', {
userId: user.id,
email: user.email,
requestId: req.id
});
logger.error('Database connection failed', {
error: err.message,
stack: err.stack,
retryCount: 3
});

Логирование в PHP/Laravel

// config/logging.php
'channels' => [
'stdout' => [
'driver' => 'monolog',
'handler' => StreamHandler::class,
'with' => [
'stream' => 'php://stdout',
],
'formatter' => JsonFormatter::class,
],
],
// Использование
Log::channel('stdout')->info('User created', [
'user_id' => $user->id,
'email' => $user->email,
'request_id' => request()->header('X-Request-ID'),
]);

3. Distributed tracing с Jaeger

Установка Jaeger

helm repo add jaegertracing https://jaegertracing.github.io/helm-charts
helm repo update
helm install jaeger jaegertracing/jaeger \
--namespace monitoring \
--set provisionDataStore.cassandra=false \
--set storage.type=elasticsearch \
--set storage.elasticsearch.host=elasticsearch.monitoring.svc \
--set collector.service.type=ClusterIP

Инструментирование OpenTelemetry

Node.js

const { NodeSDK } = require('@opentelemetry/sdk-node');
const { getNodeAutoInstrumentations } = require('@opentelemetry/auto-instrumentations-node');
const { OTLPTraceExporter } = require('@opentelemetry/exporter-trace-otlp-http');
const { Resource } = require('@opentelemetry/resources');
const { SemanticResourceAttributes } = require('@opentelemetry/semantic-conventions');
const sdk = new NodeSDK({
resource: new Resource({
[SemanticResourceAttributes.SERVICE_NAME]: 'user-service',
[SemanticResourceAttributes.SERVICE_VERSION]: '1.0.0',
environment: process.env.NODE_ENV,
}),
traceExporter: new OTLPTraceExporter({
url: 'http://jaeger-collector.monitoring.svc:4318/v1/traces',
}),
instrumentations: [getNodeAutoInstrumentations()],
});
sdk.start();
// Пользовательские spans
const { trace } = require('@opentelemetry/api');
const tracer = trace.getTracer('user-service');
async function processOrder(orderId) {
return tracer.startActiveSpan('processOrder', async (span) => {
span.setAttribute('order.id', orderId);
try {
// Логика обработки order
const result = await validateOrder(orderId);
span.setStatus({ code: SpanStatusCode.OK });
return result;
} catch (error) {
span.setStatus({ code: SpanStatusCode.ERROR, message: error.message });
span.recordException(error);
throw error;
} finally {
span.end();
}
});
}

4. Правила alerting

Критические alerts

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
name: critical-alerts
namespace: monitoring
spec:
groups:
- name: availability
rules:
- alert: ServiceDown
expr: up{job="kubernetes-pods"} == 0
for: 1m
labels:
severity: critical
annotations:
summary: "Service {{ $labels.instance }} is down"
description: "{{ $labels.job }} has been down for more than 1 minute."
- alert: HighErrorRate
expr: |
sum(rate(http_requests_total{status_code=~"5.."}[5m])) by (service)
/
sum(rate(http_requests_total[5m])) by (service)
> 0.05
for: 5m
labels:
severity: critical
annotations:
summary: "High error rate on {{ $labels.service }}"
description: "Error rate is {{ $value | humanizePercentage }} (>5%)"
- alert: HighLatency
expr: |
histogram_quantile(0.95,
sum(rate(http_request_duration_seconds_bucket[5m])) by (le, service)
) > 1
for: 5m
labels:
severity: warning
annotations:
summary: "High latency on {{ $labels.service }}"
description: "95th percentile latency is {{ $value }}s"
- name: resources
rules:
- alert: HighMemoryUsage
expr: |
container_memory_usage_bytes{container!=""}
/
container_spec_memory_limit_bytes{container!=""}
> 0.9
for: 5m
labels:
severity: warning
annotations:
summary: "High memory usage in {{ $labels.pod }}"
description: "Memory usage is {{ $value | humanizePercentage }}"
- alert: HighCPUUsage
expr: |
sum(rate(container_cpu_usage_seconds_total{container!=""}[5m])) by (pod, namespace)
/
sum(container_spec_cpu_quota{container!=""}/container_spec_cpu_period{container!=""}) by (pod, namespace)
> 0.9
for: 5m
labels:
severity: warning
annotations:
summary: "High CPU usage in {{ $labels.pod }}"
- alert: PodCrashLooping
expr: rate(kube_pod_container_status_restarts_total[15m]) > 0
for: 5m
labels:
severity: warning
annotations:
summary: "Pod {{ $labels.pod }} is crash looping"
- name: database
rules:
- alert: DatabaseConnectionsExhausted
expr: |
pg_stat_activity_count{datname!~"template.*"}
/
pg_settings_max_connections > 0.8
for: 5m
labels:
severity: warning
annotations:
summary: "PostgreSQL connections near limit"
- alert: DatabaseReplicationLag
expr: pg_replication_lag > 300
for: 5m
labels:
severity: critical
annotations:
summary: "PostgreSQL replication lag is {{ $value }}s"

5. Дашборды Grafana

Дашборд приложения (JSON)

{
"title": "Application Overview",
"panels": [
{
"title": "Request Rate",
"type": "graph",
"targets": [
{
"expr": "sum(rate(http_requests_total[5m])) by (service)",
"legendFormat": "{{ service }}"
}
]
},
{
"title": "Error Rate",
"type": "graph",
"targets": [
{
"expr": "sum(rate(http_requests_total{status_code=~\"5..\"}[5m])) by (service) / sum(rate(http_requests_total[5m])) by (service)",
"legendFormat": "{{ service }}"
}
]
},
{
"title": "Latency (p95)",
"type": "graph",
"targets": [
{
"expr": "histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, service))",
"legendFormat": "{{ service }}"
}
]
},
{
"title": "Active Pods",
"type": "stat",
"targets": [
{
"expr": "count(kube_pod_status_phase{phase=\"Running\", namespace=\"production\"})"
}
]
}
]
}

Мышление senior-инженера в observability

«Сервер упал». «Почему?» «Не знаю, я не могу зайти по SSH». Если вы полагаетесь на SSH, чтобы смотреть логи, вы уже проиграли.

Senior-инженеры рассматривают observability как базовую часть проектирования системы. Они строят сигналы, которые делают отладку быстрой, а реагирование на инциденты — эффективным.

Сначала определите SLO

Observability полезнее, когда привязана к чётким целям. Определите SLO для критических workflows, таких как доступность и latency API. Используйте эти SLO, чтобы задавать пороги alerts и целевые значения на дашбордах. Если вы не знаете, как выглядит «хорошо», вы не сможете обнаружить, что система нездорова.

Structured logging: перестаньте логировать строки

Плохо: [ERROR] User 123 failed payment: timeout Хорошо: {"level": "error", "user_id": 123, "action": "payment", "error": "timeout"}

В Kibana вы можете фильтровать по action: payment. Со строками вы пишете RegEx.

Correlation IDs — не обсуждаются

В microservices один клик пользователя порождает логи в 5 сервисах.

Паттерн: 1. Gateway генерирует X-Request-ID. 2. Каждый сервис логирует request_id. 3. Каждый сервис передаёт его дальше по цепочке в headers.

Результат: один запрос в Kibana показывает полный trace по всему cluster.

Стратегия хранения логов

Логи — это дорого. Планируйте соответственно:

Hot (SSD): последние 7 дней. Быстрый поиск.
Warm (HDD): последние 30 дней. Медленный поиск.
Cold (S3): последний 1 год. Архив.
Delete: автоматизированная политика Index Lifecycle Management (ILM).

Проектируйте alerting так, чтобы по нему можно было действовать

Alerts должны запускать понятные действия. Используйте пороги, которые отражают реальное влияние на пользователей, и избегайте alerting на шум. Если по alert нельзя предпринять действие, его следует удалить или изменить.

По возможности используйте multi-signal alerts, например error rate плюс latency плюс saturation. Это снижает количество false positives.

Распространённые ошибки

Слишком много логирования без структуры.
Отсутствие correlation IDs между сервисами.
Alerting на каждую ошибку вместо влияния на пользователя.
Отсутствие retention policies, что приводит к неконтролируемым затратам.
Дашборды, которые устарели или не используются.

Быстрый доступ к container logs

Добавьте простые aliases для on-call инженеров, чтобы стримить логи без ожидания центрального pipeline:

# Быстрый доступ к логам Pod
alias klogs='kubectl logs -f'
alias dlogs='docker logs -f'
# Стримить логи со всех Pod deployment
kubectl logs -f deployment/myapp --all-containers

Чек-лист observability

Metrics

[ ] Собираются system metrics (CPU, memory, disk, network)
[ ] Инструментированы application metrics (RED metrics)
[ ] Отслеживаются business metrics
[ ] Созданы дашборды для ключевых сервисов
[ ] Определены правила alerting для SLO

Logs

[ ] Реализовано structured logging (формат JSON)
[ ] Уровни логирования используются корректно
[ ] Request IDs распространяются через все сервисы
[ ] Sensitive data не логируются
[ ] Настроено хранение логов с ILM policies

Traces

[ ] Включён distributed tracing
[ ] Работает context propagation
[ ] Трассируются критические paths
[ ] Sampling настроен корректно

Alerting

[ ] Определена on-call ротация
[ ] Настроены escalation policies
[ ] Минимизирована alert fatigue
[ ] Runbooks привязаны к alerts
[ ] Multi-signal alerts для критических paths

Краткое резюме трёх столпов

Logs говорят, почему что-то произошло.
Metrics говорят, когда.
Traces говорят, где.

Нужны все три. Хороший стек observability превращает сложные системы в понятные.

Связанные статьи в Wiki

Материалы сайта могут использоваться при наличии ссылки на источник. Лицензия

Написать нам

О нас

Руководства

DevOps

Как реализовать полный стек observability

Свернуть [_]

Вход в систему

Как реализовать полный стек observability

Постановка задачи

Три столпа observability

Обзор архитектуры

1. Metrics с Prometheus

Установка Prometheus Stack

prometheus-values.yaml

Инструментирование application metrics

Node.js с prom-client

PHP/Laravel с Prometheus Exporter

Аннотации Pod для scraping

2. Централизованное логирование

Установка Loki Stack

loki-values.yaml

Структурированное логирование в приложениях

Node.js с Winston

Логирование в PHP/Laravel

3. Distributed tracing с Jaeger

Установка Jaeger

Инструментирование OpenTelemetry

Node.js

4. Правила alerting

Критические alerts

5. Дашборды Grafana

Дашборд приложения (JSON)

Мышление senior-инженера в observability

Сначала определите SLO

Structured logging: перестаньте логировать строки

Correlation IDs — не обсуждаются

Стратегия хранения логов

Проектируйте alerting так, чтобы по нему можно было действовать

Распространённые ошибки

Быстрый доступ к container logs

Чек-лист observability

Metrics

Logs

Traces

Alerting

Краткое резюме трёх столпов

Связанные статьи в Wiki