Наблюдаемость и разбор инцидентов
Как видеть состояние платформы и разбирать сбои по Запускам, метрикам и журналам.
На какие вопросы отвечает раздел: Где смотреть, если Запуск остановился с ошибкой? Как выгрузить Трассировку Запуска и журнал аудита? Откуда брать метрики?
Результаты выполнения шагов
Исполнитель (встроенный или plugin) возвращает платформе итог работы шага: выходные данные, ошибку или другой результат. Платформа записывает ответ в БД вместе со статусом узла. Трассировка Запуска строится из этих записей.
В редакторе цепочку шагов смотрят в Истории Запусков. Выберите Запуск и откройте панель с результатами выполнения шагов и переходами между узлами. Для API и эскалации достаточно ID Запуска из UI.

Метрики и стек наблюдаемости
Ядро отдаёт метрики Prometheus на /metrics (engine через control-plane). В production
доступ к маршруту ограничивают подсетями allowlist (API_SENSITIVE_ROUTE_CIDRS).
Распределённые трейсы собираются через OpenTelemetry. Экспорт задаётся переменной
OTEL_EXPORTER_OTLP_ENDPOINT (в dev-стеке часто Jaeger на :4318).
Расширенный demo Compose может поднять Grafana, Prometheus и Jaeger. Одноконтейнерный
kosolapus/conveyor-demo рассчитан на /metrics без полного overlay наблюдаемости.
Ориентиры для мониторинга: частота Запусков, глубина очереди BullMQ, p95 латентности шага, доля ошибок.
Экспорт трассировки и журнала
Трассировка Запуска включает статусы узлов, результаты выполнения шагов и события оркестрации. Выгрузка доступна через UI или API.
Журнал аудита фиксирует действия пользователей. Экспорт идёт через /audit из
подсетей allowlist в production. Записи старше AUDIT_RETENTION_DAYS удаляются
регламентом (см.
«Безопасность»).
Формат выгрузки зависит от развёртывания. Переменные перечислены в «Справочнике».
Разбор типовых проблем
| Симптом | Где смотреть | Что проверить |
|---|---|---|
Запуск «завис» в running | История Запусков, Трассировка Запуска | Узел в awaiting, недоступный plugin executor, очередь BullMQ |
| Ошибка контракта | Редактор при сохранении или запуске процесса | Несовместимые порты соседних узлов |
| Plugin executor не отвечает | Логи plugin-manager, периодический TCP-опрос | TCP-доступность, PLUGIN_MANAGER_INGRESS_TOKEN, CIDR |
| Медленные шаги | Метрики p95, результаты выполнения шагов в Трассировке Запуска | Внешний API, размер payload, нагрузка на БД |
| Нет записей в журнале аудита | /audit, retention | AUDIT_RETENTION_DAYS, доступ к sensitive routes |
Пошагово: История Запусков → проблемный Запуск → узел с ошибкой или долгим
awaiting → проверка доступности исполнителя или plugin executor.
Диагностика производительности
Узкие места чаще всего во внешних вызовах внутри шагов, глубине очереди BullMQ и нагрузке на БД при большом числе параллельных Запусков.
Отдельные шаги смотрят по метрикам и трассам OpenTelemetry. Профилирование
бизнес-логики остаётся на стороне исполнителя. На границе платформы ретраи
диспетчеризации задают DISPATCH_MAX_ATTEMPTS и DISPATCH_RETRY_BASE_MS.
Дальше
- Справочник: коды ошибок и лимиты
- Администрирование: регламентное обслуживание
- Безопасность: аудит и периметр