Установка и обслуживание

Наблюдаемость и разбор инцидентов

Результаты выполнения шагов, метрики, экспорт трассировки и диагностика.

Как видеть состояние платформы и разбирать сбои по Запускам, метрикам и журналам.

На какие вопросы отвечает раздел: Где смотреть, если Запуск остановился с ошибкой? Как выгрузить Трассировку Запуска и журнал аудита? Откуда брать метрики?

Результаты выполнения шагов

Исполнитель (встроенный или plugin) возвращает платформе итог работы шага: выходные данные, ошибку или другой результат. Платформа записывает ответ в БД вместе со статусом узла. Трассировка Запуска строится из этих записей.

В редакторе цепочку шагов смотрят в Истории Запусков. Выберите Запуск и откройте панель с результатами выполнения шагов и переходами между узлами. Для API и эскалации достаточно ID Запуска из UI.

Метрики и стек наблюдаемости

Ядро отдаёт метрики Prometheus на /metrics (engine через control-plane). В production доступ к маршруту ограничивают подсетями allowlist (API_SENSITIVE_ROUTE_CIDRS).

Распределённые трейсы собираются через OpenTelemetry. Экспорт задаётся переменной OTEL_EXPORTER_OTLP_ENDPOINT (в dev-стеке часто Jaeger на :4318).

Расширенный demo Compose может поднять Grafana, Prometheus и Jaeger. Одноконтейнерный kosolapus/conveyor-demo рассчитан на /metrics без полного overlay наблюдаемости.

Ориентиры для мониторинга: частота Запусков, глубина очереди BullMQ, p95 латентности шага, доля ошибок.

Экспорт трассировки и журнала

Трассировка Запуска включает статусы узлов, результаты выполнения шагов и события оркестрации. Выгрузка доступна через UI или API.

Журнал аудита фиксирует действия пользователей. Экспорт идёт через /audit из подсетей allowlist в production. Записи старше AUDIT_RETENTION_DAYS удаляются регламентом (см. «Безопасность»).

Формат выгрузки зависит от развёртывания. Переменные перечислены в «Справочнике».

Разбор типовых проблем

СимптомГде смотретьЧто проверить
Запуск «завис» в runningИстория Запусков, Трассировка ЗапускаУзел в awaiting, недоступный plugin executor, очередь BullMQ
Ошибка контрактаРедактор при сохранении или запуске процессаНесовместимые порты соседних узлов
Plugin executor не отвечаетЛоги plugin-manager, периодический TCP-опросTCP-доступность, PLUGIN_MANAGER_INGRESS_TOKEN, CIDR
Медленные шагиМетрики p95, результаты выполнения шагов в Трассировке ЗапускаВнешний API, размер payload, нагрузка на БД
Нет записей в журнале аудита/audit, retentionAUDIT_RETENTION_DAYS, доступ к sensitive routes

Пошагово: История Запусков → проблемный Запуск → узел с ошибкой или долгим awaiting → проверка доступности исполнителя или plugin executor.

Диагностика производительности

Узкие места чаще всего во внешних вызовах внутри шагов, глубине очереди BullMQ и нагрузке на БД при большом числе параллельных Запусков.

Отдельные шаги смотрят по метрикам и трассам OpenTelemetry. Профилирование бизнес-логики остаётся на стороне исполнителя. На границе платформы ретраи диспетчеризации задают DISPATCH_MAX_ATTEMPTS и DISPATCH_RETRY_BASE_MS.

Дальше