VMware Log Insight offline logs analysis

Бекапы делают трусы (с)

...а лог коллекторы настраивают неудачники, у которых все постоянно ломается. Настоящим инженерам, руководствующимся в своей практике лучшими рекомендациями вендоров, лог сервера не нужны.

Log Insight дело хоть и полезное, но не дешевое. Убедить кошелек купить его, на случай если вдруг что-то поломается, сложно. Вот и вспоминают о нем, когда уже сломалось и надо быстро проанализировать и починить вчера.

При всем этом, Log Insight предназначен для онлайн агрегирования логов из добавленных источников, но никак не для offline анализа не инспектируемых логов. Говоря по-простому: если вы предварительно добавили ESXi хосты, vCenter, то на Log Insight попадут только логи с момента добавления, и если после добавления что-то сломалось, то вся аналитическая мощь Log Insight к вашим услугам. Если не добавили, то, естественно, ковырять вам логи в поисках счастья  в текстовом редакторе. Попробуем эту несправедливость исправить.

На старте есть самая отвратительная ситуация: централизованное логирование на хостах настроено не было (даже в виде vSphere Syslog Collector). В наличие у нас есть стандартный набор логов, хранившийся в /scratch/log. А это куча лог файлом непонятного назначения. Разобраться с назначением каждого из логов можно здесь.

Для эффективного анализа всего это мусора на понадобится:
VMware Log Insight - 1 шт.
Datаgram SyslogAgent - 1 шт.
vm c Windows на борту - 1 шт.

1. Выгружаем логи из /scratch/log на vm c Windows.
2. Настраиваем Datаgram SyslogAgent:

Datаgram SyslogAgent имеет одну особенность. Если мы сразу настроим его на уже заполненные файлы с логами, он ничего не отправит на Log Insight, поэтому в начальных настройках указываем пустые файлы с необходимыми нам именами.

Создаем новое Application, выбираем тип лога Static, указываем путь к пустому файлу.

Если получаем ошибку, значит все идет хорошо:

Добавляем парсинг даты и времени и для удобства идентификации имя процесса:

3. Рестартуем лог агента. Ждем пока агент обработает пустой файл.
4. Копипастим в пустой файл содержимое реального лога, анализ которого хотим провести.
5. Идем на Log Insight и видим дивное диво: Log Insight скушал наши 21388 offline событий:

Теперь в их можно эффективно искать, фильтровать и анализировать. О создании фильтров я писал здесь на примере анализа курсов валют НБРБ.

Однако, как оказалось, Log Insight и сам молодец. В горе мусора, которую мы в него загрузили, он смог самостоятельно найти errors, warnings специфические для ESXi. Эти находки он нам и показал на вкладке VMware - vSphere General- Problems:

Менюшечка эта совершенно интерактивная, а значит, выбрав для необходимого типа ошибок пункт Interactive Analytics:

мы получим всю информацию по всем ошибкам данного типа:

 P.S> желтенький треугольник с восклицательным знаком, присутствующий на многих картинка, обозначает, что одна или несколько нод кластера  Log Insight в данный момент недоступна. Но об этом потом ;)