В Банке «Санкт-Петербург» начал работу новый мониторинговый центр в IT. Команда Банка поставила цель перевести мониторинг IT на новый уровень в 2020 году. После проведения аудита существующего процесса было принято решение определить три направления построения нового процесса мониторинга:
Мониторинг работоспособности приложений и клиентского опыта.
Создание и внедрение централизованной зонтичной системы.
Обеспечение оперативной реакции на события системы мониторинга.
«По задаче внедрения мониторинга работоспособности приложений и клиентского опыта мы сейчас находимся в середине пути и планируем закончить внедрение в 2021 году, – говорит руководитель управления мониторинга и реагирования Дирекции по информационным технологиям Банка «Санкт-Петербург» Алексей Тутуков. – Решение данной задачи позволит нам осуществлять мониторинг работы приложений со стороны клиента, оценивая опыт взаимодействия с нашими приложениями. А также осуществлять мониторинг наиболее важных бизнес-процессов».
По второму пункту – создание и внедрение централизованной зонтичной системы мониторинга – команда Банка в 2020 году решила ряд важных задач: был внедрен функционал зонтичной системы мониторинга, разработан единый портал мониторинга и сделаны сводные панели для определения здоровья ИТ-систем. Сегодня в «зонтик» собираются метрики с различных систем мониторинга, далее они обрабатываются, обогащаются, коррелируются и после выводятся на панель мониторинга и отправляются в виде предупреждений (алертов) администраторам. Сейчас централизованная система мониторинга состоит из единого окна контроля работоспособности ИТ-систем, централизованной рассылки предупреждений, единого хранилища метрик и аналитики метрик.
Решением третьей поставленной задачи стал запуск нового мониторингового центра. Был введен принцип системности: любой компонент ИТ-системы ставится на мониторинг. Каждую неделю команда сверяет сбои: если система мониторинга зарегистрировала не все, добавляются агенты туда, где этот сбой произошел. Таким образом, система постоянно дорабатывается, увеличивается ее охват.
«Наша основная цель – проактивный мониторинг, то есть устранение проблемы еще до того, как клиент может с ней столкнуться, – отмечает Алексей Тутуков. – Для этого мы сами разработали и собрали специальный портал, который собирает все предупреждения от различных систем. События обрабатываются системой мониторинга, происходит их корреляция. Это нужно, чтобы видеть корневую причину сбоя и заранее подавлять его.
Сейчас мы налаживаем интеграцию системы мониторинга с системой IT Service Manager, там будут автоматически фиксироваться все сбои и направляться в рабочие группы для устранения. Эти решения позволяют нам осуществлять эффективный и прозрачный контроль работоспособности всех ИТ-систем».
Для того, чтобы правильно реагировать на сбои и не допускать аварий, в ИТ-блоке Банка создан Центр мониторинга. Группа специалистов работает по сменам 24/7 и реагирует на алерты от системы мониторинга. Рабочее место группы оснащено видеостеной, на которой собраны все панели, отражающие работоспособность ИТ-систем и ИТ-инфраструктуры в Банке. Сформирован процесс создания run-book – инструкции, где подробно описано, как реагировать на те или иные ситуации. На каждое событие администратор пишет специальную инструкцию для дежурных, чтобы они понимали, как им действовать: устранять сбой, собрать информацию, провести диагностику, позвонить администратору и т.д. Система мониторинга будет сама предлагать такую инструкцию при сбое. «Мы уже сделали большую работу, – говорит Алексей Тутуков. – Новый мониторинговый центр позволяет сократить время реакции, а значит, время восстановления работоспособности систем. Но наша главная задача – это сократить количество сбоев. В идеале мы должны устранять любой сбой еще до его появления. К этой цели мы и будем стремиться».
Источник: