Управление и мониторинг сетей и вычислительных мощностей, безусловно, является одной из важнейших задач ИТ-подразделений современных организаций. Системы мониторинга и управления позволяют оперативно локализовать случившиеся сбои, предсказывать сроки исчерпания ресурсов на основании анализа их загрузки и прогнозировать требования к их масштабированию в будущем. Также системы управления облегчают задачи администраторов по настройке, вводу и выводу из эксплуатации серверного и сетевого оборудования.
В соответствии с принципами ТМN (Telecommunication Management Network) современные системы управления и мониторинга обладают следующим функционалом:
- Управление процессом устранения отказов (Fault Management);
- Управление конфигурацией сети (Configuration Management);
- Контроль производительности сети (Performance Management).
Управление устранением отказов
- Функционал управления устранением отказов обеспечивает следующие возможности и функции:
- Обнаружение, определение местоположения неисправностей в сети, их регистрацию;
- Доведение соответствующей информации до обслуживающего персонала;
- Выдача рекомендаций по устранению неисправностей;
- Мониторинг опциональной сигнализации оборудования;
- Исправление ошибок;
- Тестирование.
Подсистема управления устранением отказов принимает весь поток данных от разнородных источников. Полученная информация проходит процедуру корреляции, что необходимо для вычленения сбоев из потока событий и определения их первопричины. Модуль корреляции служит фильтром, выводящим диспетчерам и администраторам информацию о случившемся сбое и подавляющим поток «наведенных» ошибок. Уже коррелированные данные отображаются для администраторов и диспетчерского персонала.
Данные обычно отображаются в следующем виде:
- На географической карте;
- В виде дерева;
- В табличном виде.
Администраторы и диспетчеры могут сами определить каким вариантом или комплектом из нескольких вариантов режимов отображения информации пользоваться в повседневной работе.
При регистрации сбоев обязательно фиксируются как минимум следующие данные:
- Источник;
- Тип;
- Время регистрации.
В процессе устранения сбоя фиксируются как минимум следующие данные:
- Администратор, которому было поручено устранение;
- Время устранения сбоя.
Также системы управления и мониторинга обладают функционалом эскалации сбоев. В случае нарушения сроков устранения сбоев, например, региональными администраторами, информация о таких инцидентах поступает в центральную диспетчерскую с соответствующими рекомендациями и комментариями.
Зачастую параллельно с функционалом управления устранением сбоев внедряется система управления знаниями. Такая связка существенно упрощает работу администраторов, поскольку позволяет в автоматическом режиме предоставлять администраторам рекомендации по устранению тех или иных сбоев.
Управление конфигурациями
Функционал управления конфигурациями обеспечивает:
- Инвентаризацию сетевого и серверного оборудования;
- Включение оборудования в работу;
- Конфигурирование оборудования;
- Вывод оборудования из работы.
Часто модули инвентаризации работают в автоматическом активном режиме, собирая данные о сетевом оборудовании, его идентификации, месте расположения. При добавлении нового оборудования в сеть оно автоматически обнаруживается и добавляется в систему. В таком случае при обнаружении нового оборудования производится попытка автоматического считывания его конфигурации. Если этого не происходит, система оповещает персонал.
Обычно система управления конфигурациями хранит всю историю изменений конфигураций подконтрольного оборудования, включая записи о том, кто, когда и какие изменения внес в настройки того или иного оборудования. Соответственно, при внесении несанкционированных изменений в настройки оборудования система способна их обнаружить и сообщить об этом.
Управление производительностью
Управление производительностью обеспечивает контроль и поддержание на требуемом уровне основных характеристик ИТ оборудования: пропускная способность сетей, производительность вычислительных мощностей и т.д. Данный функционал включает сбор, обработку, регистрацию, хранение и отображение статистических данных о работе сетей и серверов, выявление тенденций в их поведении и предупреждение о возможных нарушениях в работе.