Мониторинг и сигнализация неисправностей оборудования#

Для межсетевого экрана Numa Edge (далее – МЭ) имеется возможность реализовать различные сценарии по отслеживанию состояния оборудования в реальном времени с сигнализацией в случае возникновения неисправностей или превышения пороговых значений.

Исходя из практики, наиболее важными физическими компонентами, требующими отслеживания во время непрерывной работы сетевого оборудования, являются:

процессор, для которого полезно отслеживать температуру;
интерфейсы оборудования, для которых полезно отслеживать количество ошибок, что в свою очередь может сигнализировать о неполадках с физической коммутацией или интерфейсом непосредственно;
устройство хранения информации, для которого также полезно отслеживать состояние и выполнять самотестирование.

В данном разделе поочередно будут рассмотрены примеры настройки мониторинга для каждого из перечисленных выше узлов.

SNMP-monitor#

Большая часть примеров, рассматриваемых далее, будет опираться на настройку сервиса SNMP-monitor. Данный сервис позволяет запрашивать значения любых OID, доступных на локальном МЭ, а также сигнализировать записью в системный журнал при выполнении определенных условий, определяемых пользователем.

Для корректной работы сервиса SNMP-monitor необходимо предварительно выполнить минимальную настройку сервиса SNMP, а именно задать сообщество с именем по умолчанию и указать в качестве прослушиваемого адреса локальный адрес МЭ, как представлено на примере ниже.

Пример – Настройка сервиса SNMP для дальнейшей корректной работы сервиса SNMP-monitor#

Создание узла конфигурации сервиса SNMP. Указание сообщества SNMP:
1 2
[edit] admin@edge# set service snmp community public
Указание локального адреса для прослушивания на предмет входящих запросов:
1 2
[edit] admin@edge# set service snmp listen-address 127.0.0.1
Фиксация изменений:
1 2
[edit] admin@edge# commit

Отображение текущей конфигурации

[edit]
admin@edge# show service snmp
   community public {
   }
   listen-address 127.0.0.1 {
   }

После выполнения настройки SNMP можно перейти непосредственно к настройке сервиса SNMP-monitor. В качестве демонстрации работы сервиса будем выполнять запись в системный журнал в том случае, когда количество байт на входе интерфейса eth1 превышает значение 100.

Пример – Запись в системный журнал при превышении количества в 100 байт на входе интерфейса eth1#

Создание новой записи для сервиса SNMP-monitor:
1 2
[edit] admin@edge# set service snmp-monitor entry eth1-in
Указание OID, который будет запрашиваться. В данном случае: IF-MIB::ifInOctets.3, где:
- IF-MIB::ifInOctets – значение количества байт на входе интерфейса;
- 3 – идентификатор интерфейса eth1 в системе (можно вывести командой операционного режима show snmp mib ifmib ifIndex)

1 2	`[edit] admin@edge# set service snmp-monitor entry eth1-in oid IF-MIB::ifInOctets.3`

3. Указание типа значения, запрашиваемого OID SNMP. В данном случае counter. Тип counter указывает не абсолютное значение, а характеризует прирост в единицу времени (в данном случае в секунду) по наблюдаемому параметру:

1 2	`[edit] admin@edge# set service snmp-monitor entry eth1-in type counter`

1. Указание интервала отправки сообщений в системный журнал в часах:

1 2	`[edit] admin@edge# set service snmp-monitor entry eth1-in signal-rate 1`

1. Указание порогового значения, при превышении которого будет выполняться запись в системный журнал:

1 2	`[edit] admin@edge# set service snmp-monitor entry eth1-in signal-value 100`

1. Фиксация изменений:

1 2	`[edit] admin@edge# commit`

1. Отображение текущей конфигурации:

[edit]
admin@edge# show service snmp-monitor entry eth1-in
   oid IF-MIB::ifInOctets.3
   signal-rate 1
   signal-value 100
   type counter

Для проверки настроек можем запустить утилиту ping с внешнего адреса на указанный в примере интерфейс. По истечении пары минут в системном журнале появится соответствующая запись от приложения snmp-watcher с уровнем критичности warning о превышении порогового значения, указанного при настройке:

1	`2022-07-19 16:59:01 snmp-watc daemon warnin 0 SNMP entry eth1-in больше 100`

Примечание

Если настройки журналирования были изменены, предварительно необходимо удостовериться, что уровень критичности warning удовлетворяет условиям записи в системный журнал. В противном случае необходимо внести изменения в настройки. Более подробно с настройкой системы журнала в разделе Регистрация событий документа «Руководство администратора» 643.АМБН.00004-01 32 01.

Настройка мониторинга температуры процессора с записью в журнал при превышении порога#

В примере производится настройка отслеживания температуры ядра 0 процессора МЭ. В случае превышения на ядре 0 процессора температуры, установленной в качестве порогового значения, будет произведена запись в системный журнал.

Пример – Настройка мониторинга температуры на ядре процессора с сигнализацией в журнал#

Узел конфигурации service snmp:

Создание узла конфигурации сервиса SNMP. Указание сообщества SNMP:
1 2
[edit] admin@edge# set service snmp community public
Указание локального адреса для прослушивания на предмет входящих запросов:
1 2
[edit] admin@edge# set service snmp listen-address 127.0.0.1
Фиксация изменений:
1 2
[edit] admin@edge# commit

Отображение текущей конфигурации:

[edit]
admin@edge# show service snmp
   community public {
  }
   listen-address 127.0.0.1 {
   }

Узел конфигурации service snmp-monitor:

Создание новой записи для сервиса SNMP-monitor:
1 2
[edit] admin@edge# set service snmp-monitor entry core-0
Указание OID, который будет запрашиваться. Соответствует ядру 0 процессора:
1 2
[edit] admin@edge# set service snmp-monitor entry core-0 oid LM-SENSORS-MIB::lmTempSensorsValue.1
Указание типа значения запрашиваемого OID SNMP:
1 2
[edit] admin@edge# set service snmp-monitor entry core-0 type gauge
Указание интервала отправки сообщений в системный журнал в часах:
1 2
[edit] admin@edge# set service snmp-monitor entry core-0 signal-rate 1
Указание порогового значения, при превышении которого будет выполняться запись в системный журнал. По умолчанию для Intel передаются значения в величине равной 1/1000°C. Поэтому для установления порога в 80 градусов требуется указать значение 80000:
1 2
[edit] admin@edge# set service snmp-monitor entry core-0 signal-value 80000
Фиксация изменений:
1 2
[edit] admin@edge# commit

Отображение текущей конфигурации:

[edit]
admin@edge# show service snmp-monitor entry core-0
   oid LM-SENSORS-MIB::lmTempSensorsValue.1
   signal-rate 1
   signal-value 80000
   type gauge

В примере выше запрашивается температура только одного ядра, что является минимумом, однако она может дать представление о температуре всего процессора. При желании можно расширить количество наблюдаемых ядер, добавив новые записи в конфигурацию SNMP-monitor.

Настройка мониторинга ошибок на интерфейсе с записью в журнал при превышении порога#

В примере ниже производится настройка отслеживания количества ошибок на интерфейсе eth1 МЭ. В случае превышения пороговых значений будет произведена запись в системный журнал.

Пример – Настройка мониторинга ошибок при отправке трафика на интерфейсе eth1#

Узел конфигурации service snmp:

Создание узла конфигурации сервиса SNMP. Указание сообщества SNMP:
1 2
[edit] admin@edge# set service snmp community public
Указание локального адреса для прослушивания на предмет входящих запросов:
1 2
[edit] admin@edge# set service snmp listen-address 127.0.0.1

Фиксация изменений:

1 2	`[edit] admin@edge# commit`

Отображение текущей конфигурации:

[edit]
admin@edge# show service snmp
   community public {
   }
   listen-address 127.0.0.1 {
   }

Узел конфигурации service snmp-monitor:

Создание новой записи для сервиса SNMP-monitor:
1 2
[edit] admin@edge# set service snmp-monitor entry eth1-in-err
Указание OID, который будет запрашиваться. Соответствует количеству пакетов на входе интерфейса eth1, содержащих ошибки, предотвращающие возможность передачи пакета далее в обработку:
1 2
[edit] admin@edge# set service snmp-monitor entry eth1-in-err oid IF-MIB::ifInErrors.3

Указание типа значения запрашиваемого OID SNMP:

1 2	`[edit] admin@edge# set service snmp-monitor entry eth1-in-err type counter`

Указание интервала отправки сообщений в системный журнал в часах:
1 2
[edit] admin@edge# set service snmp-monitor entry eth1-in-err signal-rate 1
Указание порогового значения, при превышении которого будет выполняться запись в системный журнал:
1 2
[edit] admin@edge# set service snmp-monitor entry eth1-in-err signal-value 40
Создание новой записи для сервиса SNMP-monitor:
1 2
[edit] admin@edge# set service snmp-monitor entry eth1-out-err
Указание OID, который будет запрашиваться. Соответствует количеству исходящих пакетов на интерфейса eth1, содержащих ошибки, предотвращающие возможность передачи пакета далее:
1 2
[edit] admin@edge# set service snmp-monitor entry eth1-out-err oid IF-MIB::ifOutErrors.3

Указание типа значения запрашиваемого OID SNMP:

1 2	`[edit] admin@edge# set service snmp-monitor entry eth1-out-err type counter`

Указание интервала отправки сообщений в системный журнал в часах:
1 2
[edit] admin@edge# set service snmp-monitor entry eth1-out-err signal-rate 1
Указание порогового значения, при превышении которого будет выполняться запись в системный журнал:
1 2
[edit] admin@edge# set service snmp-monitor entry eth1-out-err signal-value 40
Фиксация изменений:
1 2
[edit] admin@edge# commit

Отображение текущей конфигурации:

[edit]
admin@edge# show service snmp-monitor entry 
   eth1-in-err {   
      oid IF-MIB::ifInErrors.3
      signal-rate 1
      signal-value 40
      type counter
   }
   eth1-out-err {   
      oid IF-MIB::ifOutErrors.3
      signal-rate 1
      signal-value 40
      type counter
   }

Таким образом, при превышении порогового значения по приросту количества ошибок в одном из направлений на интерфейсе eth1 будет осуществлена запись в системный журнал. Для остальных интерфейсов настройка выполняется аналогичным образом.

Мониторинг состояния устройства хранения информации#

Контроль за состоянием устройства хранения информации в МЭ отвечает сервис smartd. Данный сервис сконфигурирован для работы в полностью автоматическом режиме. Таким образом, со стороны пользователя нет необходимости предварительно выполнять какие-либо настройки.

В случае обнаружения неисправностей с носителем информации во время работы устройства, сервис будет сигнализировать соответствующими записями в системный журнал.

Пример – Запись в системном журнале о неисправности носителя информации#

1
2

2022-07-20 14:14:00 smartd    daemon crit   0 Device: /dev/sda [SAT], 16 Currently unreadable (pending) sectors
2022-07-20 14:44:00 smartd    daemon crit   0 Device: /dev/sda [SAT], 16 Currently unreadable (pending) sectors

По умолчанию интервал отправки сообщений составляет 30 минут.