Перейти к содержанию

Мониторинг и сигнализация неисправностей оборудования#

Для межсетевого экрана Numa Edge (далее – МЭ) имеется возможность реализовать различные сценарии по отслеживанию состояния оборудования в реальном времени с сигнализацией в случае возникновения неисправностей или превышения пороговых значений.

Исходя из практики, наиболее важными физическими компонентами, требующими отслеживания во время непрерывной работы сетевого оборудования, являются:

  • процессор, для которого полезно отслеживать температуру;
  • интерфейсы оборудования, для которых полезно отслеживать количество ошибок, что в свою очередь может сигнализировать о неполадках с физической коммутацией или интерфейсом непосредственно;
  • устройство хранения информации, для которого также полезно отслеживать состояние и выполнять самотестирование.

В данном разделе поочередно будут рассмотрены примеры настройки мониторинга для каждого из перечисленных выше узлов.

SNMP-monitor#

Большая часть примеров, рассматриваемых далее, будет опираться на настройку сервиса SNMP-monitor. Данный сервис позволяет запрашивать значения любых OID, доступных на локальном МЭ, а также сигнализировать записью в системный журнал при выполнении определенных условий, определяемых пользователем.

Для корректной работы сервиса SNMP-monitor необходимо предварительно выполнить минимальную настройку сервиса SNMP, а именно задать сообщество с именем по умолчанию и указать в качестве прослушиваемого адреса локальный адрес МЭ, как представлено на примере ниже.

Пример – Настройка сервиса SNMP для дальнейшей корректной работы сервиса SNMP-monitor#
  1. Создание узла конфигурации сервиса SNMP. Указание сообщества SNMP:
    [edit]
    admin@edge# set service snmp community public
    
  2. Указание локального адреса для прослушивания на предмет входящих запросов:
    [edit]
    admin@edge# set service snmp listen-address 127.0.0.1
    
  3. Фиксация изменений:
    [edit]
    admin@edge# commit
    
  4. Отображение текущей конфигурации
    1
    2
    3
    4
    5
    6
    [edit]
    admin@edge# show service snmp
       community public {
       }
       listen-address 127.0.0.1 {
       }
    

После выполнения настройки SNMP можно перейти непосредственно к настройке сервиса SNMP-monitor. В качестве демонстрации работы сервиса будем выполнять запись в системный журнал в том случае, когда количество байт на входе интерфейса eth1 превышает значение 100.

Пример – Запись в системный журнал при превышении количества в 100 байт на входе интерфейса eth1#
  1. Создание новой записи для сервиса SNMP-monitor:
    [edit]
    admin@edge# set service snmp-monitor entry eth1-in
    
  2. Указание OID, который будет запрашиваться. В данном случае: IF-MIB::ifInOctets.3, где:
    • IF-MIB::ifInOctets – значение количества байт на входе интерфейса;
    • 3 – идентификатор интерфейса eth1 в системе (можно вывести командой операционного режима show snmp mib ifmib ifIndex)

[edit]
admin@edge# set service snmp-monitor entry eth1-in oid IF-MIB::ifInOctets.3
3. Указание типа значения, запрашиваемого OID SNMP. В данном случае counter. Тип counter указывает не абсолютное значение, а характеризует прирост в единицу времени (в данном случае в секунду) по наблюдаемому параметру:
[edit]
admin@edge# set service snmp-monitor entry eth1-in type counter
4. Указание интервала отправки сообщений в системный журнал в часах:
[edit]
admin@edge# set service snmp-monitor entry eth1-in signal-rate 1
5. Указание порогового значения, при превышении которого будет выполняться запись в системный журнал:
[edit]
admin@edge# set service snmp-monitor entry eth1-in signal-value 100
6. Фиксация изменений:
[edit]
admin@edge# commit
7. Отображение текущей конфигурации:
1
2
3
4
5
6
[edit]
admin@edge# show service snmp-monitor entry eth1-in
   oid IF-MIB::ifInOctets.3
   signal-rate 1
   signal-value 100
   type counter

Для проверки настроек можем запустить утилиту ping с внешнего адреса на указанный в примере интерфейс. По истечении пары минут в системном журнале появится соответствующая запись от приложения snmp-watcher с уровнем критичности warning о превышении порогового значения, указанного при настройке:

2022-07-19 16:59:01 snmp-watc daemon warnin 0 SNMP entry eth1-in больше 100

Примечание

Если настройки журналирования были изменены, предварительно необходимо удостовериться, что уровень критичности warning удовлетворяет условиям записи в системный журнал. В противном случае необходимо внести изменения в настройки. Более подробно с настройкой системы журнала в разделе Регистрация событий документа «Руководство администратора» 643.АМБН.00004-01 32 01.

Настройка мониторинга температуры процессора с записью в журнал при превышении порога#

В примере производится настройка отслеживания температуры ядра 0 процессора МЭ. В случае превышения на ядре 0 процессора температуры, установленной в качестве порогового значения, будет произведена запись в системный журнал.

Пример – Настройка мониторинга температуры на ядре процессора с сигнализацией в журнал#

Узел конфигурации service snmp:

  1. Создание узла конфигурации сервиса SNMP. Указание сообщества SNMP:
    [edit]
    admin@edge# set service snmp community public
    
  2. Указание локального адреса для прослушивания на предмет входящих запросов:
    [edit]
    admin@edge# set service snmp listen-address 127.0.0.1
    
  3. Фиксация изменений:
    [edit]
    admin@edge# commit
    
  4. Отображение текущей конфигурации:
    1
    2
    3
    4
    5
    6
    [edit]
    admin@edge# show service snmp
       community public {
      }
       listen-address 127.0.0.1 {
       }
    

Узел конфигурации service snmp-monitor:

  1. Создание новой записи для сервиса SNMP-monitor:
    [edit]
    admin@edge# set service snmp-monitor entry core-0
    
  2. Указание OID, который будет запрашиваться. Соответствует ядру 0 процессора:
    [edit]
    admin@edge# set service snmp-monitor entry core-0 oid LM-SENSORS-MIB::lmTempSensorsValue.1 
    
  3. Указание типа значения запрашиваемого OID SNMP:
    [edit]
    admin@edge# set service snmp-monitor entry core-0 type gauge
    
  4. Указание интервала отправки сообщений в системный журнал в часах:
    [edit]
    admin@edge# set service snmp-monitor entry core-0 signal-rate 1
    
  5. Указание порогового значения, при превышении которого будет выполняться запись в системный журнал. По умолчанию для Intel передаются значения в величине равной 1/1000°C. Поэтому для установления порога в 80 градусов требуется указать значение 80000:
    [edit]
    admin@edge# set service snmp-monitor entry core-0 signal-value 80000
    
  6. Фиксация изменений:
    [edit]
    admin@edge# commit
    
  7. Отображение текущей конфигурации:
    1
    2
    3
    4
    5
    6
    [edit]
    admin@edge# show service snmp-monitor entry core-0
       oid LM-SENSORS-MIB::lmTempSensorsValue.1
       signal-rate 1
       signal-value 80000
       type gauge
    

В примере выше запрашивается температура только одного ядра, что является минимумом, однако она может дать представление о температуре всего процессора. При желании можно расширить количество наблюдаемых ядер, добавив новые записи в конфигурацию SNMP-monitor.

Настройка мониторинга ошибок на интерфейсе с записью в журнал при превышении порога#

В примере ниже производится настройка отслеживания количества ошибок на интерфейсе eth1 МЭ. В случае превышения пороговых значений будет произведена запись в системный журнал.

Пример – Настройка мониторинга ошибок при отправке трафика на интерфейсе eth1#

Узел конфигурации service snmp:

  1. Создание узла конфигурации сервиса SNMP. Указание сообщества SNMP:
    [edit]
    admin@edge# set service snmp community public
    
  2. Указание локального адреса для прослушивания на предмет входящих запросов:
    [edit]
    admin@edge# set service snmp listen-address 127.0.0.1
    
  3. Фиксация изменений:
    [edit]
    admin@edge# commit
    
    Отображение текущей конфигурации:
    1
    2
    3
    4
    5
    6
    [edit]
    admin@edge# show service snmp
       community public {
       }
       listen-address 127.0.0.1 {
       }
    

Узел конфигурации service snmp-monitor:

  1. Создание новой записи для сервиса SNMP-monitor:
    [edit]
    admin@edge# set service snmp-monitor entry eth1-in-err
    
  2. Указание OID, который будет запрашиваться. Соответствует количеству пакетов на входе интерфейса eth1, содержащих ошибки, предотвращающие возможность передачи пакета далее в обработку:
    [edit]
    admin@edge# set service snmp-monitor entry eth1-in-err oid IF-MIB::ifInErrors.3 
    
  3. Указание типа значения запрашиваемого OID SNMP:
    [edit]
    admin@edge# set service snmp-monitor entry eth1-in-err type counter
    
  4. Указание интервала отправки сообщений в системный журнал в часах:
    [edit]
    admin@edge# set service snmp-monitor entry eth1-in-err signal-rate 1
    
  5. Указание порогового значения, при превышении которого будет выполняться запись в системный журнал:
    [edit]
    admin@edge# set service snmp-monitor entry eth1-in-err signal-value 40
    
  6. Создание новой записи для сервиса SNMP-monitor:
    [edit]
    admin@edge# set service snmp-monitor entry eth1-out-err
    
  7. Указание OID, который будет запрашиваться. Соответствует количеству исходящих пакетов на интерфейса eth1, содержащих ошибки, предотвращающие возможность передачи пакета далее:
    [edit]
    admin@edge# set service snmp-monitor entry eth1-out-err oid IF-MIB::ifOutErrors.3
    
  8. Указание типа значения запрашиваемого OID SNMP:
    [edit]
    admin@edge# set service snmp-monitor entry eth1-out-err type counter
    
  9. Указание интервала отправки сообщений в системный журнал в часах:
    [edit]
    admin@edge# set service snmp-monitor entry eth1-out-err signal-rate 1
    
  10. Указание порогового значения, при превышении которого будет выполняться запись в системный журнал:
    [edit]
    admin@edge# set service snmp-monitor entry eth1-out-err signal-value 40
    
  11. Фиксация изменений:
    [edit]
    admin@edge# commit
    
  12. Отображение текущей конфигурации:
    [edit]
    admin@edge# show service snmp-monitor entry 
       eth1-in-err {   
          oid IF-MIB::ifInErrors.3
          signal-rate 1
          signal-value 40
          type counter
       }
       eth1-out-err {   
          oid IF-MIB::ifOutErrors.3
          signal-rate 1
          signal-value 40
          type counter
       }
    

Таким образом, при превышении порогового значения по приросту количества ошибок в одном из направлений на интерфейсе eth1 будет осуществлена запись в системный журнал. Для остальных интерфейсов настройка выполняется аналогичным образом.

Мониторинг состояния устройства хранения информации#

Контроль за состоянием устройства хранения информации в МЭ отвечает сервис smartd. Данный сервис сконфигурирован для работы в полностью автоматическом режиме. Таким образом, со стороны пользователя нет необходимости предварительно выполнять какие-либо настройки.

В случае обнаружения неисправностей с носителем информации во время работы устройства, сервис будет сигнализировать соответствующими записями в системный журнал.

Пример – Запись в системном журнале о неисправности носителя информации#
2022-07-20 14:14:00 smartd    daemon crit   0 Device: /dev/sda [SAT], 16 Currently unreadable (pending) sectors
2022-07-20 14:44:00 smartd    daemon crit   0 Device: /dev/sda [SAT], 16 Currently unreadable (pending) sectors

По умолчанию интервал отправки сообщений составляет 30 минут.