Как контролировать состояние сервера | OTUS
Запланируйте обучение с выгодой в Otus!
-15% на все курсы до 22.11 Забрать скидку! →
Выбрать курс

Как контролировать состояние сервера

Серверы – это основа любого бизнеса. Вы не можете позволить им потерпеть неудачу. Следите за ключевыми показателями производительности вашего сервера, чтобы предотвратить проблемы. После прочтения у вас, как у системного администратора, будет четкое представление о том, как лучше всего контролировать состояние своих серверов.

server_monitoring_1-1801-f78098.jpg

У вас есть два стратегических варианта мониторинга сервера: ручной или автоматический мониторинг сервера. Для ручного мониторинга требуется, чтобы по крайней мере один системный администратор был посвящен на полную ставку проверке статусов сервера. Для автоматизированного мониторинга производительности требуется специальное программное обеспечение, и это программное обеспечение должно размещаться в центре обработки данных, обслуживаться и периодически обновляться. Облачные сервисы мониторинга производительности решают все недостатки программного мониторинга, и они работают значительно дешевле, чем нанимать специального члена команды или вносить предоплату за специализированное программное обеспечение.

Мониторинг физического состояния сервера

Если вы используете только облачные серверы, вам не нужно беспокоиться о физическом состоянии вашего оборудования. Однако локальные серверы необходимо защитить от опасностей и повреждений окружающей среды. Помимо хранения сервера в безопасном помещении для предотвращения физических атак, вы должны быть уверены, что температура серверов не превышает рекомендуемый уровень для эффективной работы в вашей серверной среде.

Двумя основными физическими проблемами, которые вам необходимо отслеживать на своем сервере, являются:

  1. Источник питания.
  2. Температура.

Если вы храните свои серверы в стойке или шкафу, возможно, что в корпусе есть системы регулирования питания и регулирования температуры. И сервер, и стойка будут иметь датчики контроля температуры, которые будут передавать данные на панель управления системного администратора.

Вам нужно следить за тем, чтобы температура не превышала порог безопасности. Если температура начинает повышаться, возможно, вентилятор в сервере или в стойке перестал работать, и вам нужно будет это проверить. Если ваш сервер находится в отдельной комнате, вы также можете следить за температурным контролем его системы HVAC.

У вас будут регуляторы питания на входе вашего сервера. За ними необходимо следить, чтобы убедиться, что они работают правильно и сглаживают скачки и провалы напряжения. Ваш ИБП должен дать вам время, чтобы переключиться на резервное питание в случае выхода из строя основного источника питания. Однако необходимо прислушаться к уведомлению о переключении на резервное питание, поскольку системы автоматического переключения иногда выходят из строя.

Задачи мониторинга производительности сервера

Если вы отвечаете за ИТ-отдел и отвечаете за ключевые показатели производительности всей сетевой инфраструктуры, у вас, скорее всего, есть сервер в вашем инвентаре. Основная задача, которую вы должны выполнить, – сделать сервер постоянно доступным для всех. Сервер предназначен для запуска программного обеспечения и / или регистрации данных. Таким образом, он должен иметь доступное пространство и вычислительную мощность для выполнения всех задач, которые ставят перед ним сотрудники предприятия, а также, возможно, его клиенты.

Время работы сервера

Доступность сервера имеет решающее значение в рабочее время, а также в другое время. Если на вашем сервере размещен веб-сайт, он должен быть доступен круглосуточно. Вам также необходимо проверить, настроены ли на сервере пакетные задания в нерабочее время.

Время от времени вам нужно будет отключать сервер для обслуживания, и некоторые из этих задач включают перезагрузку машины. Вы должны знать о заданиях, запланированных для запуска на сервере, и о том, сколько времени потребуется серверу для перезагрузки и восстановления полной доступности, прежде чем разрешить выполнение любых задач обслуживания, которые могут включать перезагрузку.

Должен быть доступен журнал, в котором подробно описаны все запланированные задания, настроенные на сервере. В противном случае системному администратору требуется всего одна команда, чтобы получить ее. Системному администратору необходимо следить за показателем времени работы сервера и подсчитывать его с расчетами, когда произошла последняя преднамеренная перезагрузка.

Этот показатель является ретроспективным, поэтому, если вы обнаружите несоответствие между ожидаемым периодом доступности сервера и показателем времени безотказной работы сервера, то система выйдет из строя, и никто об этом не узнает. Если бы сервер перезагрузился в рабочее время, ваша команда, вероятно, была бы завалена обращениями в службу поддержки. Таким образом, более вероятно, что непредвиденные простои произойдут в нерабочее время. В этом случае кто-то должен проверить, что все запланированные задачи, которые должны были выполняться во время неожиданного события, действительно начались и завершились правильно.

Очевидно, что лучше предвидеть проблемы и не допускать, чтобы они приводили к отключению сервера.

Поддержание доступности

Системный администратор должен учитывать несколько факторов, чтобы обеспечить постоянную доступность и хорошую работу сервера. Низкая производительность может быть почти такой же плохой, как отключение сервера. Таким образом, фактически перегруженный сервер недоступен для всех своих пользователей на значимом уровне обслуживания. Четыре атрибута сервера могут снизить производительность или привести к отключению серверного оборудования, если они превышают емкость:

  1. Процессор.
  2. Объем памяти.
  3. Диск.
  4. Сетевые интерфейсы.

Успешный системный администратор должен установить пороговые уровни для всех этих служб. Вы должны знать о полной мощности каждой из этих аппаратных функций и установить серию уровней-предупреждений в точках ниже полной мощности.

Скачки в загрузке системы могут превысить эти уровни, не вызывая слишком большой паники. Вам следует беспокоиться о возможности сохранения чрезмерного спроса.

То, где вы устанавливаете свои пороговые значения и что вы считаете устойчивым нарушением этих уровней безопасности, во многом зависит от следующего: времени суток, когда возникает спрос, типа приложений, которые вызывают спрос, и продолжительности времени, которое требуется вашему отделу, чтобы предотвратить истощение ресурсов за счет внедрения решений по исправлению положения.

Планирование емкости сервера

Когда вы впервые начинаете работать с новым сервером для начинающего предприятия, у вас мало данных за прошлые периоды, чтобы продолжить при расчете требований к емкости для процессоров, памяти, дискового пространства и сетевых интерфейсов.

В этих случаях вам необходимо разработать приблизительные руководства по требованиям к емкости сервера, основанные на системных требованиях, перечисленных для программного обеспечения, которое вы покупаете для включения сервера. Со временем вы сможете собирать статистику использования посредством мониторинга и консолидировать эти цифры в аналитическом инструменте. Новые требования, предъявляемые к серверу, должны быть добавлены к текущей мощности, чтобы оценить, достаточно ли у вас ресурсов для решения этой проблемы.

Ошибки страниц и свопы страниц

При расчете необходимой мощности необходимо учитывать два фактора:

  1. Ошибки страницы.
  2. Замена страниц.

Сбои страниц распространены на виртуальных серверах – как при виртуализации на месте, так и при использовании облачных серверов. «Страница» – это блок памяти, выделенный виртуальному серверу. Адреса для пространства памяти должны быть преобразованы между адресами, используемыми системой виртуального сервера, и фактическими адресами памяти, доступными реальному базовому серверу.

Хорошее программное обеспечение для виртуализации должно уметь избегать ошибок страниц. Однако они произойдут. Система виртуального сервера должна быть способна сама решать проблемы с памятью. Однако этот процесс теряет часть памяти, пока не будут исправлены все адреса.

Измеряя частоту отказов страниц с течением времени, вы знаете, какой процент вам нужно добавить к требованиям к емкости памяти вашего сервера. Пиковый номер ошибки страницы указывает на то, что возникла серьезная проблема с вашей виртуализацией. Для решения этой проблемы может потребоваться перезагрузка.

Обмен страниц происходит, когда серверу не хватает рабочей памяти. Он зарезервирует область дискового пространства и временно сохранит данные, чтобы освободить место в памяти. Этой ситуации следует избегать, и она указывает на то, что вы не предоставили достаточно памяти для требований всего программного обеспечения, запущенного на сервере.

Будем надеяться, что пороговые предупреждения, которые вы поместили в отношении использования памяти, должны позволить вам увидеть приближение избыточной емкости. Подкачка страниц – это кратковременное решение проблемы нехватки памяти. Если у вас очень ограниченный бюджет и смена страниц происходит редко, возможно, вы решили применить эту стратегию, чтобы сэкономить деньги. Однако это должно быть краткосрочным решением, поскольку подкачка страниц сокращает время отклика.

Емкость диска

Проблема подкачки страниц приведет к сокращению дискового пространства, доступного для хранения. Однако, поскольку дисковое пространство очень дешевое, вы сможете добавить больше дисков, чтобы предотвратить потерю места. Без достаточного дискового пространства ваш бизнес остановится.

Недавнее хранение и архивирование данных для финансовых требований и защиты данных означает, что вам потребуется много места на диске. Очень просто очень быстро добавить дополнительное дисковое пространство, арендуя облачное хранилище и перемещая туда резервные копии и архивы. Тем не менее, вы должны видеть приближение исчерпания хранилища, поэтому следует постоянно контролировать емкость диска.

Доступность сетевого интерфейса

Интерфейс сетевого мониторинга обнаруживает аппаратный сбой или перегрузку. Отказ оборудования приведет к внезапному падению активности интерфейса до нуля. Перегрузка не позволит многим пользователям получить доступ к серверу.

Перегрузка сетевого интерфейса – это проблема планирования емкости. Постоянно отслеживая активность операций ввода-вывода на сетевой карте и сохраняя эти данные для анализа, вы можете спланировать требования к оборудованию для обеспечения постоянного доступа к серверу.

Использование внешних серверов и сервисов

Независимо от того, выберете ли вы локальные или внешние серверы, использование автоматизированных систем мониторинга расширяет ваши возможности одновременно проверять все возможные показатели производительности и устанавливать пороговые значения для предупреждений. Инструмент будет выполнять все необходимые проверки на вашем сервере непрерывно, поэтому вам не нужен специальный сотрудник для запуска скриптов запросов и чтения их результатов.

Служба мониторинга, реализованная на модели SaaS, еще больше упрощает мониторинг критически важного серверного оборудования. Он включает в себя всю вычислительную мощность и хранилище данных, а также доступ к программному обеспечению для мониторинга. Это означает, что программное обеспечение вашей системы мониторинга не занимает места или вычислительной мощности на ваших серверах.

Не пропустите новые полезные статьи!

Спасибо за подписку!

Мы отправили вам письмо для подтверждения вашего email.
С уважением, OTUS!

Автор
0 комментариев
Для комментирования необходимо авторизоваться
Популярное
Сегодня тут пусто
Черная пятница в Otus! ⚡️
Скидка 15% на все курсы до 22.11 →