Глава 10
ГЛ А В А
11
Порядок выявления неисправностей
и их устранения
В современном мире, когда в электронном виде обрабатывается практически вся
информация, а на бумагу переносится лишь небольшая ее часть, отказы информа-
ционной системы обходятся очень дорого. Одна из задач администратора заключа-
ется в предупреждении отказов и сокращении времени простоя оборудования.
Если отказ уже произошел...
Самое главное — не паниковать. Что случилось, то случилось. Нужно собраться
с мыслями и подумать, что можно сделать.
Первым делом надо попытаться получить максимум информации о неисправности.
Часть информации об отказе можно почерпнуть из системных журналов, часть —
от пользователей. Конечно, иногда отказ бывает такого размаха, что журналы тоже
недоступны. Впрочем, это, как правило, следствие халатности администратора,
который не обеспечил резервное копирование системных журналов.
Затем администратор должен составить перечень возможных причин отказов
и оценить время устранения каждой из них. Не нужно начинать устранение неис-
правности с самых затратных позиций, если вы не уверены точно, что именно они
стали причиной сбоя.
Потом шаг за шагом устраняйте возможные причины сбоя. На каждом шаге прове-
ряйте результат — вдруг причина сбоя обнаружена, и сбой устранен. Если не полу-
чилось, придется весь процесс начинать заново — составить новый план действий
и пройти уже по нему.
Не нужно вносить сразу много изменений в настройки. Внесли одно изменение —
попробовали. Внесли второе — опять попробовали и т. д. Записывайте все, что вы
делаете, — эти записи помогут вам вернуться в исходную точку, если систему так и
не получится восстановить.
Обязательно составьте протокол отказа, в котором опишите причину отказа и спо-
соб ее устранения. Такой документ не только послужит вам в качестве отчета перед
вышестоящим начальством, но и поможет специалисту, который спустя некоторое
522
Глава 11
время, возможно, придет на ваше место, — вы сэкономите ему и предприятию мно-
го времени и нервов, если аналогичный сбой повторится.
Максимальный аптайм
Некоторые хостеры утверждают, что аптайм
1
их серверов равен 99,999%. На прак-
тике этот показатель при круглосуточной работе соответствует примерно пяти ми-
нутам простоя за год.
Достичь такого результата — не просто. Здесь нужны большие вложения в виде
соответствующего оборудования и обслуживания. Часто подобные затраты нере-
альны для малых и средних предприятий. Что же по силам небольшим предприяти-
ям? Максимум, что они могут сделать, — это установить источники бесперебойно-
го питания и сетевые хранилища, на которые будет производиться резервное копи-
рование информации.
Задача администратора — создать все условия для оперативного восстановления
информации. У него должен быть план на случай возникновения нештатной ситуа-
ции — план обеспечения непрерывности функционирования информационной сис-
темы.
В этот план нужно внести список действий, которые необходимо осуществить
в случае отказа оборудования или в различных нештатных ситуациях. В плане
должно быть четко указано, что делать в случае возникновения того или иного
отказа. Вот примерный список того, что нужно включить в план обеспечения не-
прерывности:
место (компьютер, сервер, устройство), куда производится резервное копирова-
ние;
указание, какими средствами производится резервное копирование и как произ-
вести восстановление информации;
мероприятия на случай выхода из строя жесткого диска;
описание процедуры подключения другого жесткого диска и ввода его в состав
RAID-массива без выключения системы;
место хранения дистрибутивов программ и операционных систем на случай их
переустановки.
Описав все возможные аварийные ситуации и способы их устранения, можно при-
мерно оценить стоимость и время восстановления системы при различных отказах.
Восстановление с нуля, или полное фиаско
Нужно быть готовым к худшей ситуации. Представьте, что сервер «сгорел». Как вы
будете его восстанавливать? Перед вами — новый и «голый» компьютер. Где взять
1
Аптайм вычислительной системы (от англ. uptime) — время непрерывной работы вычислительной
системы или ее части. Измеряется с момента загрузки и до момента прекращения работы (зависания,
перезагрузки, выключения, прекращения работы анализируемого приложения).
Порядок выявления неисправностей и их устранения
523
дистрибутивы? Откуда восстановить данные? Есть ли полные образы уже настро-
енной системы?
Помочь в такой ситуации может только регулярное резервное копирование всей
информации. Кроме копирования баз данных и других реальных данных пользова-
телей, нужно создавать и поддерживать образ всей системы для ее максимально
быстрого восстановления.
Запасные детали
Не следует забывать и о запасных деталях. Недопустимо, когда простой всей ин-
формационной системы вызван, скажем, сгоревшим блоком питания. К сожалению,
крупные предприятия — это огромные бюрократические машины, и чтобы купить
что-либо нужное, требуется получить несколько подписей, а это все — время про-
стоя. В конечном счете сделают виноватым администратора.
Чтобы не возникало таких неприятных ситуаций, надо заранее обеспечить свои
устройства запасными деталями. Такой список уже приводился в этой книге, но
лучше его повторить, чтобы вы лишний раз ее не листали:
блоки питания разных типов;
если на предприятии используются одинаковые модели ноутбуков (что часто
бывает — как правило, закупают оборудование небольшими партиями, а не
поштучно), нужно приобрести хотя бы одно зарядное устройство подходящего
типа;
оперативная память разных типов;
клавиатуры и мыши;
патч-корды разной длины;
жесткие диски разных типов.
Как показывает практика, спустя 3–4 года будет трудно купить комплектующие,
которые сегодня считаются вполне современными. Например, в 2008 году жестки-
ми дисками ATA (IDE) комплектовалась основная масса компьютеров, а уже
в 2010-м их стало найти крайне сложно, да и цена их была выше жестких дисков
SATA аналогичного размера. Сейчас ситуация стабилизировалась, и жесткие диски
в основном поставляются с интерфейсом SATA, но это не освобождает от их забла-
говременной покупки. Часто на предприятиях среднего и большого размера при-
сутствует определенный процент «забюрокраченности», что делает невозможным
быстрое приобретение вышедшего из строя аппаратного обеспечения. А если жест-
кий диск уже будет в наличии, то это существенно минимизирует время простоя
информационной системы.
Формировать фонд запасных частей можно и за счет модернизации компьюте-
ров — например, постепенно производить замену обычных жестких дисков на вы-
сокоскоростные SSD. Снятые жесткие диски при этом выбрасывать не нужно —
в крайнем случае их можно будет временно использовать, если из строя выйдет
SSD или какой-то другой жесткий диск. Цены на SSD становятся все доступнее,
поэтому такая стратегия имеет право на существование.
524
Достарыңызбен бөлісу: |