Восстановление. Применительно к управляющим вычислительным системам восстановление имеет два аспекта. Во-первых, это восстановление резерва, которое осуществляется вручную с использованием вспомогательных технических средств. Во-вторых, это восстановление вычислительного процесса (также встречаются термины «самовосстановление» и «рестарт»), которое выполняется автоматически самой системой.
Восстановление резерва может являться одной из следующих процедур: замена отказавших элементов на исправные; профилактическая замена элементов; ремонт элементов.
Отказавшие элементы заменяют на исправные по результатам функционального диагностирования, т.е. по факту отказа. Тем самым кратность резервирования доводится до первоначальной. В отличие от этого профилактическая замена проводится после истечения срока службы элемента или межремонтного срока. Отличительной особенностью здесь является то, что такая замена выполняется независимо от всех других мероприятий по обеспечению отказоустойчивости. Профилактическая замена позволяет поддерживать некоторое постоянное значение интенсивности отказов элементов. Что касается ремонта элементов, то можно отметить, что здесь эффективно применение средств тестового диагностирования.
Процедура восстановления вычислительного процесса проводится: после обнаружения ошибки функционирования системы; при введении в работу отремонтированного резерва (если резерв нагруженный).
В первом случае средствами технического диагностирования зафиксировано отклонение каких-либо параметров системы от нормы, например несоответствие результатов вычислений различных каналов обработки информации. Сначала необходимо классифицировать ошибку как сбой или катастрофический отказ. Для этого при наличии резерва времени повторяется эта же программа всеми каналами, причем возврат (рестарт) может быть к началу либо программы, либо программного модуля, при выполнении которого был зафиксирован отказ, либо команды программы, осуществлявшейся в момент возникновения ошибки или до нее. Если неисправность проявляется повторно, делается вывод о факте катастрофического отказа и проводится реконфигурация. В противном случае, т.е. при успешном повторном выполнении, предполагается, что имел место сбой и работа системы управления продолжается, а факт сбоя может быть зафиксирован для последующей статистической обработки.
При отсутствии резерва времени на обработку отказов элементов системы обычно имеют дело с маскирующими отказ решающими элементами, например мажоритарными. В таком случае тип ошибки определяется средствами встроенного тестирования отказавшего канала. Если эти средства сигнализируют о катастрофическом отказе, то также выполняется реконфигурация, если же речь идет о сбое — синхронизация работы каналов, т.е. отставший канал пытается догнать остальные, работающие синхронно. Для этого он инициирует обмен между всеми каналами для выравнивания данных, после чего проводится синхронный старт.
При введении в работу отремонтированного канала процедура восстановления вычислительного процесса аналогична: обмен между каналами для выравнивания исходных данных, синхронный старт.
Достарыңызбен бөлісу: |