Отказоустойчивые компьютеры компании Stratus

       

Организация непрерывной обработки


Концепция обеспечения непрерывной обработки компании Stratus затрагивает буквально все аспекты построения системы. В ее компьютерах применяются дуплексные аппаратные средства, построенные на принципах самоконтроля, осуществлено "усиление" ядра операционной системы с целью повышения устойчивости к сбоям и отказам отдельных компонентов, обеспечивается проведение работ по модернизации, обслуживанию и администрированию системы в оперативном режиме, что позволяет ликвидировать другие потенциальные источники простоев. Такой комплексный подход дает возможность поддерживать постоянный доступ к приложениям и данным и предохранять их от повреждений.

Работа системы начинается с диагностики всех компонентов при включении питания. В оперативном режиме все вычисления, операции с памятью и операции ввода/вывода выполняются параллельно на дуплексных аппаратных средствах. Каждая печатная плата проверяет себя на наличие аппаратных ошибок в каждом машинном такте. Если обнаруживается сбой в логике, система немедленно останавливает неисправную плату. Плата дуплексного партнера продолжает выполнять программу в обычном режиме и с нормальной скоростью.

Таким образом, даже если отказывает плата, никакого вмешательства операционной системы не требуется. Отказавшая плата просто больше не участвует в работе, о чем автоматически сообщается в центр поддержки пользователей (Customer Assistance Center). Такой подход имеет то преимущество, что позволяет обнаружить в работе оборудования не только "жесткие" отказы, но также и временные неисправности (сбои), что обеспечивает более высокий уровень готовности системы и повышает гарантию целостности данных.

Память системы дублируется и защищается ECC-кодами, а логика контроллера памяти построена на принципах самоконтроля. Усовершенствованные схемы поиска неисправностей проверяют память на наличие ошибок и гарантируют, что даже в редко используемых ячейках памяти не появятся некорректируемые ошибки. При этом работа этих схем поиска неисправностей скрыта от приложений и не влияет на производительность системы.

Дисковые накопители и контроллеры также дублируются, чтобы предотвратить появление неисправности, которая может повредить данные или прервать работу системы. При выполнении операций записи ОС записывает данные на два диска. При выполнении операций чтения данные поступают с того диска, для позиционирования головок чтения-записи которого требуется меньше времени, что минимизирует время доступа и обеспечивает повышение производительности в среде с большой нагрузкой по чтению. В случае отказа диска, все операции дискового ввода/вывода выполняются на исправном накопителе до тех пор, пока отказавшее устройство не будет заменено. После устранения неисправности система автоматически восстанавливает диск. В данном случае прикладное программное обеспечение даже не подозревает о возникновении неисправности, а также о наличии избыточной аппаратуры.

- -



Содержание раздела