Из обширной практики нашей компании приведу один случай системной аварии в ЦОДе режимного предприятия, где располагается вычислительный кластер. Характеристики ЦОДа: потребляемая мощность — 1 МВт; используется внутрирядное охлаждение; компоненты систем электропитания, системы охлаждения зарезервированы по схеме N+1 или 2N.
Чтобы проанализировать причины аварии, в качестве независимого эксперта была приглашена компания «Тринити». Внешний осмотр оборудования на объекте выявил значительную деформацию геометрии пластиковых элементов, следы вскипания и вздутия аккумуляторных элементов ИБП. Однозначный вывод: комплекс продолжал активную работу после остановки охлаждающей системы. При этом, как показал анализ записей в журналах ИБП, внутрирядных кондиционеров за весь период функционирования до аварии и во время нее перебоев с внешним электропитанием не было, как и перебоев по защищенным линиям от ИБП, даже несмотря на отключение батарейного блока и многочисленные переходы на питание в режим «байпас». Характер внешних повреждений указывал на то, что оборудование на протяжении десятков часов функционировало в условиях повышенной температуры. По достижении температуры воздуха более 50 °С был превышен порог давления клапана, из-за чего имел место аварийный сброс огнетушащего вещества из баллонов автоматической газовой системы пожаротушения, что в свою очередь стало причиной ее неработоспособности на фоне продолжающегося роста температуры. Как показало исследование, аварии предшествовала двадцатичасовая одновременная работа двух чиллеров. В штатном режиме такая работа продолжается не более 25 секунд, в период ротации чиллеров. Одновременная длительная работа двух внешних блоков системы охлаждения привела к чрезмерному переохлаждению теплоносителя, вследствие чего они отключились в результате ошибки «Защита от угрозы обмерзания» с остановкой основных циркуляционных насосов. Из-за отсутствия циркуляции произошла аварийная остановка внутрирядных кондиционеров, и, как следствие, подскочила температура. По итогам исследования всех доступных журналируемых систем была установлена первопричина аварии: проблемы со щитом силовой автоматики. К одновременному запуску и работе второго чиллера привела некорректная работа первого, в питании которого пропала первая фаза.
Анализ причин
Отсутствие в ТЗ на проектирование требований к каналам оповещения системы мониторинга, связанных с режимом секретности. Система автоматического отключения и оповещения (САОО) была рассчитана на работу с дежурным оператором путем его оповещения по SMS и e-mail, которые были заблокированы из-за режима безопасности объекта. При введении в эксплуатацию САОО не была переведена на автоматическое функционирование в отсутствие каналов оповещения об аварии. Была отключена сигнальная линия «авария», предусмотренная производителем (APC) между комплексом мониторинга NetBotz и ИБП. Не был запроектирован и установлен дополнительный контур мониторинга параметров среды с выводом сигнализации на пост охраны. Аварию удалось обнаружить, только когда сработали объемные датчики движения охранно-тревожной сигнализации, выведенные на пост охраны, зафиксировавшие падение оплавленных заглушек и боковых стенок шкафов.
Рекомендации
В ТЗ на проектирование необходимо устанавливать требования к выводу сигнализации на пост охраны, к каналам связи для оповещения, к независимости контура мониторинга от работоспособности ЛВС, серверов, АТС и другого оборудования, за которым же и ведется наблюдение. При питании трехфазной техники желательно использовать реле контроля фаз. Следует разработать подробную методику испытаний для приема комплекса в эксплуатацию, предусматривающую максимально возможные комбинации нештатных событий. Документация должна содержать инструкции по действиям сотрудников в нештатных ситуациях. Проводить обучение эксплуатирующего персонала.
Источник: Журнал «ЦОДы.РФ» № 13
Чтобы оставить свой отзыв, вам необходимо авторизоваться или зарегистрироваться
Комментариев: 0