Инциденты в дата-центре бывают разные: какие-то не влияют на непрерывность предоставления сервисов, а какие-то приводят к их отказу
14 июля 2014 г. | Маслов Анатолий
О причинах инцидентов в дата-центре рассказывают Анатолий Маслов, технический эксперт компании R-Style и Илья Кузнецов, технический эксперт компании R-Style.
На Ваш взгляд, из-за каких ошибок чаще всего происходят мелкие инциденты и крупные аварии в дата-центре?
Анатолий Маслов:
В правильно спроектированном и построенном ЦОД, любой технический сбой не должен приводить к остановке текущих бизнес-процессов, т.к. все критичные системы должны быть зарезервированы, т.е. не должно существовать единой точки отказа ЦОД.
Отказ ЦОД чаще происходит не от технического сбоя, а при неправильной эксплуатации, что вызвано двумя основными факторами: на этапе проектирования заложен (не учтен) потенциальный сбой при эксплуатации; не компетентный эксплуатирующий персонал.
Нельзя исключать и такой фактор, как катастрофы различных причин (природные, техногенные). Часто можно снизить их вероятность и степень воздействия при правильном выборе физического места расположения ЦОД.
Какой «вклад», на Ваш взгляд, в общее число инцидентов в ЦОД (серьезных или не имеющих серьезных последствий), вносят ошибки проектирования? Можете привести примеры таких ошибок?
А.М.:
Большой вклад. Потенциально все ошибки, за исключением природных и техногенных катастроф и человеческого фактора при эксплуатации, потенциально закладываются при проектировании.
Примеры аварий, заложенных при проектировании на примере системы бесперебойного электропитания (СБЭ) ЦОД:
- Запроектирован рубильник сервисного байпаса без «сухого» контакта, по сигналу которого ИБП автоматически останавливает инвертор. В этом случае, если инженер ошибочно переводит СБЭ на обводную линию, то инвертор ИБП начинает бороться с Территориальной Генерирующей Компанией. Понятно кто победит. В лучшем случае сгорают выходные предохранители ИБП, в худшем – сгорят сборки IGBT транзисторов инвертора. ЦОД остановился – данные потеряны.
- Был запроектирован дифференциальный автоматический выключатель только в главном распределительном щите (ГРЩ) (ниже по сети дифференциальной защиты не было), питающий помимо системы с особо важными нагрузками через СБЭ, еще важные нагрузки, допускающие кратковременный перебой (питание от ДГУ). В ИБП многих вендоров основные рубильники не рвут нейтральный проводник, однако для ремонтных работ с полным выводом ИБП из работы эта возможность должна присутствовать. Чаще всего в ИБП существует отдельный рубильник для этих целей. Так, при ремонте не отсеченного от цепи нейтрали ИБП нулевой проводник попал на заземленный корпус ИБП, так как в цепи между ИБП и ГРЩ дифференциальной защиты не было, сработал главный вводной автомат, обесточив весь объект.
- При проектировании системы электропитания с СБЭ с большой автономностью не был учтен зарядный ток и КПД ИБП, при этом мощность трансформатора подстанции практически соответствовала нагрузке. В итоге при выходе на расчетную мощность нагрузки произошла перегрузка фидера.
- При проектировании не учтено, что первое время при вводе системы активная нагрузка ЦОД составляет 20% от номинальной. При этом СБЭ и система кондиционирования, подключенные к сети гарантированного электроснабжения СГЭ (при аварии работают от ДГУ), были запущены полностью. При пропадании внешнего электропитания реактивные токи от ИБП не имеющего цепочки предварительного заряда своих внутренних конденсаторов и от систем кондиционирования начинают «обманывать» СГЭ, так как регулирование напряжения у большинства ДГУ осуществляется по току. Начинается понижение или увеличение выходного напряжения, в зависимости от характера реактивной нагрузки (ёмкостная или индуктивная), напряжение выходит за рамки приемлемого для входа ИБП, осуществляется переход на батареи, реактивная составляющая от ИБП перестает действовать на выход ДГУ, напряжение приближается к номинальному, ИБП возвращается на питание от ДГУ, а далее все по кругу. Происходит так называемая раскачка системы, с последующим отказом электропитания после полной разрядки батарей или блокировки выхода ДГУ. Ситуация решается за счет выбора ИБП с возможностью автоматического отключения и включения не задействованных модулей с использованием балластной нагрузки или применения компенсатора реактивных токов.
Какая на Ваш взгляд, доля сбоев инженерного оборудования, приводит к недоступности дата-центра в целом? Какими критериями проектировщик обычно руководствуется при выборе инженерного оборудования?
Илья Кузнецов:
При правильном построении и эксплуатации ЦОД – крайне малая доля. Однако, по нашей оценке, не менее трети случаев потери данных в дата-центрах происходит по причинам сбоя системы электроснабжения. Еще немногим менее 8% вносит система холодоснабжения. Именно поэтому, проектированию, монтажу и эксплуатации этих систем стоит уделять особое внимание. Основные критерии, которыми руководствуется проектировщик при выборе инженерного оборудования: требования заказчика (при наличии), технические характеристики, стоимость, партнерские отношения и опыт сотрудничества с тем или иным вендором.
Какие меры могут предотвратить ошибки на стадии проектирования? Считаете ли Вы полезным проведение независимых аудитов после этапов проектирования?
И.К.:
Наверное, самой главной причиной, приводящей к возникновению ошибок на стадии проектирования, является желание заказчиков сэкономить на проведении всех этапов проектирования.
Идеальным для себя случаем заказчик считает выполнение проекта за 1 рубль – случаи выигрыша конкурса на проектирование с такой ценой присутствуют. Либо участником конкурса предлагается минимальная стоимость проектирования, заведомо ниже конкурентов. Но не всегда такие конкурсы выигрывают порядочные компании. О качестве заложенных решений и грамотности выполнения документации часто забывают, отодвигая это на задний план.
Заказчику важно понимать уже избитое правило – «хорошо дешево не бывает». И наличие в штате компании высококвалифицированных специалистов, построивших не один дата-центр, имеющих сертификаты известных международных организаций тоже стоит недешево. Портфолио компании-подрядчика – тоже не пустой звук. В РФ на данный момент не так много компаний, которые имеют опыт успешного проектирования и построения крупных дата-центров.
Именно поэтому та компания, где присутствует грамотная система мотиваций, выделяется бюджет на тренинги и повышение квалификации сотрудников, имеется грамотная HR-служба, обеспечит компетентность, обученность и опытность проектной команды, что, в свою очередь, простимулирует и поспособствует проектной работе с малым количеством ошибок.
Поэтому главной мерой, которая позволит предотвратить ошибки на стадии проектирования, является правильный выбор заказчиком компании-подрядчика на проведение этих работ.
Мы, как компания-интегратор, зачастую попадаем в разряд подрядчиков на проведение аудита, но иногда и сами оказываемся в роли «экзаменуемых», т.е. аудиты проводят на выполненные нами проекты.
Очень часто, так называемый, «независимый» аудит носит заказной характер, т.е. заказчик уже решил, что надо либо похвалить проект, либо «потопить». С другой стороны, компания выполняющая аудит может целенаправленно дать плохую оценку выполненных проектов с надеждой переманить заказчика к себе.
Однако выполнение поистине независимого аудита в проверенной, грамотной (см. выше) и незаинтересованной компании является очень полезной мерой для заказчика при условии, что они не уверены в качестве выполненных проектных работ.
Есть мнение, что главные причины создания некачественного ЦОД — это жадность инвестора и трусость руководителя проекта. Вы с этим согласны?
А.М.:
Не жадность, а недальновидность инвестора, т.к. прижимистость — это нормальная черта любого инвестора. Чаще всего экономия средств на этапе строительства «бьет по карману» при эксплуатации.
Что касается руководителя проекта, то причины создания некачественного решения кроются в плохой организации работы проектной команды, и в неумении четко и правильно донести до инвестора скрытую, на этапе создания ЦОД, информацию о рисках и эксплуатационных расходах в будущем при ярко выраженной экономии средств на строительство.
Еще можно выделить очень важную роль ГИПа, от грамотности которого также зависит качество строительства ЦОД, причем не меньше, чем от компетенции руководителя проекта.
Основные критерии успешности строительства качественного ЦОД: профессиональная работа ГИП в связке с РП; грамотная, опытная и управляемая проектная команда; инвестор, полностью доверяющий и прислушивающийся к мнению интегратора (генерального подрядчика). Теги: Анатолий Маслов, Илья Кузнецов, R-Style
|
Чтобы оставить свой отзыв, вам необходимо авторизоваться или зарегистрироваться
Комментариев: 0