КАТЕГОРИИ РАЗДЕЛА

 ПОСЛЕДНЕЕ

Самые резонансные аварии в ЦОД по итогам мая 2023 года

08.08.2023 г. | Раздел: Аварии в ЦОДах, Пожаротушение, Человеческий фактор, Электроснабжение ЦОД

Аварии в ЦОД: новости из Японии, США, Австралии и Китая

24.05.2023 г. | Раздел: Аварии в ЦОДах, Пожаротушение, Человеческий фактор

Аварии в дата-центрах: новости от Vocus, Twitter, Cyxtera и не только

23.03.2023 г. | Раздел: Аварии в ЦОДах, Пожаротушение, Электроснабжение ЦОД

Последствия аварий в ЦОД Lufthansa, Tesla, Oracle, Azure, Twitter

27.02.2023 г. | Раздел: Аварии в ЦОДах, Охлаждение ЦОД, Пожаротушение, Человеческий фактор, Электроснабжение ЦОД

Аварии в ЦОД: новости из Монако, Японии и США

27.01.2023 г. | Раздел: Аварии в ЦОДах, Пожаротушение, Человеческий фактор, Электроснабжение ЦОД

Нормативная документация

Опыт стремительного строительства мини-ЦОД. История ошибок

31 октября 2012 г. | Категория: Проектирование ЦОД

Это случилось давно, в 2007 году, но процесс был достаточно показательным. Банк с помощью интегратора строил свой новый большой центр обработки данных, держа при этом почти все ИТ-хозяйство в трех серверных на арендованных территориях и в одной своей.

В то время Департамент информационных технологий испытывал жесточайший дефицит инфраструктурных ресурсов. При обилии вычислительной и телекоммуникационной техники не было ни свободных площадей (физического места для ее установки), ни резервов по энергетике (срабатывание автоматов защитного отключения происходило тогда с пугающей регулярностью) и охлаждению (остановка одного из кондиционеров приводила к моментальному перегреву оборудования).

Общая мощность ИТ-обо­рудо­вания на арендованных площадках составляла 75 кВт. Вроде бы немного, но и не мало.

Процент заполнения помеще­ний составлял от 130 до 137 % от «нормального», расчетного, предусмотренного рекомендациями стан­дарта. Помещения были перег­ружены оборудованием и шка­фами. Добавлю, что резервов ни по энергетике, ни по охлаждению не было нигде. Везде дейст­вовала «схема резервирования N».Ситуация выглядела — да и являлась — критической. Строился большой, «настоящий» ЦОД — но до его сдачи было далеко. А ИТ-система готова была рухнуть в любой момент — стоило случиться отказу какого-нибудь одного компонента инфраструктуры. Чтобы по возможности быстро устранять постоянно возникающие неприятности, в рамках ДИТ даже создали специальное подразделение, отдел эксплуатации серверных. Из своих, айтишников. Из тех, кто понимает важность задачи.

Сотрудниками ДИТ было разработано несколько планов расширения серверных площадей в тех же зданиях, за счет «захвата» офисных территорий других подразделений. Были созданы и планы кардинальной модернизации инженерной инфраструктуры. Пла­ны эти детально прорабатывались — и по разным причинам отвергались. Главным препятствием было то, что основные серверные размещались на арендованных площадях. В конце концов план по комплексной модернизации инфраструктуры серверных был принят (при использовании таки дополнительного помещения). Но тут свершилось: предприятие купило часть большого здания. И, как оказалось, в планах самого высокого руководства фигурировал полный отказ от арендуемых площадей.

Получилось, что времени практически нет. Надо уходить с чужих территорий немедленно, аренда стоит сумасшедших денег. Проект «модернизации», уже официально анонсированный и запущенный, был срочно преобразован в проект создания «тестовой площадки», или резервного серверного помещения в этом «новом» здании (в кавычках потому, что здание было построено в 1965 году).

Ошибки фундаментальные

Начался дележ площадей. Создание серверной считалось приоритетной задачей, и ДИТ получил карт-бланш. Разумно было бы строить серверную на первом этаже (о том же говорит TIA-942), но тогдашний руководитель ДИТ принял волевое решение: будем на втором, поскольку там потолки выше на 40 сантиметров. Это был первый серьезный просчет, точнее, первая часть одного очень серьезного просчета.

В принципе, наличие грузового лифта снимало проблему доставки к серверной как тяжелого ИТ-оборудования, так и агрегатов инженерной инфраструктуры. Однако, поскольку здание все же старое, лифт требовал проверки и ремонта. И уже к концу 2007 года его эксплуатацию пришлось прекратить — в связи с аварийным состоянием. Хорошо, что основное тяжелое оборудование, в том числе ИБП, к этому моменту завезти успели.

Второй просчет был сделан через полгода после завершения проекта: из-за «высоких затрат» руководитель ДИТ дал команду хозяйственникам лифт не восстанавливать.

Лифт отключили, его дверные проемы заложили кирпичом. Позже мы об этом очень пожалели и жалеем до сих пор. Теперь ни завезти, ни вывезти тяжелое оборудование возможным не представляется: несущая способность лестничных конструкций оценена в 250 килограммов. (Последний раз планы по размещению в этой серверной системы IBM p595 разбились об отсутствие лифта полгода назад. Всего-то 1485 кг).

Без крупных ошибок

Часть проектных работ была проведена раньше, когда мы планировали «модернизацию», но львиная доля этих усилий оказалась впустую, техническую часть пришлось практически начинать сначала. Принялись снова считать, чертить и планировать. Уперлись, как и положено, в ограничения бюджета с одной стороны и энергетики — с другой: поблизости только одна подстанция, дополнительной мощности нам могут выдать не более 50 кВт (при наших потребностях как минимум в 85–90). Сошлись на 68 кВт. Почему именно 68 и как к этому пришли, знает только главный энергетик — это он бился за каждый киловатт.

Пересмотрели планы миграции ИТ-оборудования из старых по­мещений, скорректировали ТЗ. Единого подрядчика не было, разные системы поручили проектировать и строить разным организациям. Стыковать части и фор­мировать общий проект приходилось нам, айтишникам. Фактически работы начались в конце мая — начале июня.

Сформировали рабочую группу, в которую входили руководители ИТ, главный энергетик и на­чальник отдела капитального строительства. После весьма тща­тельного планирования поя­вил­ся детальный график проведения работ. Получилось: начало проектных работ, выполняемых подрядчиками, — середина июня, общестроительных — конец июня (и так далее), ввод в эксплуатацию — 16 ав­густа. На все про все — меньше трех месяцев.

Надо сказать, что избежать отклонений от графика не удалось: официально ввод в эксплуатацию состоялся на месяц позже запланированного. Однако к этому моменту в серверной уже работало вычислительное оборудование в двух шкафах и телекоммуникационный центр. То есть практически в запланированные сроки почти уложились, но разного рода недоделки ликвидировали еще долго. Из-за просчетов проектировщиков пришлось переделывать систему вторичного распределения питания. Для реконструкции щитов и замены кабельных лотков дважды останавливали серверную более чем на сутки.

Ошибки планирования

Составили примерную смету проекта. Цифры для расчетов брались «средние по рынку» и из Интернета. На точность на этом этапе особо и не рассчитывали. Но смету сверстали и утвердили. Заложив, естественно, статью «непредвиденные расходы».

Из-за сжатых сроков полноценные тендеры или закупочные процедуры не проводили: воспользовались коммерческими предложениями тех фирм, с которыми раньше работали или которые были на слуху. Основным был предварительный технический проект, который разработали сами, имея в виду, что подрядчики внесут свои коррективы. Надо сказать, что у наших специалистов опыт реализации похожих проектов уже был, у некоторых — немалый.

Получилось, что основную роль в организации работ и проектировании играли вовсе не специалисты по строительству, энергетике и кондиционированию. Главную потребность в серверной испытывали компьютерщики, они были инициаторами, им и пришлось больше всех суетиться.

В ходе работ по детальному проектированию и строительству жизнь вносила в первоначальные планы коррективы. Вначале собирались использовать купленный для «большого» ЦОД ИБП, но по ходу работ пришлось переиграть и покупать еще один, специально для этой площадки. Внешние каналы связи надеялись арендовать за смешные деньги — не получилось, пришлось строить.

Планировали установку ДГУ; из-за высокой стоимости и долгих сроков поставки решили на первое время отказаться, как и от автоматической системы пожаротушения (ДГУ появился через полгода, АСГП — через год, оформлялись отдельными проектами). Для системы мониторинга подобрали оборудование из имеющегося — сэкономили. В целом по завершении проекта картина по расходам оказалась довольно показательной:

Удивляться особо нечему — разве только тому, что на первом этапе удалось уложиться в заявленные приблизительные суммы. В результате, после завершения всех работ — через год, чуть больше, — проект все равно оказался дороже аж на три миллиона. Другое дело, что цель все же была достигнута: существенная часть ИТ-оборудования переехала в «свое» помещение со вполне достойной инженерной инфраструктурой и, в общем-то, в запланированные сроки.

Ошибки производственные

Процесс строительства держали под непрерывным контролем. Приходилось почти ежедневно наведываться на площадку, оценивать объемы выполненного и оставшегося, встречаться с проектировщиками и пр. И все же, несмотря на имевшийся опыт, проглядели явные ошибки в проектах. Речь, в частности, об упомянутой выше системе вторичного распределения энергии. То, что кабельные каналы, мягко говоря, маловаты, выяснилось только тогда, когда монтажники не сумели закрыть их крышками, поскольку, понимаете ли, мешали кабели.

Оказалось, что PDU, которые уже куплены и получены, подключить простым втыканием в розетку не получится — снова ошибка в проекте. Пришлось уже самим изобретать, подключать их через клеммные коробки.

Рамы, сваренные под канальные кондиционеры, во время работы последних не то что вибрировали — раскачивались. Пришлось заставлять строителей усиливать, подводить дополнительные опоры.

Ну и еще ряд менее значительных ошибок, исправление которых не стоит упоминания.

Работы

По планам

По факту

Проектные работы

200 000 руб.

550 000 руб.

Общестроительные работы

845 800 руб.

1 003 110 руб.

Энергетика

532 000 руб.

180 000 руб.

Кондиционирование

2 000 000 руб.

1 843 000 руб.

Вентиляция

180 000 руб.

100 000 руб.

СКС

250 000 руб.

377 453 руб.

Внешние каналы связи

 

1 034 568 руб.

ИБП

 

2 500 000 руб.

ДГУ

2 500 000 руб.

 

Пожаротушение газовое

910 000 руб.

 

Прочие (мониторинг,

контроль доступа и т. д.)

126 908 руб.

 

Итого по проекту:

7  544 708 руб.

7 588 131 руб.

Ошибки в эксплуатации

Вернее сказать, здесь будут упомянуты ошибки, выявленные в ходе эксплуатации, поскольку они относятся опять же к этапам проектирования и монтажа.

Через два с половиной месяца после официального ввода серверной в эксплуатацию начали возникать аварии в системе кондиционирования. Один из кондиционеров не входил в режим. Ремонтировали его методом последовательного приближения: постепенно заменили все подозрительное (чему старательно противился поставщик, поскольку устройство гарантийное) — двигатель вентилятора, инвертор, контроллер. Последнее помогло. Заводской брак… Процесс растянулся на месяц, а ведь достаточно было провести тщательную диагностику! Но у «сервиса» не оказалось стенда.

Выяснилось, что схема подачи холодного воздуха не обеспечивала равномерного охлаждения оборудования: то там, то здесь возникали зоны локального перегрева. Приходилось все время бороться с перепадами температуры: после очередного переключения кондиционеров в «холодном» коридоре то +12 °С, то +26 °C.Тщательно подумали, изменили форму воздуховодов — для оптимизации воздушных потоков. Помогло, но проблему не решило. Еще подумали, изолировали «горячий» коридор. Тоже помогло, и тоже не на 100 %. Подумали еще раз, воздуховоды от кондиционеров объединили коллекторами с регулируемыми решетками. Реши­ли-таки проблему. Из-за того, что в процессе монтажа плохо затянули винты в распределительном щите, начали «подгорать» перемычки. В результате — остановка серверной, благо что серверная — тестовая.

Очевидные выводы

Торопливость, как известно, нужна только в нескольких известных случаях. При проектировании серверной, даже таких незначительных масштабов, лишний месяц на планирование и проработку деталей не помешает.

Как писал Ремарк: «Посредственность и прилежание лучше, чем гений и беспутство». Очень подходит к описанному процессу. Для срочного решения задачи необходимы проверенные технические решения, тщательная проверка частей проекта, дотошный контроль качества… А иначе — пишем свою персональную «Историю ошибок».

Вообще-то, выводов можно сде­лать много.

И будьте бдительны!

Олег Печень

Источник: журнал ЦОДы.РФ, октябрь 2012, № 01

Теги: Олег Печень, ошибки

Комментариев: 0

Регистрация
Каталог ЦОД | Инженерия ЦОД | Клиентам ЦОД | Новости рынка ЦОД | Вендоры | Контакты | О проекте | Реклама
©2013-2024 гг. «AllDC.ru - Новости рынка ЦОД, материала по инженерным системам дата-центра(ЦОД), каталог ЦОД России, услуги collocation, dedicated, VPS»
Политика обработки данных | Пользовательское соглашение