Жизненный цикл ЦОДа: факторы эффективного управления

Интервью

Жизненный цикл ЦОДа: факторы эффективного управления

02 ноября 2017 г. | Ивашов Андрей

В работе самых, казалось бы, надежных ИТ-систем случаются сбои. Не являются исключением и мировые лидеры облачного рынка. При этом стоимость ошибки неуклонно возрастает, поскольку зависимость от ИТ в целом и от облачных сервисов в частности становится для бизнеса критической. А это значит, что вопросы обеспечения надежности инженерной инфраструктуры ЦОДов выходят на новый, еще более ответственный уровень.

Статистика по отказам ИТ-сервисов в России традиционно не является предметом публичного обсуждения. Среди причин такого молчания как неготовность компаний демонстрировать свои неудачи, так и нежелание участников рынка рисковать отношениями, обсуждая причины отказов и возможный размер потерь. Однако, если принять во внимание тот факт, что вычислительное оборудование и сами подходы к организации ИТ-инфраструктур примерно одинаковы во всем мире (отличаются лишь масштабы), то можно ориентироваться на частоту сообщений об отказах сервисов крупнейших международных компаний, чтобы представить себе характер происходящего у нас в стране. Даже поверхностный анализ открытых источников информации убедительно свидетельствует о том, что глобальная экономика с каждым годом (а то и месяцем) все больше зависит от крупнейших облачных провайдеров и, соответственно, от надежности их инфраструктур. Приведем несколько свежих примеров отказов сервисов, которым я доверяю.

Никто не застрахован от потерь

19 января 2016 года пользователи Twitter испытывали перебои в работе сервиса, которые длились около 8 часов. Причиной стали ошибки в программном в коде. Днем ранее проблемы с электронной почтой возникли у пользователей Microsoft Office 365 (в этом случае источник проблемы был в перегрузке инфраструктуры поставщика сервисов). Чуть более чем через месяц — 22 февраля сбои в работе Office 365 ощутили мобильные пользователи. В том же 2016 году последствия нарушений в работе облачных сервисов испытывали клиенты Salesforce, Google Cloud Platform, Symantec.

Кто и сколько потерял в ходе упомянутых сбоев? Оценивать стоимость ущерба для большого бизнеса дело неблагодарное. Здесь нередки случаи, когда даже кратковременная недоступность того или иного сервиса может привести к срыву миллионных сделок.

Что касается причин сбоев: если не брать в расчет форс-мажорные обстоятельства, они чаще всего связаны либо с человеческими ошибками, либо с непредсказуемым отказом оборудования или алгоритмов.

Другой факт заключается в том, что в основе работоспособности любых сервисов лежит физическая инфраструктура. Каждый дополнительный гигабайт и гигафлопс в конечном итоге выливается в некоторое количество бетона, металла, гликоля, фреона, киловатт-часов и другие неизбежные затраты, которые несет организация в процессе строительства и эксплуатации ЦОДа.

Избыточное резервирование — есть ли достойная альтернатива?

Как только мы хотим решить проблему устойчивости за счет избыточного резервирования или распределения вычислений, мы начинаем излишне использовать физическую инфраструктуру. Решаем качественную проблему количественным способом. Результатом все равно будет рост затрат, пока в природе не появились свободные ЦОДы с очень дешевой энергией в очень большом количестве. Логичным выводом является то, что внимание по-прежнему необходимо акцентировать на базовом уровне инфраструктуры, состояние которой непосредственно влияет на устойчивость сервисов. В контексте снижения рисков альтернативой или дополнением к географическому распределению приложений могут стать: внедрение системы учета активов и интеграция между собой систем мониторинга физической инфраструктуры, АСДУ и сервисов ITSM.

Часто мониторинг инженерной инфраструктуры внедряется в минимальном объеме — ровно настолько, чтобы закрыть потребности в своевременном реагировании на аварийные ситуации. Но для снижения рисков при эксплуатации виртуализированной или облачной инфраструктуры необходимы современные инструменты управления активами (IT asset management), которые позволят осуществлять сквозное управление на всех уровнях — от приложений до оборудования и систем инженерной инфраструктуры.

Подход к управлению жизненным циклом ЦОДа может быть сколь угодно сложным, но при внедрении решений класса DCIM (Data Center Infrastructure Management) стоит ориентироваться на этапность (табл.), удовлетворяя сначала наиболее базовые потребности, в числе которых:

мониторинг и управление инфраструктурой;
эксплуатация и управление активами (включая интеграцию с инструментами ITSM);
анализ, планирование, контроль стоимости владения и эффективности.

DCIM — комплексная система

Что касается конкретной реализации DCIM-систем для дата-центров, обратим внимание на модульное программно-аппаратное решение Schneider Electric StruxureWare for Data Centers. Комплекс разработан специально для внедрения процедур и регламентов, обеспечивающих высокую утилизацию и производительность ресурсов физической инфраструктуры, а также снижающих риски, возникающие в процессе эксплуатации. Решение способно справиться с требованиями дата-центров любого масштаба и уровня надежности. Аппаратной основой комплекса является система NetBotz, включающая в себя модули мониторинга и подключаемые к ним датчики и детекторы. Источниками данных мониторинга могут выступать также системы АСДУ, если внедряются системы промышленного класса (BMS или SCADA). Эти данные потребляются и используются главной составляющей DCIM Schneider Electric — фирменным ПО, обладающим широчайшими возможностями.

Задачи централизованного мониторинга решаются системой Data Center Expert, предназначенной для работы с инженерным оборудованием любых вендоров, расположенным в машинных залах или распределенных узлах. Data Center Expert обрабатывает данные мониторинга и систем видеонаблюдения и рассылает необходимые оповещения сотрудникам дежурной смены или другим системам.

Data Center Operation — система верхнего уровня по отношению к Expert — обеспечивает ведение процессов и регламентов, учет активов, оценку и контроль эффективности использования ресурсов, минимизацию рисков при выполнении изменений, а также способствует объединению инженерных и ИТ-сервисов. К тому же система визуализирует все элементы ЦОДа, включая инженерное, серверное и сетевое оборудование, СХД и т. д.

Не так давно мы выпустили новую версию Operation c веб-интерфейсом и функцией Colocation, которые сделали систему значительно удобнее для эксплуатации в коммерческих ЦОДах. Ценность решения заключена в возможности контроля оборудования арендаторов в процессе производства работ и снижении рисков нарушения SLA. А веб-портал для пользователей позволяет провайдеру создавать персональные кабинеты арендаторов, использующих как отдельные ресурсы в ЦОДе, так и выделенные помещения или отсеки.

Отмечу также, что благодаря открытому API возможна интеграция StruxureWare for Data Centers с внешними системами класса ITSM (IT Service Management, управление ИТ-услугами) и обеспечение сквозного контроля состояния активов и зависимых сервисов.

В заключение стоит отметить, что внедрение систем DCIM не должно являться самостоятельной целью. Необходимо сформулировать первоначальные цели, в числе которых может быть снижение рисков или стоимости эксплуатации. Лишь после этого стоит производить выбор платформы и поставщика, при этом последний должен четко обосновать, какими средствами его решение поможет достичь поставленных целей, в какие сроки и с какими затратами.

Этапы внедрения DCIM	Факторы эффективной реализации DCIM
Анализ, планирование, контроль стоимости владения и эффективности	Соответствие лучшим практикам, рекомендациям, стандартам (Business Compliance) Наличие неискаженных данных для планирования Точное планирование инвестиций Инструменты снижения стоимости владения (TCO) Оптимизация (ROI) Оптимизация производительности и численности персонала Оценки рентабельности (ROM/ROFA/ROL/ROA)
Эксплуатация и управление активами	Создание процессов и регламентов Организация взаимодействия с внешними бизнес-процессами Минимизация рисков при выполнении изменений Возможность объединения инженерных и IT-сервисов (Facility & IT) Организация учета активов (Asset Management + интеграция с CMDB) Оценка и контроль эффективности использования активов (ROI) Контроль эффективности (например, показатель PUE) Модернизация модели управления (например, от реактивной к бизнес-ориентированной)
Мониторинг и управление инфраструктурой	Контроль состояния рабочей среды Оповещения о событиях Анализ истории, событий и изменений Создание визуальной среды для управления изменениями в ЦОДе Анализ истории, событий и изменений Создание визуальной среды для управления изменениями в ЦОДе Контроль выполнения изменений

Таблица. Важнейшие составляющие процесса внедрения и эксплуатации DCIM в дата-центре

Источник: Журнал "ЦОДы.РФ", №20

Теги: DCIM, Schneider Electric

Чтобы оставить свой отзыв, вам необходимо авторизоваться или зарегистрироваться

Интервью

Жизненный цикл ЦОДа: факторы эффективного управления

Комментариев: 0