ЦОД. Премудрости эксплуатации

Материал из CustisWiki
Перейти к: навигация, поиск
Дмитрий Морозов, наш ведущий системный инженер, ответил на вопросы редакции журнала «ИнформКурьер-Связь» для обзора по теме «ЦОД. Премудрости эксплуатации». Комментарии Дмитрия о специфике эксплуатации и обслуживания ЦОДов, а также о типичных ошибках при проектировании и строительстве ЦОД читаем в материалах данного обзора.

«ИнформКурьер-Связь»: Каковы особенности российской эксплуатации ЦОДов? Собственная служба эксплуатации или аутсорсинг, что реальнее и надежнее в российских условиях? К какой модели склоняется ваш дата-центр? Возможен ли сейчас в России нормальный аутсорсинг обслуживания оборудования ЦОДа? Как организована служба эксплуатации дата-центров в других странах мира? Чему могут поучиться у своих иностранных коллег российские эксплуататоры ЦОДов?

Д. Морозов: Конечно, если у компании нет возможности обрабатывать данные в публичном ЦОДе (например, по причинам безопасности) и содержать штат персонала для обслуживания оборудования ЦОДа, то вариант полного аутсорсинга, в принципе, реален. Но в большинстве случаев аутсорсинг используется для обслуживания инфраструктурных систем, таких как электропитание и кондиционирование. А работы, связанные с серверным оборудованием, настройкой систем виртуализации, чаще все-таки остаются в сфере ответственности ИТ-подразделения компании.

«ИнформКурьер-Связь»: Каковы особенности эксплуатации вашего ЦОДа? Какое оборудование инженерных и ИТ-систем дата-центра требует особого внимания при эксплуатации? Обслуживание каких систем обязательно требует привлечения производителей и/или специальной сервисной организации? С чем можно справиться самостоятельно? Какие проблемы эксплуатации позволяют решить системы мониторинга в ЦОДе? Как их наличие влияет на организацию эксплуатации, состав обслуживающей команды ЦОДа, уровень и, соответственно, стоимость сервисных контрактов?

Д. Морозов: Что касается нашего ЦОДа, то в нем регламентные работы по обслуживанию электропитания и кондиционирования осуществляются сертифицированными сервисными организациями (но под контролем наших сотрудников), все остальные работы выполняются нашими специалистами. На оборудование и используемое в ЦОДе программное обеспечение имеются сервисные контракты с производителями. Оборудование резервируется с расчетом на задержки в работе внешних сервисных организаций, для особо критичных узлов в резерве всегда имеются запасные экземпляры.

Очень важным элементом ЦОДа является система мониторинга. Кроме уведомлений о проблемах в ЦОДе (которые позволяют обслуживающему персоналу значительно сократить время простоя систем, зачастую без участия самого персонала), необходимыми функциями являются проактивный мониторинг и система сбора статистики использования ЦОДа. Проактивный мониторинг позволяет выявлять события, способные привести к выходу из строя узлов ЦОДа, и тем самым предотвращать сбои. Система сбора статистики дает представление об использовании ЦОДа, темпах роста объемов и нагрузки, частоте сбоев и их причинах. Все это позволяет прогнозировать эксплуатацию и развитие ЦОДа, сроки закупок оборудования, выдерживать необходимый и достаточный уровень резервирования и поддерживать баланс между уровнем качества и стоимостью обслуживания.

«ИнформКурьер-Связь»: Ваш опыт формирования команды эксплуатации ЦОДа. Когда и как должна создаваться эта команда? Как вы определяете необходимую численность персонала службы эксплуатации и как формируете требования к квалификации ее специалистов?

Д. Морозов: При формировании команды эксплуатации мы применяем принципы, похожие на те, что используются при комплектовании ЦОДа оборудованием: за каждым узлом/направлением деятельности ЦОДа закреплены двое ответственных — основной и резервный (на случай болезни или отпуска основного). Они производят постоянный контроль за эксплуатацией своего направления и на основе собираемой статистики формируют концепцию долговременного развития. Вся информация о проводимых работах и их длительности фиксируется в базе знаний. Это позволяет держать всю команду в курсе изменений и своевременно наращивать численность персонала в нагруженных направлениях, снижая ее в тех местах, где персонал «простаивает».

«ИнформКурьер-Связь»: С чем связано большинство проблем при эксплуатации — с ошибками проектировщиков, ошибками строителей, ошибками собственного персонала службы эксплуатации, ошибками специалистов сервисных компаний? Каковы на ваш взгляд типичные ошибки при проектировании и строительстве дата-центра, влияющие на его последующую эксплуатацию? Какие основные проблемы (технические и организационные) возникают сразу же на первых этапах эксплуатации ЦОДа, а что вылезает после окончания срока гарантийного обслуживания оборудования? Насколько они серьезны? Как их минимизировать?

Д. Морозов: Типичная ошибка при проектировании и строительстве ЦОДа — отсутствие долгосрочного планирования эксплуатации. В первую очередь речь идет об отсутствии масштабируемости — чаще всего возникают проблемы нехватки электропитания, кондиционирования, отсутствия свободных площадей в ЦОДе. Также операторы регулярно сталкиваются с прекращением поддержки оборудования. Избежать таких проблем поможет основанная на статистике стратегия эксплуатации ЦОДа на несколько лет вперед (как минимум, на время жизни оборудования).

«ИнформКурьер-Связь»: Какие способы снижения затрат на эксплуатацию дата-центра вы считаете наиболее адекватными? На чем экономить нельзя?

Д. Морозов: Наиболее логичный и адекватный способ снижения затрат на эксплуатацию — сокращение избыточности. Избыточности оборудования, резервирования, обслуживающего персонала. Анализ статистики по инцидентам и темпам роста позволяет значительно точнее оценивать необходимые объемы оборудования и численность персонала и сокращать издержки. Но, стремясь сократить издержки, ни в коем случае нельзя оставлять незарезервированные участки инфраструктуры и экономить на компетенциях персонала.

«ИнформКурьер-Связь»: Нужна ли сертификация служб эксплуатации российских ЦОДов в Uptime Institute (Operation Sustainability) или проведение аудита службы эксплуатации в том же Uptime Institute? Это реальная потребность или дань моде? Как это может повлиять на общий уровень эксплуатации дата-центров? Интересуют ли клиентов подобные документы?

Д. Морозов: Сертификация служб эксплуатации — это прежде всего документ для клиентов. Отдавая свои данные/оборудование в ЦОД, клиент хочет быть уверен в их надлежащем обслуживании, потому сертификат — это конкурентное преимущество ЦОДа.

С другой стороны, добросовестные владельцы и операторы «закладывают» требования, аналогичные сертификации Uptime Institute, уже на этапе создания ЦОДа, проводят регулярные внутренние аудиты, имеют планы и регламенты восстановления в случае сбоев и проводят регулярные тестовые проверки.


Репликация: База Знаний «Заказных Информ Систем» → «ЦОД. Премудрости эксплуатации»

Любые правки этой статьи будут перезаписаны при следующем сеансе репликации. Если у вас есть серьезное замечание по тексту статьи, запишите его в раздел «discussion».