Персональные инструменты
 

ЦОД. Премудрости эксплуатации

Материал из CustisWiki

Перейти к: навигация, поиск
Дмитрий Морозов, наш ведущий системный инженер, ответил на вопросы редакции журнала «ИнформКурьер-Связь» для обзора по теме «ЦОД. Премудрости эксплуатации». Комментарии Дмитрия о специфике эксплуатации и обслуживания ЦОДов, а также о типичных ошибках при проектировании и строительстве ЦОД читаем в материалах данного обзора.

«ИнформКурьер-Связь»: Каковы особенности российской эксплуатации ЦОДов? Собственная служба эксплуатации или аутсорсинг, что реальнее и надежнее в российских условиях? К какой модели склоняется ваш дата-центр? Возможен ли сейчас в России нормальный аутсорсинг обслуживания оборудования ЦОДа? Как организована служба эксплуатации дата-центров в других странах мира? Чему могут поучиться у своих иностранных коллег российские эксплуататоры ЦОДов?

Д. Морозов: Конечно, если у компании нет возможности обрабатывать данные в публичном ЦОДе (например, по причинам безопасности) и содержать штат персонала для обслуживания оборудования ЦОДа, то вариант полного аутсорсинга, в принципе, реален. Но в большинстве случаев аутсорсинг используется для обслуживания инфраструктурных систем, таких как электропитание и кондиционирование. А работы, связанные с серверным оборудованием, настройкой систем виртуализации, чаще все-таки остаются в сфере ответственности ИТ-подразделения компании.

«ИнформКурьер-Связь»: Каковы особенности эксплуатации вашего ЦОДа? Какое оборудование инженерных и ИТ-систем дата-центра требует особого внимания при эксплуатации? Обслуживание каких систем обязательно требует привлечения производителей и/или специальной сервисной организации? С чем можно справиться самостоятельно? Какие проблемы эксплуатации позволяют решить системы мониторинга в ЦОДе? Как их наличие влияет на организацию эксплуатации, состав обслуживающей команды ЦОДа, уровень и, соответственно, стоимость сервисных контрактов?

Д. Морозов: Что касается нашего ЦОДа, то в нем регламентные работы по обслуживанию электропитания и кондиционирования осуществляются сертифицированными сервисными организациями (но под контролем наших сотрудников), все остальные работы выполняются нашими специалистами. На оборудование и используемое в ЦОДе программное обеспечение имеются сервисные контракты с производителями. Оборудование резервируется с расчетом на задержки в работе внешних сервисных организаций, для особо критичных узлов в резерве всегда имеются запасные экземпляры.

Очень важным элементом ЦОДа является система мониторинга. Кроме уведомлений о проблемах в ЦОДе (которые позволяют обслуживающему персоналу значительно сократить время простоя систем, зачастую без участия самого персонала), необходимыми функциями являются проактивный мониторинг и система сбора статистики использования ЦОДа. Проактивный мониторинг позволяет выявлять события, способные привести к выходу из строя узлов ЦОДа, и тем самым предотвращать сбои. Система сбора статистики дает представление об использовании ЦОДа, темпах роста объемов и нагрузки, частоте сбоев и их причинах. Все это позволяет прогнозировать эксплуатацию и развитие ЦОДа, сроки закупок оборудования, выдерживать необходимый и достаточный уровень резервирования и поддерживать баланс между уровнем качества и стоимостью обслуживания.

«ИнформКурьер-Связь»: Ваш опыт формирования команды эксплуатации ЦОДа. Когда и как должна создаваться эта команда? Как вы определяете необходимую численность персонала службы эксплуатации и как формируете требования к квалификации ее специалистов?

Д. Морозов: При формировании команды эксплуатации мы применяем принципы, похожие на те, что используются при комплектовании ЦОДа оборудованием: за каждым узлом/направлением деятельности ЦОДа закреплены двое ответственных — основной и резервный (на случай болезни или отпуска основного). Они производят постоянный контроль за эксплуатацией своего направления и на основе собираемой статистики формируют концепцию долговременного развития. Вся информация о проводимых работах и их длительности фиксируется в базе знаний. Это позволяет держать всю команду в курсе изменений и своевременно наращивать численность персонала в нагруженных направлениях, снижая ее в тех местах, где персонал «простаивает».

«ИнформКурьер-Связь»: С чем связано большинство проблем при эксплуатации — с ошибками проектировщиков, ошибками строителей, ошибками собственного персонала службы эксплуатации, ошибками специалистов сервисных компаний? Каковы на ваш взгляд типичные ошибки при проектировании и строительстве дата-центра, влияющие на его последующую эксплуатацию? Какие основные проблемы (технические и организационные) возникают сразу же на первых этапах эксплуатации ЦОДа, а что вылезает после окончания срока гарантийного обслуживания оборудования? Насколько они серьезны? Как их минимизировать?

Д. Морозов: Типичная ошибка при проектировании и строительстве ЦОДа — отсутствие долгосрочного планирования эксплуатации. В первую очередь речь идет об отсутствии масштабируемости — чаще всего возникают проблемы нехватки электропитания, кондиционирования, отсутствия свободных площадей в ЦОДе. Также операторы регулярно сталкиваются с прекращением поддержки оборудования. Избежать таких проблем поможет основанная на статистике стратегия эксплуатации ЦОДа на несколько лет вперед (как минимум, на время жизни оборудования).

«ИнформКурьер-Связь»: Какие способы снижения затрат на эксплуатацию дата-центра вы считаете наиболее адекватными? На чем экономить нельзя?

Д. Морозов: Наиболее логичный и адекватный способ снижения затрат на эксплуатацию — сокращение избыточности. Избыточности оборудования, резервирования, обслуживающего персонала. Анализ статистики по инцидентам и темпам роста позволяет значительно точнее оценивать необходимые объемы оборудования и численность персонала и сокращать издержки. Но, стремясь сократить издержки, ни в коем случае нельзя оставлять незарезервированные участки инфраструктуры и экономить на компетенциях персонала.

«ИнформКурьер-Связь»: Нужна ли сертификация служб эксплуатации российских ЦОДов в Uptime Institute (Operation Sustainability) или проведение аудита службы эксплуатации в том же Uptime Institute? Это реальная потребность или дань моде? Как это может повлиять на общий уровень эксплуатации дата-центров? Интересуют ли клиентов подобные документы?

Д. Морозов: Сертификация служб эксплуатации — это прежде всего документ для клиентов. Отдавая свои данные/оборудование в ЦОД, клиент хочет быть уверен в их надлежащем обслуживании, потому сертификат — это конкурентное преимущество ЦОДа.

С другой стороны, добросовестные владельцы и операторы «закладывают» требования, аналогичные сертификации Uptime Institute, уже на этапе создания ЦОДа, проводят регулярные внутренние аудиты, имеют планы и регламенты восстановления в случае сбоев и проводят регулярные тестовые проверки.



Внимание! Эта статья была создана путем автоматического реплицирования из внутренней базы знаний компании Заказные Информ Системы. Любые правки этой статьи могут быть перезаписаны при следующем сеансе репликации. Если у вас есть серьезное замечание по тексту статьи, запишите его в раздел «discussion».