пятница, 2 июня 2017 г.

Datacentre relocation

По-русски раньше это называлось "вычислительный центр", потом стали называть ЦОД - центр обработки данных. Короче - всё, что крутится, фырчит и пыжится где-то там, чтобы здесь, на вашем рабочем экране всё было красиво и быстро. Стойки, серверы, оборудование ядра сети, шасси с серверами-лезвиями, цифровая телефония, системы хранения данных, системы безопасности, системы резервного копирования, системы охлаждения, системы резервного электропитания, системы газового пожаротушения, датчики, кабели, кабели, кабели... В моей компании, как и во многих других, это хозяйство исторически жило прямо в нашем здании на одном из этажей в специальном закрытом помещении, и я уже как-то его показывал - http://vebnz.blogspot.co.nz/2016/02/datacenter.html.

Недостатки очевидны - оплата нецелевого использования дорогих офисных площадей для содержания железок и немалые расходы на специализирование электропитание и охлаждение. Т.е. не только кап. расходы, но и операционные - и всё не по профилю. Зависимость от систем питания и охлаждения - полная, управляемость - невысокая (поставщики же ж), а цена всяких "ой" - огромная. Пример из прошлого - сбой электропитания; здание автоматически переключается на резервную линию; она не выдерживает нагрузки (которая возросла со времён проектирования в конце 90х) и "проседает"; резервная линия переключается на батареи резервного питания, ура. Всё происходит моментально, оборудование в порядке, продолжает работать, у нас есть достаточно времени на батареях... Но тут какой-то идиот включает лифты, которые когда-то "повесили" на вторую линию. Уже неважно, кто и почему. Датацентр "упал", простой всей компании несколько бизнес-часов. Всё "подняли", линии привели в порядок, лифты "перевесили". Но ущерб - огромный. Другой пример - посреди ночи выходит из строя контроллер управления охлаждением. А дублирующий контроллер не подхватил выпавшее знамя, хотя сервисная компания проверяет всё раз в полгода. Температура в датацентре начинает подниматься со скоростью 1 градус в минуту. К тому времени, как первый человек добирается до офиса, серверы в верхних позициях стоек, где воздух теплее, начинают самоотключаться для предотвращения перегрева. Но успели принять меры и всё же переключиться на дублирующий контроллер, и не пришлось срочно останавливать датацентр. Эти два примера - экстримы, они произошли с разницей в 6 лет, а так у нас всё замечательно. Но даже один раз в шесть лет для большой компании - это много.

И вот было принято решение о хостинге нашего оборудования в специализированном датацентре. Телекоммукационная компания построила с нуля по всем правилам датацентр высшей категории. Дублирование и независимость всего, чего только возможно, и сейсмоустойчивоть - здание стоит на гигантских "роликах", оно отвязано от земли. Три этажа: нижний - системы электопитания; верхний - системы охлаждения; а между ними как раз залы со стойками для оборудования. Место в стойках и сдаётся в аренду с учётом энергопотребления и теплоотдачи оборудования. Электронные пропуски, PIN-коды и отпечатки пальцев контролируют замки - от проходной до конкретного зала, до конкретной стойки. Здание находится на дальних окраинах города, посреди полей, редких домиков и невнятных складов и ангаров, просто "коробка" индустриального типа за оградой с камерами, никаких вывесок и названий, немногочисленные окна зазеркалены. На навигаторах таксистов такого адреса просто нет, а Гугл хоть и покажет точку на карте, но на street view будет просто поле. :) Нам эта вся секретность на фиг не нужна, но клиенты бывают... разные. А типичному клиенту (например, нашей компании) самое главное, что теперь о физической инфраструктуре будет заботиться специально обученный некто, для кого всё это - профильный бизнес, а компания может сконцентрироваться на своём бизнесе.

В теории всё красиво. Но конкретным нам пришлось поработать на всю катушку в течение трёх месяцев, чтобы подготовить переезд... за выходные. Время "полного затмения" составило 22 часа, с вечера пятницы по вечер субботы, когда были подняты наиболее важные системы, и мы прошли критическую точку "режим катастрофы". Ещё сутки ушли на поднятие всего остального. В понедельник утром 2000 сотрудников в разных концах страны начали работу, как ни в чём ни бывало - и это было самое главное достижение. Но чего нам это стоило... "Я не могу сказать, что моя работа - подвиг. Но что-то героическое в этом есть." :)

Теперь всё позади, прошли положенные две недели стабилизации, мы переходим в режим "business as usual". Осваиваемся с новым положением вещей, когда железо находится не в пяти этажах от нас, а в 45 минутах по шоссе.

Дальше - снимки, сделанные коллегами и выложенные на всеобщее обозрение. Заимствую.

Полдень пятницы. Последний взгляд на "старый порядок".


Спустя 12 часов, только пустые проёмы зияли в стойках.


А на новом месте уже шёл монтаж оборудования, перевезённого в специализированных траках.


Система хранения поначалу дала шороху, но сопровождающий переезд инженер из NetApp привёл её в чувство, хоть это и задержало процесс на два часа, потому что всё остальное от неё зависит. (Кстати, у меня был такой же сопровождающий инженер из Dell, и готовность номер один в техподдержке VMware. :) )


Ну, вот, система хранения данных готова, пришёл черёд моей виртуализации.
"Первый пошёл, второй пошёл, третий пошёл..." Ребята в зале услышали, как зашумели стартующие сервера-лезвии, и сфотографировали появляющуюся "иллюминацию".


Следующие 6 часов я, не вставая, провёл за мониторами, поднимая сначала мою платформу виртуализации и тщательно тестируя каждый компонент на всех уровнях; а потом поднимая и тестируя критически-важные виртуальные Windows-серверы. К счастью, удалённый доступ коллеги-сетевики настроили заранее, поэтому можно было оганизовать рабочее месте в отдельной комнате офисного типа, а не в шумном зале с оборудованием.


Начальник привёз на всех пиццу для подкрепления гаснущих сил, но я не мог оторваться - надо было во что бы то ни стало как можно скорее пройти критическую точку. Заботливый Роб принёс мне несколько кусков - "Приятель, ты нам нужен живым".


Монтаж телефонной системы.


Одной из работ, которой я был занят в предшествующие переезду недели, было тщательное планирование всех действий, что за чем следует, что от чего зависит, что сколько времени занимает, что может выполняться параллельно, и т.д. В итоге, получившаяся "простыня" из двух вертикальных рядов листов формата A3 стала основным наглядным средством отслеживания прогресса, где отмечали текущее положение в каждом из 9 потоков деятельности.


А в зале с оборудованием на стене висела диаграмма стоек, где отслеживался прогресс с "железом". Рядом наклеивались стикеры с проблемами и тасовались согласно приоритетам.


И вот в воскресенье ближе к вечеру всё было доведено до обычного рабочего состояния. Я сделал эти три снимка нашего нового старого хозяйства. Благодаря спланированной консолидации, а также отсутствию необходимости в дополнительных стойках охлаждения, теперь всё занимало почти в 2 раза меньше места.


После этого была проведено "подтирание соплей" (т.е. выборка излишков кабелей и их аккуратная фиксация), а потом были навешаны двери с электронными замками.

Ну, и конечно, финальное "фото на фоне" - костяк команды, оставшийся к вечеру.


Начальник потом составил коллаж.

1 комментарий:

  1. Одно могу сказать - Ух, ты!
    И развести в восхищении руками.

    ОтветитьУдалить