Глобальный сбой в работе сайтов 16.02.2018

16 февраля 2018
3999

В прошедшую пятницу в то время, как вся страна переживала недоступность популярной социальной сети Вконтакте, наши клиенты и мы сами столкнулись с аналогичной проблемой доступа к своим сайтам и сервисам. Да, у нас не равные по объемам аудитории, разные парки оборудования и бюджеты, но в то же время есть одна вещь, что объединяет нас с Вконтакте — это центры обработки данных (ЦОД) Xelent в Санкт-Петербурге.

Xelent – крупный дата-центр Северо-Запада России уровня Tier III, расположенный в Санкт-Петербурге на Выборгском шоссе. У данного ЦОД имеются мощности для размещения 476 стоек на площади более 6500 м2, обеспеченных энергией с помощью динамических источников бесперебойного питания с подсистемой аварийного снабжения на трех дизель-генераторных установках. Благодаря многократному резервированию каналов связи, подачи электроэнергии и кондиционирования за все время существования ровно до этой пятницы не было ни одного падения дата-центра. Наличие сертификата PCI DSS позволяет хранить в дата-центре хостинга данные финансовых организаций (номера банковских карт). На территории Xelent функционирует собственная система контроля и управления доступом (СКУД), включающая 5 периметров безопасности и более 200 камер. Имеются лицензии ФСТЭК и ФСБ. Более 350 организаций, включая ВКонтакте, RU-CENTER, ЭПАМ, Peterhost, ИТ-Град, SpaceWeb и другие, доверили свое оборудование Xelent.

Несмотря на все перечисленные положительные характеристики, ставшие в свое время причиной для выбора именно данного ЦОД под размещение нашего оборудования, 16 февраля в 15:50 в нем произошла авария в системе энергоснабжения, повлекшая отключение питания на наших серверах. Приводим выдержку из официального письма от Xelent:

"16 февраля 2018 года в 15:50 на одном из вводов внешнего энергоснабжения ЦОД Xelent произошла просадка напряжения, которая вызвала переключение нагрузки на питание от дизель-генераторных установок. Спустя несколько минут после успешного перехода на резервный источник энергоснабжения, произошла расфазировка напряжения на ДИБП №1 относительно остальных машин, а, следовательно, на шинах A и B. Это внештатное событие привело к очень краткосрочному (менее 1 секунды) перебою электропитания по основной и резервной шинам оборудования размещенного в 9 серверных ячейках 1-го и, частично, 2-го модулей."

Мы приложили все возможные усилия, чтобы минимизировать ущерб, который данная авария могла принести нашим клиентам. Основные задачи по восстановлению работы провайдеров связи и запуску серверов были выполнены сотрудниками дата-центра к 17:00. К сожалению, внезапное отключение питания привело к повреждению баз данных некоторых из проектов, что не позволило восстановить их работу сразу же после старта оборудования. Тем не менее, уже к 17:30 было запущено 90% разрабатываемых и поддерживаемых нами сайтов. К 18:30 только один сервис все еще не был в строю, однако, прибегнув к восстановлению части данных из резервных копий, спустя три часа после инцидента мы вышли на штатный режим работы.

Веб-студия Infra серьезно подходит к вопросу сохранности данных своих клиентов. Мы используем тройную систему резервирования данных. В рамках сопровождения сайтов мы ежедневно создаем и храним резервные образы-снимки всех задействованных виртуальных машин. Параллельно мы создаем резервные копии баз данных и файловой структуры всех проектов на отдельные носители в основном дата-центре и дополнительно выполняем зеркалирование этих данных в удаленный дата-центр. Мы используем системы мониторинга состояния и доступности сервисов, и реагируем на проблемы 24 часа в сутки 7 дней в неделю. К сожалению, сбой такого уровня, как произошел в пятницу, невозможно устранить без простоя. Развертывание и запуск инфраструктуры в резервном дата-центре может занимать до 48 часов и упирается в технологические ограничения, наложенные самой архитектурой глобальной паутины (одно обновление доменных зон для всех посетителей сайтов может занять двое суток). В сложившейся ситуации, оперативное возобновление работы дата-центра и усилия, приложенные его сотрудниками поддержки, позволили нам не прибегать к этому процессу и избежать еще большего простоя.

Поставщики услуг ЦОД в своем официальном письме заверяют, что приняли меры, исключающие возможность повторения сбоя по питанию. Мы, со своей стороны, приносим свои извинения за данную ситуацию. В ближайшее время будем еще более внимательно наблюдать за работой оборудования и проводимыми мероприятиями по минимизации рисков, ознакомимся с отчетами по инциденту. По результатам мы примем организационные решения по дальнейшему сотрудничеству с данным ЦОД и мерам обеспечения максимальной надежности и безотказной работы сайтов наших клиентов.

Логотип ООО «Инфра»
Не знаете с чего начать?
Опишите в свободной форме нам свои бизнес-задачи, и мы предложим проверенные решения