Как оценить провайдера облачных сервисов

Как оценить провайдера облачных сервисов Заявленный поставщиком уровень доступности не может быть гарантией бесперебойной работы предоставляемого сервиса и заказчику нужно с этим смириться. Показатель уровня доступности сервиса в виде XX,XX% в SLA (соглашение об уровне предоставляемых услуг) можно воспринимать лишь как гарантию того, что провайдер приложит максимум усилий для обеспечения стабильности своей инфраструктуры. Главное для провайдера – это желание сохранить клиентов, избежать репутационных потерь и штрафных санкций со стороны заказчиков, которые могут потребовать компенсаций, если обещанный уровень доступности не будет обеспечен.

Поддержка долгосрочных отношений с заказчиками критически важна для бизнеса каждого провайдера облачных сервисов – значительная часть затрат на серверы, программное обеспечение и разработку продуктов осуществляется единовременно, а клиенты оплачивают услуги помесячно. Соответственно, поставщики заинтересованы, чтобы заказчики пользовались их сервисами как можно дальше. Поэтому намеренное введение клиентов в заблуждение по поводу уровня доступности сервисов на современном зрелом рынке облачных сервисов уже практически не встречается – подавляющее большинство действительно рассчитывает соответствовать заявленном ими уровню доступности. Однако применяемые для достижения и подсчета этого уровня подходы могут быть разными.

Излишняя самоуверенность

Любая рыночная услуга – это компромисс качеством-стоимость и большинство клиентов готовы платить за качество, но не готовы за него переплачивать, что хорошо понимают провайдеры облачных услуг. Они разрабатывают и внедряют компромиссные варианты обеспечения максимально возможного уровня доступности в рамках выбранного решения с одной стороны и допустимого снижения затрат на обеспечение стабильности инфраструктуры с другой, приходя к некой «золотой середине», лавируя между показателями от производителей оборудования и программного обеспечения и своим опытом работы с конкретной кофигурацией. Поэтому показатель уровеня доступности в SLA применительно к облачным услугам имеет маркетинговый, а не практический смысл.


Очевидно, что подавляющее число клиентов облачных сервисов не станет платить в 10 раз больше за разницу в 40 минут допустимого времени простоя в месяц между 99,9% и 99,99%, хотя бы потому, что у них на самом деле нет таких потребностей. Для подобного увеличения затрат нужна веская причина — клиенты, бизнесу которых каждая минута простоя действительно приносит значительные убытки, как правило используют сервисы из частного облака с персонализированным решением по доступности, но и в этом случае нельзя гарантировать уровень доступности в 100%.


В условиях конкуретного рынка сервис-провайдер вынужден включать в SLA требования не хуже, чем у конкурентов – если, при прочих равных условиях, один поставщик обещает доступность 99,98% (менее 9 минут простоев в месяц), а другой – 99,95% (менее 23 минут), то, на первый взгляд, логичным выбрать первого. При этом уровень мероприятий, направленных на обеспечение доступности у обоих провайдеров, может быть одинаков, отличаясь лишь текущим субъективным восприятием инженеров и менеджеров собственных возможностей и рисков. В ActiveCloud нам приходилось сталкиваться с, казалось бы совершенно невозможными, случаями: одновременный выход двух коммутаторов в стеке, одновременный выход из строя двух дисков в RAID1-группе, полное обесточивание серверной стойки в ЦОД – несмотря на дублирование абсолютно отказоустойчивых систем не бывает. Поэтому надо критически воспринимать обещания провайдеров, гарантирующих соблюдение в публичном облаке трудно достижимых на практике уровней доступности, близких к 100%. Неверная оценка поставщиком своих рисков приводит и к неверной оценке собственных рисков его клиентами.


Отсутствие открытости

Все заказчики хотят, чтобы инфраструктура провайдера работала без сбоев, а если вдруг что-то и сломается, то поломка была бы оперативно локализована и устранена с информированием пользователей о сроках восстановления. Важность быстрого информирования в аварийных ситуациях нельзя недооценивать – часто для клиента непонимание того, что происходит внутри арендуемой им инфраструктуры, страшнее самого факта простоя. Именно поэтому у многих поставщиков в процессы эксплуатации инфраструктуры и технической поддержки клиентов встроены процедуры уведомления заказчиков как о плановых, так и о внеплановых работах через SMS-рассылки, мессенджеры или электронную почту. Хорошо, если эти каналы позволяют видеть историю работ и оценивать реальные сроки устранения неисправностей. Наличие такого функционала демонстрирует открытость провайдера и с большой долей вероятности свидетельствует о качественно выстроенных процессах устранения инцидентов.


Несущественные штрафные санкции

Косвенно обоснованность параметров, указанных в SLA можно оценить по заявляемому провайдером размеру компенсаций в случае нарушения обещаний. Если поставщику хочется завысить уровень доступности, чтобы лучше выглядеть на конкурентном поле, то размер штрафных санкций увеличивается, а соглашения об уровне сервиса минимизируются. Поэтому на российском рынке информационных сервисов нередко можно встретить условия типа: компенсация в размере 1/720 ежемесячной цены контракта за каждый час недоступности сервисов сверх оговоренного в договоре уровня. Вряд ли такие условия можно считать штрафными санкциями – это просто здравый взгляд. Например, для заказчика с ежемесячным потреблением облачных услуг на сумму 50 тыс руб простой в четыре часа при уровне доступности 99,98% в SLA компенсируется 268 руб, а при 99,9% – 228 руб., что вряд ли соразмерно урону, полученному бизнесом.


Всегда имеет смысл обращать внимание не только на размер компенсаций, но и его корреляцию с обещанным уровнем доступности. К примеру, можно встретить поставщиков, обещающих компенсацию в 50% ежемесячной цены контракта при 10-кратном превышении провайдером заявленного уровня доступности. Таким образом, для 99,9% подобный штраф будет при простое в семь часов, а при 99,98% уже достаточно полтора часа недоступности сервиса.


Система штрафов может быть организована и по-разному, однако она не будет эффективно работать без строгой зависимости размеров компенсации от обещанного уровня доступности. Подобные системы наказаний за нарушение оговоренного уровня доступности побуждают сервис-провайдеров оценивать свои риски и избегать необоснованного завышения процента простоев, а также критически относиться как к мерам, обеспечивающим стабильность инфраструктуры, так и к процессам оперативного реагирования на сбои и восстановления работоспособности предоставляемых сервисов.


Перечисленные рекомендации следует учитывать при выборе поставщика облачных услуг, не забывая, конечно и об опыте работы провайдера на рынке, его репутации и спектре предоставляемых сервисов. В большинстве случаев этого бывает достаточно для предварительной оценки потенциальной способности конкретного поставщика решать задачи клиента, чтобы уже затем перейти к переговорам, осмотру ЦОД и проработке специфических требований.


- Руслан Райкевич, ИТ-директор, группа компаний ActiveCloud (Москва)