Опасность всюду

Зависимость бизнеса от IT-инфраструктуры постоянно возрастает. Все большее значение придается сопутствующим рискам. К сожалению, редкая компания работает над их минимизацией. Шаблонная, но распространенная ситуация – при отказе сервера ставится вопрос о покупке нового. Если низкая скорость передачи данных тормозит работу – компания меняет провайдера. Проблема решается по факту ее возникновения. В результате корпоративная информационная система (КИС) работает с перебоями, документы не формируются, недовольным клиентам приходится ждать выполнения заказов. А ведь хороший топ-менеджер должен предвидеть проблемы, исходящие, например, от быстрого роста бизнеса, и заняться поиском путей их решения. Планирование IT-сферы должно учитывать все стороны жизни бизнеса. Такая постановка вопроса фактически подразумевает формирование стратегии развития всего бизнеса в целом, а не информационной среды как отдельной составляющей.

Руководитель отдела организационного развития и автоматизации УК Facilicom (поставщик услуг по комплексному обслуживанию объектов недвижимости) Александр Верес считает, что в принципе все IT-риски можно классифицировать по четырем типам. Первая группа – риски, связанные с высокими требованиями к скорости внедрения нового программного обеспечения (ПО), сетевых и аппаратных решений. Способ борьбы – использование современных методологий управления проектами и концепции ITSM (IT Service Management), привлечение консультантов. Причина появления рисков второго типа – сочетание возрастающей сложности IT-решений и требований безболезненного перехода к ним. «Революционные внедрения с шумом и потерями отходят в прошлое, – утверждает Александр Верес. – На первое место вышли требования к рентабельности действий IT-отделов и лояльности внутренних заказчиков и конечных пользователей. Поэтому процессы внедрения должны быть интегрированы с организационными изменениями в компании». Третья группа рисков – быстрое изменение требований к технологическим решениям со стороны бизнеса. «Ритм IT-изменений должен согласовываться с ритмом изменений в самой компании», – говорит Александр Верес. Четвертый вид рисков – низкий уровень компетенции персонала. Способ их минимизации – обучение.

Провода и трубы. Подобное планирование обычно начинается с достижением компанией определенного масштаба бизнеса – обороты начинают исчисляться миллионами долларов. Регулярные инциденты заставляют менеджеров задумываться о пропорционально растущих потерях во время простоев.

Особое внимание требуется общей инфраструктуре – она не столь мобильна, как аппаратный и программный элементы. Характерный пример упущений приводит технический директор IntelinePro Александр Мартынюк. В план развития компания заложила создание новой серверной комнаты. Ее формирование планировалось на пять лет лет вперед, непосредственно строительство продолжалось год, а функционировать она начала на 15% мощности – требовалась установка дополнительного охлаждающего оборудования и независимого источника электроэнергии. В плане предполагалось, что холодильные машины и дизельная электростанция будут размещены на территории рядом с основным зданием. Однако это место занял на три года под склад другой арендатор. Дело в том, что в договоре на аренду помещения не так четко, как к площади внутри здания, были прописаны требования к территории. В результате внутренняя инфраструктура соответствует максимальной технической нагрузке, но вся эта мощь, по сути, пропадает задаром.

Другая компания подошла к вопросу организации центра обработки данных (ЦОД) более капитально – разместила серверную на территории завода, используя имеющуюся инфраструктуру арендодателя. «Электроснабжение почти соответствовало первой категории надежности, – рассказывает Александр Мартынюк. – Основное электропитание шло с заводской трансформаторной подстанции, система бесперебойного питания с резервом автономной работы на батареях на полчаса и резервная дизельная электростанция (ДЭС) необходимой мощности. Но существовало одно «но» – запустить резервную ДЭС можно, лишь попав в помещение заводского распределительного щита. А для этого надо разыскать главного энергетика завода, которого трудно было застать на месте». В итоге в случае перебоев с электропитанием у компании было лишь полчаса на корректное завершение работы. Изначально верная идея по сокращению риска не сработала из-за неучтенной организационной составляющей.

Постоянный контроль. Работать без единого сбоя не может ни одна система. Но минимизировать негативные последствия таких перерывов можно, внедрив ПО из разряда Service Desk. Решение поможет обуздать и рост расходов на IT, и даже важного системного администратора. Система Service Desk будет координировать и контролировать работу IT-подразделения. Предприятия компании «Северсталь-авто», в которую входят Ульяновский автомобильный завод, Заволжский моторный завод и ЗМА, обладают совершенно отличной друг от друга IT-инфраструктурой. Суммарный штат «айтишников» – около 600 человек. И их основная задача заключается в обеспечении бесперебойности бизнес-процессов, в том числе своевременной подачи информации в УК. Service Desk оказался лучшим способом контроля текущей ситуации. Пилотный проект создания системы на базе Naumen Service Desk завершился в августе 2006 года на ЗМЗ. В декабре система заработала на УАЗе и ЗМА. В результате предприятия живут по единой технической политике и регламентам.

Обработка заявок, поступающих в IT-службы от различных подразделений, происходит на основе единых регламентов. Сотрудники первой линии поддержки регистрируют заявку, указывая неисправный сервис, описание проблемы и тип заявки. Далее заявка автоматически передается профильной группе специалистов, отвечающих за поддержку данного сервиса. Все этапы обработки заявки вплоть до ее решения учитываются в системе. В случае несоблюдения регламентных сроков устранения инцидента производится автоматическая эскалация заявки с оповещением руководителя IT-службы. Кроме текущего контроля система позволяет определять связь конкретных проблем с масштабными инцидентами. Тем самым помогая IT-сотрудникам вычленять «узкие места» и планировать развитие инфраструктуры. Проблема пресекается в зародыше.

Внедрение нового приложения, смена оборудования или даже переезд потенциально влекут рост количества сбоев. Избежать неприятностей помогут четкие регламенты действий и сроков, детальное описание IT-инфраструктуры и распределение ответственности профильных сотрудников. Руководитель направления аудита компании IT Expert Федор Байновский рассказал об опыте переезда в новое здание одного из клиентов. Спустя три недели так и не удалось восстановить работу бизнес-приложения. Тогда IT-директор обратился к стороннему консультанту. Спустя еще две недели бизнес-приложение заработало. «Причина возникшей ситуации – отсутствие взаимоувязанного описания элементов IT-инфраструктуры, – говорит Федор Байновский. – Не всегда по памяти можно восстановить последовательность подключений. Запуск бизнес-приложения на новом объекте проводился без предварительного функционального тестирования. В результате приложение висло спустя 30 минут после начала работы. Но самое удивительное, что о дате переезда и новом месте дислокации центрального офиса IT-руководитель узнал всего за неделю».

Перезагрузка. Опосредованная причина увеличения риска сбоев – рост бизнеса. Серверы не выдерживают нагрузки, снижается скорость передачи данных. Так, в переезжавшей в новый офис компании подключение дополнительных рабочих мест привело к заметному снижению производительности бизнес-приложения из-за нехватки мощностей сервера. «Приобретение нового сервера не было предусмотрено в бюджете», – вспоминает Федор Байновский. Лекарство может быть только одно – IT-директор должен «заглянуть» в будущее и заранее поставить в известность руководство о грядущем объеме изменений, в том числе денежном. Обладающей дальновидным CIO компании не придется «затыкать дыры». Изменение масштаба IT-инфраструктуры пройдет поэтапно в рамках единого проекта. Такой подход менее затратен, чем «лоскутный».

Компания «Открытые технологии» решила кардинально улучшить отказоустойчивость системы хранения данных. Начали с почтовой информации. Работу почтовых и файловых сервисов обеспечивали два сервера: SUN Fire 240 и дисковый массив SUN Storage 3510. Для обеспечения отказоустойчивости на серверах использовалось ПО Veritas Cluster Server. То есть хранение и резервирование почтовой информации велось только на дисковом массиве, а отказоустойчивость обеспечивалась за счет кластерного ПО. При создании системы хранения почтовой информации было использовано ПО Veritas Storage Foundation, серверное оборудование и системы хранения SUN Fire V240, SUN StorEdge 3510, оптические коммутаторы IBM TotalStorage SAN32B-2. Система построена по технологии Storage Area Network.

В результате повысились скорость доступа, объем хранимых данных. Появилась возможность для дальнейшего наращивания скорости доступа к информации и ее объема, количества подключенных серверов. «Почта – главный инструмент в работе компании, – говорит руководитель департамента внутренней автоматизации «Открытых технологий» Максим Темнов. – Особенно сервисного центра, работающего в режиме 24 часа семь дней в неделю. Почти все заявки в него поступают через электронную почту. Чем быстрее письма приходят, обрабатываются, попадают диспетчеру и далее инженеру, тем быстрее клиент получает помощь. Соответственно сбои в работе почты недопустимы. Созданная система обеспечивает высокую надежность и доступность всех сервисов, гарантирует круглосуточное функционирование почтовой системы и системы обработки запросов как в московском офисе, так и в региональных представительствах компании».

Цена вопроса. В идеале оценка рисков требует статистической информации, накопленной внутри компании. В крайнем случае, можно воспользоваться внешними отраслевыми данными – внутренние бизнес-процессы компаний слишком непохожи. Оценить возможные убытки можно, исходя из собственного опыта. «Упростить задачу оценки IT-рисков можно, если перевести рассмотрение технологических рисков на язык бизнеса, – советует руководитель центра компетенции Trend Micro в России и СНГ Михаил Кондрашин. – Например, поражение сервера может привести к простою отдела или всей компании. Финансовый ущерб от остановки руководитель сможет оценить не хуже IT-консультанта. Ущерб от спама можно подсчитать по относительно простой схеме. Для этого нужно знать время, потраченное сотрудниками на удаление нежелательных писем, и их зарплату. Сумма ущерба может составлять до нескольких сотен тысяч долларов для компании в 1000 сотрудников».

Федор Байновский, руководитель направления аудита компании IT Expert:
– Управление IT-рисками должно быть неотъемлемой частью системы корпоративного управления организации и предусматривать систематическое проведение независимых проверок работы IT-подразделений. На операционном уровне IT-риск-менеджмент включает проведение регламентных работ по техническому обслуживанию всех элементов IT-инфраструктуры. Для снижения риска утраты информации целесообразно использовать процедуры резервного копирования. Администрирование бизнес-приложения, активного сетевого оборудования, системы управления базами данных (СУБД) должно осуществляться в соответствии с техническими инструкциями и руководствами.

Николай Зезюлинский, директор по развитию бизнеса компании «ФОРС – Центр разработки»:
– В любой иерархии IT-рисков ключевым остается человеческий фактор – он определяет до 70% угроз. Наиболее «узкое место» – уровень доступа сотрудников к внутренней информации. В остальном это не столько сознательное причинение вреда, сколько некомпетентность и принятие необоснованных технических решений, а также риск потери квалифицированных кадров. Критичность IT-рисков прямо пропорциональна степени автоматизации предприятия и зависимости основной деятельности компании от использования средств IT. Исходя из масштабов IT-проекта, вложения в аудит для минимизации рисков могут составить до 20% его стоимости.

Александр Мартынюк, технический директор IntelinePro:
– Основное правило при развитии IT-инфраструктуры – соответствие обеспечивающей инфраструктуры требуемому уровню надежности информационных систем. Любой «перекос» в ту или иную сторону приведет к отказу в критической ситуации или вычислительных, или инженерных систем. Пример: серверная комната крупного предприятия, расположенная в офисном центре, оказалась затопленной из-за прорыва батареи в противоположном конце здания этажом выше. Это произошло потому, что нижняя точка верхнего этажа находилась как раз над серверной. Никто и не подумал заблаговременно позаботиться о герметичности перекрытий.

Александр Верес, руководитель отдела организационного развития и автоматизации управляющей компании Facilicom:
– Компетенция IT-персонала и персонала, который использует IT-решения, накладывает существенные ограничения на системные интерфейсы для пользователей и администраторов. А также заставляет, с одной стороны, строго регламентировать действия персонала, а с другой – предоставлять все многообразие функциональности, соответствующее требованиям заказчиков. Эффективно решаются эти задачи активным обучением персонала, внедрением систем управления знаниями и дистанционного обучения. И параллельно с этим рационально использовать IT-системы с более простыми и удобными интерфейсами, более зрелые и надежные, что экономит много средств, затрачиваемых на обучение и поддержку.

Михаил Кондрашин, руководитель центра компетенции Trend Micro в России и СНГ:
– Использование в бизнесе интернета сформировало отдельную группу рисков – ущерб от вредоносных кодов. Схем множество – от рассылки программ, шифрующих файлы на компьютере жертвы и требующих выкуп за расшифровку, до заражения десятков или даже сотен тысяч компьютеров с целью сдачи полученной сети в аренду для рассылки спама, шпионских программ, вирусов. Угрозу шифрования можно смягчить с помощью системы резервного копирования. Другие риски минимизируются только использованием специализированных продуктов, которые традиционно называют антивирусами, хотя корректнее этот класс продуктов называть Secure Content Management – управление безопасностью информации.

Георгий Ованесян, руководитель направления консалтинга по ITIL и аутсорсингу компании «Крок»:
– Вопросы эксплуатации любой системы первый раз рассматриваются на этапе предпроектного обследования, то есть до формирования технического задания на систему (ТЗ). Составляется перечень рисков, которые могут возникнуть при внедрении и последующей эксплуатации системы. Эксплуатационные требования и требования к информационно-сетевой инфраструктуре указываются в техническом задании. При проектировании, разработке и внедрении системы список потенциальных рисков постоянно пересматривается. Некоторые из них устраняются за счет модернизации IT-инфраструктуры или обучения персонала. Для оставшихся рисков создается методика их обнаружения и модель реакции на возможный инцидент.