Концепция развития Суперкомпьютерного центра открытого доступа Института Высокопроизводительных Вычислений и Баз Данных

Крутиков Михаил Павлович
Малашонок Дмитрий Юрьевич
18 ноября 1997

Содержание


Положение дел в настоящее время

В настоящее время в ИВВиБД функционирует кластер из разнородных суперкомпьютерных платформ общей вычислительной производительностью около 8 Гигафлоп в секунду. В кластере работают следующие системы:

Суммарный объем дискового пространства компьютерных систем центра превышает 120 Гбайт. Дополнительные возможности по хранению информации предоставляет ленточный роботизированный комплекс с общей емкостью 2.5 Тбайт.

Цели развития

Создание и развитие суперкомпьютерного кластера Института преследует следующие цели: При развитии Центра следует учитывать, что необходимо не просто предоставить в пользование высокопроизводительный вычислительный ресурс, но и охватить в рамках кластера платформы различного типа, что позволит охватить более широкий спектр реальных вычислительных проблем и задач обработки информации.

Выбор вычислительной платформы для решения конкретных задач определяется не только и не столько аппаратной конфигурацией и операционной системой, но, даже в большей степени, используемым программным окружением. В связи с этим, представляется важным иметь в кластере широкий спектр операционных окружений и программных платформ, что позволит адекватно отвечать на запросы наибольшего числа пользователей.

Суммируя сказанное, можно заключить, что главной задачей является создание универсального Центра, имеющего в своем распоряжении разнородные аппаратно-технические и операционно-программные средства.

Наряду с универсальностью необходимо обеспечить комплексность Центра, что будет выражаться в наличии основных комплексов поддержки расчетов и обработки информации. Сюда попадает: комплексная система архивного хранения данных, система визуализации данных, а также подсистема графического и мультимедийного ввода-вывода информации.

Исходя из поставленных задач и предлагается сформулированная ниже концепция развития Суперкомпьютерного центра по отдельным направлениям.

Концепция развития аппаратного обеспечения

В настоящее время в Суперкомпьютерном центре уже представлены несколько разнообразных аппаратных платформ. На базе имеющейся техники сформирован уникальный информационно-вычислительный комплекс, одновременно обслуживающий ресурсоемкие запросы пользователей, вопросы информационного обслуживания и распределенной обработки. Современные тенденции развития аппаратных систем требуют следующих дополнений и изменений к сложившейся технической инфраструктуре Центра:
  1. Необходимо приложить усилия для приобретения и интеграции в структуру центра систем с неоднородной архитектурой памяти типа NUMA (Non Uniform Memory Access - неоднородная память). Именно такие системы считаются в настоящее время наиболее перспективными. Доказательством служит хотя бы тот факт, что за последний год большинство компаний-производителей высокопроизводительной вычислительной техники выпустили или объявили о готовящемся выпуске подобных систем (пионером явилясь фирма Convex, вышедшая в 1995 году с архитектурой Exemplar на рынок маштабируемых суперкомпьютеров). Архитектура NUMA позволяет преодолеть естественные конструктивные ограничения на количество процессоров в симметричном мультипроцессоре (SMP) путем объединения мощных многопроцессорных SMP-узлов (гиперузлов) в единую систему. При этом объединяется и оперативная память отдельных SMP-узлов. Возникает двухуровневая схема оперативной (физической) памяти - память локального гиперузла и глобальная память, распределенная по всем гиперузлам. Неоднородная память накладывает свой отпечаток и на модель программирования. В последнее время наблюдается резкий скачок в развитии моделей параллельных алгоритмов в применении к архитектуре NUMA;

  2. Реализация кластерной организации на программном уровне требует, чтобы наряду с неоднородными элементами кластера, в нем имелись и однородные составляющие. То есть, желательно, чтобы в структуру кластера подключались платформы, которые являются бинарно-совместимыми (по операционной системе и формату исполняемых файлов). В такой постановке задач Суперкомпьютерный центр предстает, как кластер из однородных подкластеров. Дело в том, что имеется ряд программных продуктов, которые либо жестко ориентированы на однородные кластеры, либо позволяют программистам извлекать дополнительные преимущества из того факта, что параллельное приложение функционирует именно на однородном кластере.

    На сегодняшний день в Суперкомпьютерном центре, имеется одна параллельная компьютерная система SPP-1600 и одна (бинарно несовместимая) параллельная система типа Parsytec CC/16. В целях создания многокластерной структуры Центра предполагается правильным приобретение параллельных компьютерных систем с аналогичной архитектурой и организацией памяти.

    Вывод заключается в том, что концептуально системы однородной программно-аппаратной архитектуры должны объединяться в сильносвязанные кластеры. Эти кластеры, в свою очередь, будут элементами неоднородной вычислительной среды Центра;

  3. Усиление векторного направления. Имеющиеся векторные суперкомпьютерные системы Центра, наиболее критичны к температурному и эксплуатационному режиму и, к тому же испытывают высокую пользовательскую загруженность при выполнении специализированных вычислительных задач. В тоже время векторные системы Центра имеют сравнительно низкую производительность, неадекватную для исполняемых ими задач и ответа на высокие запросы пользователей. В свете указанного представляется правильным усилить векторное направление компьютерных систем за счет приобретение современной высокопроизводительной векторной платформы.

  4. Сборка образцов и сравнительное тестирование систем масштаба предприятия. Опыт использования, эксплуатации и сборки вычислительной техники позволяет использовать научно-технические ресурсы и специалистов Центра в сборке и тестировании опытных компьютерных систем.

  5. Создание сервера визуализации. К сожалению, имеющиеся вычислительные мощности Суперкомпьютерного центра позволяют проводить серъезные расчеты, но не позволяют проводить визуализацию полученного материала. Дело не только в отсутствии необходимого математического обеспечения. Как показали исследования и опыт аналогичных по профилю центров, необходима выделенная система, задачей которой была бы визуализация получаемых результатов - т.е. специализированный сервер визуализации;

  6. Создание сервера сетевых служб. В настоящее время в Центре функционирует довольно большой набор информационных и сетевых служб, таких как: гипертекстовая служба, DNS, разнообразные базы данных, информационные службы и т.п. Представляется необходимым выделение специализированного сервера, ответственного за работу данных служб. Это позволит централизировать авторизацию и учет, повысить надежность защиты информации и обеспечить более устойчивую работу критических информационных и сетевых приложений;

  7. Создание защищенного сервера IntraNet. В Центре интенсивно развиваются службы поддержки администрирования и управления вычислительными и сетевыми ресурсами. Поскольку по мере переноса задач администрирования на автоматическую и централизованную основу системы управления и этой информацией будут становиться все более критичными для функционирования Центра в целом, необходимо выделение специализированного сервера для выполнения функции защищенного интранет-сервера.

  8. Приобретение RAID-массивов. Быстрые и надежные дисковые массивы большого объема необходимы для хранения информации и использования в качестве кэш-пространства при автоматической архивации пользовательских и системных данных. Приобретение подобных систем позволит организовать трехступенчатую систему хранения информации, включающую высокоскоростные интегрированные дисковые подсистемы, выделенную память на независимых RAID-массивах и роботизированную ленточную систему хранения;

  9. Разработка и приобретение элементов системы бесперебойного питания. Одна из наиболее актуальных проблем для обеспечения стабильной работы Центра - это проблема стабилизации питания компьютерных и коммутационных систем. Невозможность поддержки требуемых режимов электропитания уже привела к ряду критических ситуаций внутри суперкомпьютерного кластера и угрожает выходом из строя дорогостоящей техники;

  10. Установка систем кондиционирования и вентиляции. В целях поддержания требуемых температурных режимов представляется важным решить проблемы кондиционирования и принудительной вентиляции, как для отдельных вычислительных систем, так и целиком для вычислительных площадок Центра;

  11. Развитие сетевой инфраструктуры. De-facto Институт базируется на нескольких удаленных друг от друга площадках. При этом на всех площадях Института происходит интенсивное развитие парка вычислительной техники. В настоящее время Суперкомпьютерный центр целиком размещен на площадке Политехнического института (на других площадках Института располагаются пользовательские рабочие места), однако в ближайшее время ввиду недостатка площадей на месте базирования Центра планируется перенос части оборудования и раздельное размещение техники на нескольких площадках.

    Представляется крайне неудовлетворительным тот факт, что сетевое соединение различных площадок происходит через сети общего пользования. С точки зрения безопасности и обеспечения качествы работы распределенного кластера необходимо изменить сетевую инфраструктуру Центра, приспособив ее к новым требованиям.

    Предлагается перейти на технологии ATM, при работе с интернет-провайдером (RUNNet). Это позволит в рамках имеющихся каналов изолировать траффик Суперкомпьютерного центра при помощи аппарата виртуальных сетей и, таким образом обеспечить гарантированный уровень сервиса.

    Это тем более важно, в связи с тем, что продолжается техническое развитие московского филиала Института. Интеграция в объединенный кластер этого филиала также возможна только в рамках концепции виртуальных сетей под ATM.

    С точки зрения аппаратного обеспечения необходимо предусмотреть определенные затраты на приобретение и установку ATM-оборудования на местных (СПб) площадках Института и в его московском филиале;

  12. Развитие инфраструктуры удаленного доступа. Обеспечение предоставления ресурсов суперкомпьютерного кластера для пользователей не имеющих доступа к высокоскоростным каналам связи, является одним из приоритетных направлений развития комунникационного узла центра открытого доступа. В целях обеспечения широкого доступа к вычислительным и информационным ресурсам центра, предлагается реализовать узел сетевого доступа по коммутируемым асинхронным каналам связи.

Концепция интеграции системного уровня

Исходя из поставленных стратегических задач, концепция интеграции системного уровня должна включать в себя следующие существенные пункты:
  1. Кластеризация однородных (бинарно-совместимых) платформ;
  2. Объединение однородных кластеров в неоднородную вычислительную систему;
  3. Внедрение единой (централизованной) безопасной системы авторизации и учета пользователей, а также системы управления ресурсами (адресное пространство, пространство имен, файловые системы, архивная система);
  4. Создание единой, с универсальным внешним представлением, файловой системы кластеров с автоматической или полуавтоматической системой архивации;
Ядром концепции интеграции системного уровня должна стать система централизованного управления ресурсами на базе промышленного источника данных. В силу нетрадиционности задачи управления таким большим комплексом высокопроизводительных машин и в силу специфических особенностей, которые различны для каждого суперкомпьютерного центра, не существует универсального математического обеспечения для решения данной задачи (здесь можно, правда отметить ПО Moira, разработанное в Массачуссетском технологическом институте и некоторые другие системы. Однако все они не отвечают требованиям, которые предъявляются к системе управления Центром общего доступа).

Концепция защиты ресурсов и информации

Концепция защиты ресурсов и информации заключается: в реализации современных решений по кондиционированию, обеспечению бесперебойного питания систем, в четкой и широко объявленной политике проведения резервного копирования и восстановления данных, в наличии возможности быстрой переконфигурации системы в случае выхода из строя отдельных ее узлов, в обучении и оповещении пользователей о правилах поведения в кластере, в строгой сетевой и административной защите критических сегментов управления кластером и в определенном порядке разделения обязанностей между системными администраторами.

В первую очередь, следует разделить вычислительную сеть кластера на общий и защищенный сегменты. Последний должен быть изолирован от широкодоступной сети на сетевом и протокольном уровне с помощью выделенного брандмауера. Критические сетевые и информационные службы должны базироваться в защищенном сегменте, в то время как службы общего назначения выноситься в общий сегмент сети. В силу многопользовательского характера доступа к ресурсам Центра, системы, составляющие кластер, должны находиться в общем сетевом сегменте.

На уровне отдельной вычислительной системы выделяются три уровня защиты:

Стандартизация математического обеспечения

Опыт работы с пользователями выявил необходимость создания по возможности на всех вычислительных системах кластера однородного (стандартного) пользовательского окружения.

Сюда относятся следующие компоненты:

Работа с пользователями

Ценность и открытость суперкомпьютерного центра общего пользования определяется не только интергальной мощностью открытых вычислительных ресурсов, но и уровнем поддержки пользователей.

Поддержка пользователей должна осуществляться по нескольким направлениям:

Перспективные направления

В настоящее время Центр функционирует как отдельный распределенный информационно-вычислительный кластер, имеющий централизованное управление и предоставляющий свои ресурсы в режиме on-line входа.

Поскольку в России в настоящее время созданы или создаются другие центры открытого доступа, правомерно поставить вопрос об их интеграции в единый информационно-вычислительный ресурс. Несмотря на то, что для реальной интеграции по типу американских компьютерных центров имеющийся уровень развития сетевой инфраструктуры еще недостаточен, тем не менее интеграционная перспектива безусловно должна найти свое отражение в концепции развития Центра.

Отметим следующие направления интеграции:

  1. Взаимное делегирование контролируемой части вычислительных и информационных ресурсов для создания объединенного ресурса;
  2. Формирование единой политики по допуску пользователей и единой схемы работы с пользователями;
  3. Формирование единой (унифицированной) структуры вычислительных центров;
  4. Взаимное делегирование некоторых полномочий администрирования для координации работы центров;
  5. Формирование консультативного коллективного органа, определяющего техническую политику центров;
Кроме вышеперечисленных способов предоставления высокопроизводительных вычислительно-информационных услуг, в последнее время бурно развивается и завоевывает широкое признание безличное предоставление ресурсов в качестве доступного модуля распределенной вычислительной системы.

Предоставление уникальных для центра ресурсов в безличной форме является перспективным направлением и его следует раскрыть подробнее.

Имеется в виду, что имеющиеся стандартные вычислительные пакеты и массивы уникальных данных открываются для доступа по программному интерфейсу стандарта CORBA. Подробно описывается интерфейс доступа, что позволяет внешним программам использовать ресурс в качестве удаленного модуля при осуществлении локальных и распределенных вычислений.

По мере развития систем, предоставляющих свой ресурс по программному интерфейсу, ожидается, что изменится сама парадигма работы с суперкомпьютерными ресурсами в сторону распределенных вычислений с использованием протоколов семейства CORBA.