Ломаем шаблоны: Экспорт российских суперкомпьютеров

7 5425

Кто-то еще живет в том мире, где в нашей стране не производят процессоры, Lada Vesta - очередное ржавое корыто, а Yota Phone - очередное гомно. Впрочем, Yota Phone им и оказался, однако все остальное будет для них неприятным сюрпризом.

Итак, встречайте - суперкомпьютер «Т-Платформы» установлен в немецком суперкомпьютерном центре Юлиха.

В 2013 году в крупном немецком исследовательском центре Forschungszentrum Jülich (FZJ) компанией «Т-Платформы» был установлен новый суперкомпьютерный комплекс «JUROPA-3». Данный проект создан в целях совместных международных исследований перспективных суперкомпьютерных систем и создания программного обеспечения уровня экзафлопс. В 2014 году этот суперкомпьютер был расширен до кластера «JUROPATEST», который предназначен для переноса и оптимизации приложений на новую процессорную микроархитектуру Haswell.

Победа в международном тендере, организованном FZJ, позволила компании «Т-Платформы» подписать контракт на нового большого суперкомпьютера «JURECA». В конце 2015 года суперкомпьютер JURECA с пиковой производительностью 2,2 Пфлопс был успешно запущен в эксплуатацию. Это первый крупный суперкомпьютер российского производства, установленный за границей.

JURECA предоставит вычислительные ресурсы для исследовательских проектов в области физики элементарных частиц, биофизики, физики конденсированных сред, изучения Земли и природной среды, материаловедения, астрофизики, гидродинамики. Одной из крупнейших задач станет анализ больших объёмов данных в рамках проекта по исследованию человеческого мозга, объединяющего специалистов из 23 стран. Амбициозная цель этого проекта — создание виртуальной модели работы мозга в целом, учитывающей работу генетических механизмов, процессы молекулярного уровня и взаимодействие нейронных кластеров. Создание и обработка такой модели, интегрирующей накопленные по всему миру знания о работе человеческого мозга, требует вычислительных ресурсов, значительно превосходящих современные суперкомпьютеры.

В составе новой системы – 34 стойки с водяным охлаждением, содержащие 1872 вычислительных узла с 12-ядерными процессорами Intel® Xeon® E5-2680v3, ускорителями NVIDIA® Tesla™ K80 и K40 в составе блейд-систем V-Class, разработанных компанией в России. Суперкомпьютерные узлы шести различных типов объединены скоростным интерконнектом нового поколения EDR InfiniBand от компании Mellanox: на конец 2015 года JURECA – самый крупный суперкомпьютер на базе этой новой технологии. Энергопотребление суперкомпьютера составило около 1 МВт.

Система работает под управлением CentOS Linux и использует комбинацию управляющего ПО ParaStation™ Cluster Tools немецкого разработчика ParTec и инструментов Clustrx® от «Т-Платформы». Инструменты ParaStation™ TicketSuite и HealthChecker обеспечивают мониторинг системы и гарантируют стабильность ее работы, а высокомасштабируемая реализация библиотеки MPI обеспечивает более эффективное выполнение параллельных вычислительных задач.

Суперкомпьютер JUROPA, который использовался в центре Юлиха до JURECA был построен в 2009 году на базе процессоров Intel Xeon X5570 (Nehalem-EP) quad-core с частотой 2,39 ГГц и полностью устарел как морально, так и физически. Суперкомпьютер с топовой производительностью в 308 терафлопс (по данным ТОП500 на июнь 2009, JURECA превосходит его по скорости в пять с половиной раз) устарел и морально – скорость вычислений не удовлетворяет современным требованиям, - и физически – участились отказы, а замену найти уже невозможно.

В объявленном конкурсе участвовали крупнейшие компании рынка. Финальный список участников конфиденциален, но заявки на конкурс подавали такие компании как Hewlett-Packard, Bull, Eurotec, Megware, Cray, Clustervision и другие.

Суперкомпьютерному центру Юлиха требовалась надежная и стабильно работающая рабочая система. Поэтому, хотя JURECA построен на современных технологиях, в его основу все же положены рабочие и обкатанные решения. А от ультрасовременных, но находящихся в стадии «бета-версий» технологий пришлось отказаться. Поэтому JURECA не стал самым мощным суперкомпьютером в Европе, хотя на сегодня он входит в пятерку самых производительных суперкомпьютеров Германии.

Долгое сотрудничество

Строительство JURECA стало крупнейшим, но не первым совместным проектом «Т-Платформы» и центра Юлиха. До этого стороны совместно работали над проектом по изучению целостности данных, динамических алгоритмов роутинга в шине Infiniband и других.

Один из успешных совместных проектов был посвящен так называемому «чек-пойнтингу» - созданию контрольных точек при вычислениях. Даже самый надежный кластер на застрахован от сбоя, при котором все результаты вычислений будут утеряны. Особенно неприятно, если сбой произошел в конце длинного цикла – получается, что все время (которое немало стоит) потеряно впустую. Чтобы этого не происходило, система в определенные моменты (когда цепочка вычислений и обмен данными между узлами завершены) делает бэкап содержимого памяти, кэшей и пр. Это дает возможность быстро восстановить состояние системы в случае сбоя и продолжить работу не с начала, а с момента последнего бэкапа.

Наконец, «Т-Платформы» построили для центра Юлиха тестовую систему – фактически, суперкомпьютер в миниатюре из пары стоек. На ней немецкие заказчики смогли оценить особенности системы, оптимизировать ПО и т.д.

Факторы успеха

Впрочем, опыт сотрудничества – это лишь один из компонентов успеха. Решающий выбор в пользу предложения Т-Платформы был сделан за счет нескольких факторов.

Во-первых, за счет модульной структуры серверов последнего поколения «Т-Платформы» могли очень гибко менять конфигурацию, подстраивая ее под требования и предпочтения немецких заказчиков. Например, только «Т-Платформы» смогли обеспечить использование последнего поколения технологии Infiniband EDR, которое на момент конкурса еще даже не вышло на рынок. Подробнее о ней мы поговорим чуть ниже.

Во-вторых, использование самых современных технологий. Например, тестовую систему собрали на последнем поколении Intel Xeon, которое тогда только-только официально вышло на рынок и у конкурентов еще не присутствовало. А для JURECA «Т-Платформы» смогли предложить систему с немного более высоким уровнем производительности, чем конкуренты, при той же цене. Впрочем, разница была невелика, и в отсутствие других факторов не стала бы решающей.

Наконец, важную роль сыграла готовность компании «Т-Платформы» к дальнейшему сотрудничеству. Суперкомпьютеры в центре Юлиха меняются раз в пять-шесть лет, но в процессе работы что-то постоянно модернизируется, оптимизируется и т.д. Постоянно развивается ПО, а для этого необходимо, чтобы поставщик системы дорабатывал свою часть – стек управляющего промежуточного ПО (Middleware), которое занимается управлением ресурсами.

Реакция на пуск "Орешника"
  • pretty
  • Вчера 07:00
  • В топе

Австрийский журналист Крис Вебер: Россия запускает неядерную межконтинентальную баллистическую ракету в качестве предупреждения о недопустимости дальнейшей эскалации.Фракция поджигателей войны го...

Двести Хиросим

Новая вундерваффе прилетела в завод Южмаш. Это шесть раздельных блоков по шесть боеголовок в каждом - хотя, поговаривают, их может быть и 8х8, что зависит от конфигурации и задач. Пока ...

Обсудить