Президиум РАН: Игорь Каляев о российских супервычислениях

Если страна хочет обеспечить национальную безопасность, создать конкурентоспособную продукцию, предложить инновации завтрашнего дня — то сегодня ей нужно лидировать в супервычислениях. Нужно участвовать в гонке передовых государств мира по созданию все более высокопроизводительных суперкомпьютеров. Вместе с тем, в самой этой гонке возникли принципиальные трудности, и теперь создателям суперкомпьютеров сейчас нужны новые решения. Один из таких оригинальных подходов предложили российские ученые из Таганрогской школы во главе с член-корр. РАН Игорем Каляевым.

large-preview-kalyaev

Член-корреспондент РАН, директор НИИ многопроцессорных вычислительных систем Южного федерального университета Игорь Анатольевич Каляев. Фото (с) scientificrussia.ru

С этим подходом, как выразился академик А.С. Бугаев, мы оказались «впереди планеты всей». И хотя он не позволяет кардинально решить все проблемы современных вычислительных систем — это сейчас никому в мире не по силам, — он позволяет повысить основные характеристики на один-два-три порядка при решении ряда актуальных научно-технических задач. Речь идет о так называемых реконфигурируемых компьютерах. И 12 мая с.г. Президиум РАН заслушал научное сообщение «Многопроцессорные вычислительные и управляющие системы с реконфигурируемой архитектурой» члена-корреспондента Игоря Анатольевича Каляева, директора НИИ многопроцессорных вычислительных систем Южного федерального университета.

*  *  *

На заседании сначала был заслушан доклад, а затем состоялось развернутое его обсуждение. Мы же, в нашем пересказе, сделаем наоборот: сначала приведем подборку высказываний из дискуссии, а лишь затем — сам доклад. Из дискуссии читателю станет ясна суть найденного решения, место этого научного достижения в мировых поисках, его огромное прикладное значение — т.е. сразу многое сразу станет понятно. Сам же доклад посвящен более узкоспециальным вопросам: этапам, которыми шли исследователи, описанию некоторых затруднений и их преодолению, профессиональному сравнению ряда полученных характеристик. Хотя, следует отметить, что докладчик и в узкоспециальной теме старался к максимально популярному изложению.

*  *  *

Итак, суть подхода Таганрогской школы в следующем: у суперкомпьютера есть временны́е затраты, связанные с организацией вычислительного процесса и с ними надо бороться, так вот, ученые предложили их минимизировать путем создания специализированной многопроцессорной вычислительной системы. Грубо говоря, отказаться от стремления к универсальности машины, а наоборот — конкретно под задачу сконструировать такую конфигурацию суперкомпьютера, которая наиболее подходит именно под данный тип задач. И выигрыш на этом пути оказался огромным, поскольку множество важнейших задач, имеющих для страны стратегическое значение, как раз оказались такими: они потребовали бы колоссальной, почти нереальной на сегодня производительности суперкомпьютеров, но суперкомпьютеры, созданные с конфигурацией строго под данные узкие классы задач, будучи на порядки более экономичными, с блеском с данными задачами справляются.

Академик В.Е. Фортов. Разработки НИИ многопроцессорных вычислительных систем имеют большое прикладное значение. Для многих задач требуется выполнение огромного количества стандартных операций и в этом случае целесообразно адаптировать вычислитель именно для выполнения этих операций. Т.е. излишне предъявлять к ней требования, которые предъявляются к системам универсальным, типа тех, с которыми мы обычно имеем дело в науке. Поэтому данное направление важно тем, что здесь очень хорошее внедрение.

Академик В.Г. Бондур. Например, это система аэрокосмического мониторинга и вообще космическая деятельность. Система аэрокосмического мониторинга связана, в основном, с обработкой больших потоков изображений, которые формируются при дистанционном зондировании Земли — и эти потоки крайне велики. Здесь решается огромный спектр задач: обработка конкретных изображений, математическое моделирование методом Монте-Карло, решение задач радиационной безопасности, проектирование космических аппаратов, а также решение множества задач в области наук о Земле — исследование атмосферы, океана, геологической среды. Поверхность суши тоже требует вычислений, связанных с обработкой огромного потока изображений, формируемых системой аэрокосмического мониторинга. И наоборот, применение в этом случае кластерных компьютеров не очень эффективно.

В ближайшее время в рамках комплексной целевой программы мы планируем реализовывать целый ряд устройств, о которых говорится в докладе Игоря Анатольевича Каляева.

Академик Ф.Л. Черноусько. Результаты, полученные Игорем Анатольевичем, применяются также и в робототехнических системах, в очень актуальной сегодня задаче — в проблеме управления групповыми движениями роботов. При этом достигается высокая производительность за счет распараллеливания вычислений на низшем уровне.

*  *  *

Какова в настоящее время основная тенденция в мире в области супервычислений?

Член-корреспондент И.А. Каляев. Если с 1964 г. по 1984 г. производительность суперкомпьютеров повысилась на три порядка, то дальше каждые десять лет производительность повышалась именно на эти три порядка. Список ТОП-500, который включает в себя 500 наиболее производительных вычислительных систем мирового сообщества, обновляется два раза в год. Сегодня первое место занимает китайский суперкомпьютер «Тианхэ-2» («Млечный путь») с производительностью 33,9 петафлопс, то есть 1015 операций в секунду. Далее идут два американских суперкомпьютера — «Titan» Оук-Риджской национальной лаборатории и «Sequoia» Ливерморской лаборатории.

Вместе с тем научно-технический прогресс нуждается в решении еще более трудоемких вычислительных задач — некоторые из них требуют выполнения более, чем 1020 вычислительных операций. Для сравнения: число атомов во Вселенной оценивается в 1080 степени. В настоящее время сформировалась цель — к 2017-19 году создать суперкомпьютеры с экзофлопсной производительностью, то есть 1018 (квинтиллион, т.е. миллиард триллионов операций в секунду). Соответственно, бурно развиваются такие подходы, как квантовые компьютеры, оптические компьютеры, молекулярные компьютеры — но все они пока в стадии фундаментальных исследований, до реального внедрения еще очень далеко.

Однако ситуация с продвижением к данной цели не столь радужная, как кажется на первый взгляд.

Суперкомпьютеры, занимающие первые места в этом списке ТОП-500, потребляют очень много электроэнергии — около 10 мегаВатт, а суперкомпьютер «Тианхэ-2», занимающий первое место, потребляет почти 18 мегаватт!

Для достижения же экзафлопсной производительности при использовании современных технологий потребуется предположительно 1 гигаватт мощности (это примерно шестая часть энергии, даваемой Саяно-Шушенской ГЭС) и потребуется 250 тысяч кубических метров объема оборудования (это здание с основанием 50 на 50 метров и высотой в 100 метров). Не решены также и принципиальные проблемы с отводом тепла.

В действительности ситуация еще хуже. Большинство суперкомпьютеров, входящих в список ТОП-500, имеют жесткую кластерную архитектуру. Компьютеры данного класса показывают высокую производительность при решении только так называемых связанных задач, которые не требуют большого числа информационных обменов — т.е. которые могут быть разрезаны на взаимно несвязанные подзадачи. При решении же сильно связанных задач — скажем, задач цифровой обработки сигналов и изображений, задач математической физики, задач символьной обработки — их реальная производительность резко падает и составляет всего 5-10 процентов от пиковой.

Более того, спад производительности наблюдается и при увеличении числа процессоров в системе. В жесткой архитектуре таких систем возникают большие непродуктивные временны́е затраты, связанные не с полезными вычислениями, а с организацией вычислительного процесса: часть процессоров простаивает, часть занимается транзитом информации — все это ведет к большим временны́м потерям при организации вычислительного процесса. В качестве примера можно привести задачу моделирования и оптимизации режимов работы газотурбинного двигателя: даже с использованием суперкомпьютера производительностью 1 петафлопс (что эквивалентно производительности суперкомпьютера «Ломоносов»), необходимо 2,5 тысячи дней машинного времени, т.е. почти семь лет!

Академик Б.Н. Четверушкин. Производительность, если вы берете много процессоров или ядер, резко падает, получается — машина есть, а с решением больших задач возникает проблема. С этим сейчас столкнулись наши зарубежные партнеры. В конце апреля на одной конференции мы беседовали с директором китайского центра: у них к концу года будет машина 100 петафлопс, но — как использовать? Та же самая проблема в Штутгарте. Когда одновременно работает сотня тысяч ядер, они мешают друг другу.

Словом, исследователи в области суперокомпьютеростроения подошли к некоторому технологическому пределу.

*  *  *

Вывод: нужны новые подходы к созданию высокопроизводительных вычислительных систем.

Академик Ф.Л. Черноусько. Игорю Анатольевичу принадлежит новый, оригинальный подход к построению компьютеров, который он называет «реконфигурируемыми системами», который дает возможность пользователю программировать архитектуру компьютера под структуры решаемой задачи. Этот проблемно-ориентированный подход дает большой выигрыш.

Академик А.С. Бугаев. Сделан, по сути дела, завод по производству спецкомпьютеров, которые широко востребованы для различных применений — они по своим параметрам на порядки превосходят универсальные спецвычислители, поэтому имеют огромную нишу для применений.

Академик В.Г. Бондур. Обычно суперкомпьютеры созданы по т.н. кластерной архитектуре, когда берутся микропроцессоры, коммутаторы и собираются для решения кластерных задач. И слабосвязанные задачи, по терминологии Игоря Анатольевича, решаются отдельно на каждом кластере.

Мы, как математики, идем другим путем: стараемся создать логически простые, но эффективные алгоритмы. Это крайне сложно, но во многих случаях получается. У нас сейчас есть примеры расчетов вместе с коллегами из Таганрога — на миллиардах узлов и полных трехмерных задач астрофизики с магнитной гидродинамикой, полные трехмерные задачи гидродинамики.

Академик Б.Н. Четверушкин. Таким образом, есть два пути — разрезание общей задачи на взаимно несвязанные подзадачи, о чем сказал Игорь Анатольевич, и это задача математиков, в частности, Института прикладной математики РАН, и создание реконфигурируемых вычислительных машин, чем занимается Таганрогская школа. Мне кажется, было бы разумно подойти к решению проблемы и действовать сразу с двух сторон — осваивать этот путь, объединив усилия математиков и специалистов в области элементной базы. Образно говоря, это как с танком, жизнь которого зависит и от брони, и от маневренности.

*  *  *

О преимуществах «реконфигурируемых систем».

Академик В.Г. Бондур. Это, во-первых, высокая производительность — до 60 процентов пиковой производительности может быть реализовано в этой архитектуре. Во-вторых, высокая энергетическая эффективность — количество операций на Ватт или мегаВатт энергопотребления больше, чем в случае с обычными кластерными процедурами, почти на два порядка. И, в-третьих, это маленькие объемы, которые занимает оборудование — примерно на два порядка меньше, чем у кластерных вычислительных систем.

Академик Ф.Л. Черноусько. Очень важно, что при этом улучшается и отказоустойчивость системы. Обычный способ борьбы с отказами — это резервирование, то есть создание, дублирование системы: если одна выйдет из строя, ее заменяет вторая. В подходе, который развивается И.А. Каляевым, отказоустойчивость увеличивается за счет того, что некоторые блоки в случае отказа берут на себя часть работы, которая должна быть выполнена.

Академик А.С. Бугаев. Каков выход в ситуации, когда мы так отстали в электронной промышленности, в элементной базе? Только обгонять, идя другим путем — за счет наших мозгов. Именно такие методы использовались во времена, когда создавалась атомная бомба — традиции в Институте прикладной математики, заложенные много лет назад академиками М.В. Келдышем, А.Н. Тихоновым, А.А. Самарским. Они позволяли за счет оригинальных программных подходов, архитектурных решений, имея меньшие вычислительные мощности, решать задачи, не уступая в скорости нашим оппонентам и противникам. Поэтому крайне важным и сегодня является развитие оригинальных отечественных суперкомпьютерных технологий, не повторяющих зарубежные решения, а развивающих совершенно новые. Именно это удалось сделать Игорю Анатольевичу Каляеву и его команде.

Реконфигурируемые компьютеры, конечно, не универсальны. Но для специальных применений являются чрезвычайно важными. Причем, Игорю Анатольевичу и его коллективу удалось не только разработать оригинальные научные подходы, признанные теперь во всем мире, но ему удалось довести разработки до реально работающего производства.

*  *  *

Пожелания коллективу И.А. Каляева.

Академик А.С. Бугаев. Можно было ожидать серьезных проблем с тем, как транслировать обычные программы, которые созданы для кластерных компьютеров. Но коллектив И.А. Каляева придумал замечательный язык, который позволяет создавать некий ретранслятор программ, созданных для других вычислительных систем, и превращать в системы, которые можно реализовывать на этих суперкомпьютерах — это очень важно.

Академик Б.Н. Четверушкин. И все же, мне кажется, было бы полезно разработчикам — Игорю Анатольевичу и его коллегам — всесторонне продумать вопрос помощи программистам, которые должны осуществлять эту реконфигурацию под заданную задачу.

Академик Ф.Л. Черноусько. В самом деле, этот подход накладывает большую нагрузку на программиста при обдумывании — как ему произвести реконфигурацию. И, скажу вам, не всякий программист, получивший базовое образование, к этому готов, ему надо помогать.

Академик И.В. Бычков Может быть, здесь нужна помощь со стороны Президиума РАН и других структур Игорю Анатольевичу и его коллегам, в создании научно-образовательного центра, а также центра коллективного пользования, чтобы попробовать использование ПЛИСов для решения задач. Сегодня использование ПЛИСов, останавливает, в первую очередь, некая затратная часть. Поэтому было бы полезно попробовать сначала отработать алгоритмы на том, что есть, т.е. в центре коллективного пользования и только потом делать следующий шаг.

*  *  *

О значении работы.

Академик В.Г. Бондур. Наших суперкомпьютеров в Топ-500 всего девять — из них суперкомпьютер МГУ на 22 месте, далее два суперкомпьютера Томского политехнического университета и Южно-Уральского университета. Суперкомпьютер межведомственного суперкомпьютерного центра РАН на 133-м месте по производительности.

Таганрогская школа, которую создал отец Игоря Анатольевича — академик Анатолий Васильевич Каляев — это выдающаяся школа, где создаются многопроцессорные вычислительные системы с реконфигурируемой архитектурой, связанные с применением ПЛИС высокой степени интеграции и оригинальных методов программирования. Это сегодня приоритет и нашей науки, и во всем мире. И те редкие публикации по этому направлению, которые есть за рубежом, представлены школой Игоря Анатольевича Каляева.

Академик А.С. Бугаев. Игорю Анатольевичу удалось совершить настоящий инновационный подход от идеи до производства — считаю это одним из выдающихся достижений нашей науки и техники. К сожалению, мы в России проигрываем в создании элементной базы, ибо это требует огромных средств. Мозгов хватает, а денег вкладывали мало, поэтому в элементной базе мы отстаем и очень жаль, что пока мы не можем делать своих достаточно хороших ПЛИСов. В частности, Воронежский завод полупроводниковых приборов наращивает мощности, увеличивает производительность и плотность упаковки таких ПЛИСов, но еще существенно отстает от зарубежных коллег. Мне представляется, что если бы наша страна нашла возможность развить такое производство, то возможностей для применений было бы намного больше, ибо рынок таких спецвычислений огромен.

*  *  *

Научное сообщение члена-корреспондента И.А. Каляева.

Минимизировать временные затраты, связанные с организацией вычислительного процесса в процессорной системе, можно следующим образом. В каждой операционной вершине информационного графа необходимо вставить свой вычислительный элемент и связать их друг с другом в соответствии с топологией информационного графа. В этом случае все непродуктивные затраты будут минимизированы и реальная производительность такой многопроцессорной системы практически равна пиковой, то есть теоретически достижимой.

Понятно, что создание подобной проблемно-ориентированной вычислительной процессорной системы под каждую задачу слишком накладно. Поэтому мы предлагаем совместить преимущество кластерных многопроцессорных вычислительных систем, учитывая их универсальность, и специализированных, а именно, их высокую реальную производительность — предоставив возможность пользователю формировать архитектуру вычислительной системы.

Для этого у него должно быть в распоряжении некоторое вычислительное поле, состоящее из набора вычислительных элементов и средств коммутации между ними. Тогда при решении очередной задачи с помощью средств схемотехнического программирования пользователь может создать проблемно-ориентированную вычислительную структуру, которая адекватна решаемой задачи, и минимизирует все непродуктивные расходы.

При изменении задачи, он в рамках этого поля может создать новую структуру, которая опять-таки будет оптимальна для решения текущей задачи.

Так обеспечиваем универсальность: при решении каждой задачи за счет того, что создается проблемно-ориентированная структура, минимизирующая временны́е затраты, связанные с организацией вычислительного процесса.

Эта идея своими корнями восходит еще к аналоговым вычислительным машинам, в которых вычислительное поле состояло из набора решающих блоков, построенных на базе операционных усилителей, а коммутация между этими блоками осуществлялась вручную с помощью штекерного поля. В результате формировалась физическая модель решаемой задачи. В той или иной степени идеи реконфигурации были использованы также в цифровых интегрирующих машинах, однородных вычислительных средах, многопроцессорных вычислительных системах с программируемой архитектурой.

Тем не менее, несмотря на большое число исследований в этом направлении, до реальных масштабных внедрений дело не дошло — вследствие отсутствия элементной базы, отвечающей концепции реконфигурируемости архитектуры.

Наконец, в начале 21 века такая элементная база появилась — это так называемые ПЛИС (программируемые логические интегральные схемы) высокой степени интеграции. В настоящее время основной рынок ПЛИС занимают, в основном, две американские фирмы — фирма «Альтера» и фирма «Ксайленкс».

С каждым новым поколением производительность таких ПЛИС возрастает, а стоимость их падает, т.е. соотношение производительность–стоимость возрастает квадратично. Последние ПЛИС «Вертекс-7» фирмы «Ксайленкс» выполняются по технологии 28 нм, включает сотни миллионов вентилей или миллионов логических блоков, встроенные процессорные узлы, встроенные узлы цифровой обработки сигналов. То есть, сам по себе чип — достаточно мощная вычислительная структура.

Каковы перспективы перехода на отечественную электронную компонентную базу? Они есть, но очень удаленные. В настоящее время наша отечественная промышленность (даже не Зеленоград, а Воронеж) выпускает ПЛИС, который содержит 50 тыс. вентилей. Производители обещали в конце 2014 года закончить ОКР на создание ПЛИС на 1 млн. вентилей. Но это только ОКР, а мы работаем с уже реально существующими ПЛИС на сотни миллионов вентилей. Поэтому, если мы перейдем на отечественный ПЛИС, то наши машины будут в тысячу раз больше по размерам, в тысячу раз больше по потребляемой мощности, и все заявляемые характеристики, о которых я сказал, выдерживаться не будут. Но надежда есть.

Возвращаемся к идее реконфигурируемой архитектуры. С помощью таких ПЛИС строится вычислительное поле путем их объединения в некоторую структуру, например — ортогональную решетку. В рамках этого поля каждый раз будет формироваться проблемно-ориентированная структура, которая наилучшим образом отвечает структуре решаемой задаче. Т.е. пользователь с помощью средств схемотехнического программирования ПЛИС может формировать различные вычислительные структуры, адекватные решаемым им задачам.

Чем больше будет такое вычислительное поле, тем проще будет отображать его вычислительные задачи без необходимости разрезания их на подзадачи. Поэтому в конструктивном исполнении такое вычислительное поле предлагается формировать на основе т.н. «базовых модулей», каждый из которых включает в себя некоторое количество ПЛИС и представляет фрагмент общего вычислительного поля ПЛИС. Эти базовые модули дальше собираются в реконфигурируемые вычислительные блоки, дальше — в вычислительные стойки, и все это завязывается в единый вычислительный ресурс. Иными словами: в системе отсутствуют стандартные процессоры — весь ресурс ПЛИС используется как один огромный процессор, в рамках которого можно формировать любые вычислительные структуры под решаемые задачи.

Мы развиваем эту технологию более 15 лет и на основе этой технологии создали большое количество различных систем. В качестве примера приведу базовый модуль 2013 года — он включает восемь ПЛИС, каждый из которых содержит 58 млн. вентилей. Все это завязано в общий вычислительный ресурс, в рамках которого можно разместить 1.300 параллельно работающих процессоров. Производительность такой платы составляет 70 гигафлопс или 700х109 операций в секунду при потребляемой мощности 300 Ватт.

Это — достаточно сложная технология. Такая плата содержит более 20 слоев. Каждая такая ПЛИС имеет около 2 тыс. «ножек». Это т.н. БГА-корпус, то есть ножки расположены снизу в виде шариков. ПЛИС надо очень точно разместить на плате, прежде чем паять, потом идет сложная технология пайки. Тем не менее, вся эта технология нами освоена, она работает в нашей стране — платы разрабатываются в стране, сборка происходит в стране, настройка — в стране, единственное, к сожалению, сами чипы — зарубежные.

На основе таких базовых модулей собираются вычислительные блоки. Как правило, такие вычислительные блоки содержат до четырех таких базовых модулей.

Дальше такие вычислительные блоки собираются в большие вычислительные комплексы. Здесь показан один из первых таких комплексов, созданный в 2009 году — он стоит в МГУ. Здесь задействовано одновременно более 1200 ПЛИС и в этом вычислительном поле размещается более 25 тыс. параллельно работающих процессоров. Еще пример — реконфигурируемая система 2011 года. Всего в вычислительном поле задействовано более 1100 ПЛИС, общее число размещаемых процессоров — 130 тыс. параллельно работающих процессоров, производительность — 51 терафлопс или 51х1012 при потребляемой мощности всего 50 кВт.

Система «Орфей» для цифровой обработки сигналов (о ней я еще скажу более подробно) имеет производительность 6,5х1014 . Реконфигурируемая система РВС-7 (2013 год) содержит 864 ПЛИС, производительность 1,5х1015 операций в секунду при потребляемой мощности 50 кВт. Для сравнения: суперкомпьютер «Ломоносов» потребляет около 3 мегаВатт электроэнергии, занимает 250 кв.метров площади. Эта же система — одностоечная, занимает чуть больше 1 кв.метра площадь и потребляет всего 50 кВт электроэнергии, а по производительности они практически эквивалентны, если не считать, что здесь используется фиксированная запятая.

Переход на новое поколение ПЛИС потребовал разработки принципиально новой системы охлаждения таких суперкомпьютеров. Плотность компоновки ПЛИС поколения «Вертекс-8» уже такова, что уже невозможно использовать воздушную систему охлаждения, которая была применена в предыдущих сериях таких суперкомпьютеров. Совместно со специалистами ИПС РАН нами была разработана принципиально новая технология — технология жидкостного погружного охлаждения.

То есть плата просто опускается в специальную инертную жидкость, через которую производится отвод тепла. Такой подход позволил в пять-десять раз повысить теплоотвод по сравнению с воздушной системой охлаждения. На базе этой технологии в настоящее время нами создается суперкомпьютер в одностоечном варианте, имеющий производительность 1 петафлопс при потребляемой мощности всего 154 кВт. В рамках этого суперкомпьютера задействовано вычислительное поле, содержащее 1,5 тыс. ПЛИС.

Об эволюции суперкомпьютеров, построенных на базе реконфигурируемых вычислительных полей ПЛИС: переход на каждое новое поколение ПЛИС приводит к возрастанию почти в два раза удельной производительности (то есть производительности на единицу объема) и энергоэффективности на киловатт потребляемой мощности. Переход на новое поколение ПЛИС с использованием жидкостного погружного охлаждения позволил почти на порядок повысить удельную производительность таких систем и в три с половиной раза повысить их энергоэффективность.

Конечно, за все хорошее нужно платить. В данном случае платой за такие высокие технические характеристики таких реконфигурируемых суперкомпьютеров является сложность их программирования, поскольку программирование осуществляется не путем создания последовательности операций, а путем создания структуры вычислителя под решаемую задачу. То есть, задачу сначала необходимо представить в некоторой графовой форме; дальше, если есть этот граф, но его невозможно погрузить в имеющееся решающее поле ПЛИС, его необходимо предварительно разрезать на подграфы, а дальше организовать процедуру отображения этих подграфов в вычислительное поле ПЛИС. Такая организация вычисления называется «структурно-процедурная организация вычислений», поскольку каждый такой подграф структурно или аппаратурно реализуется в вычислительном поле ПЛИС и в то же время имеется последовательная процедура отображения таких подграфов в поле ПЛИС.

Раньше в этом процессе необходимо было задействовать по крайней мере двух специалистов — схемотехника, который должен был формировать вычислительные структуры, адекватные решаемой задаче, и программиста, который должен был программировать ПЛИС для отображения этих структур. Но сейчас нами создан комплекс системного программного обеспечения, который позволяет полностью автоматизировать процесс программирования реконфигурируемых вычислительных систем. Задача пишется на языке высокого уровня — это наша разработка.

Далее с помощью средств отображения автоматически строится граф задачи, разрезается на подграфы в зависимости от имеющегося вычислительного ресурса и отображается уже в вычислительное поле ПЛИС. При этом заполняемость вычислительного поля ПЛИС составляет не менее 60%. Иными словами реальная производительность реконфигурируемых суперкомпьютеров при решении прикладных задач составляет не менее 60% от пиковой, т.е. теоретически достижимой максимальной производительности.

Поскольку это — нестандартная система программирования, наиболее эффективное применение такие машины находят при решении так называемых потоковых задач, когда нужно по единому алгоритму обрабатывать большие массивы или потоки данных. В качестве примеров можно привести задачу корректировки атмосферных изображений, получаемых с помощью большого телескопа специальной Астрофизической обсерватории РАН. Наша небольшая машинка, величиной с обычный ноутбук, позволяет в реальном масштабе времени обрабатывать картинку, которая получается с телескопа, и преобразовывать ее к нужному виду для дальнейших исследований. Ускорение составляет 142 раза.

Совместно со специалистами МГУ нами была разработана система диагностики дорожных покрытий взлетно-посадочных полос. Такая небольшая машинка, установленная непосредственно в автомобиле, в реальном масштабе времени обрабатывает данные, получаемые от георадара, строит трассы радарограмм и формирует соответствующую информацию. Ускорение по сравнению с обычной системой составляет около 200 раз.

Хорошие перспективы использования таких реконфигурируемых вычислительных систем в бортовых комплексах — их обеспечивают высокие технические характеристики соотношений производительности к объему и производительности к потребляемой мощности.

Принцип реконфигурации может быть использован не только для повышения вычислительных характеристик многопроцессорных вычислительных информационных и управляющих систем, но и для повышения их отказоустойчивости.

В настоящее время многопроцессорные информационные управляющие системы сетевой архитектуры находят все большее применение при создании различного рода мобильных объектов, космических, авиационных, а также объектов повышенной критичности, например, атомных станций. Эти системы включают, как правило, набор некоторых процессорных узлов, объединенных общей коммутационной средой. Потенциальным преимуществом таких систем является высокое быстродействие, достигаемое за счет возможности распараллеливания задач и управления, а также высокая надежность за счет возможности динамической замены вышедших из строя узлов.

Однако в настоящее время эти потенциальные преимущества используются не в полной мере. Как правило, такие сетевые информационно управляющие системы имеют, так называемую, федеративную организацию: за каждым процессорным узлом закрепляется некоторый набор подзадач общей задачи обработки информации и управления. Очевидно, что такая система становится отказонеустойчивой, поскольку выход из строя любого процессорного узла уже не позволяет решить общую задачу управления в целом.

В настоящее время проблема отказоустойчивости решается, в основном, за счет принципа резервирования, то есть в состав системы вводится несколько дополнительных процессорных узлов, находящихся в резерве, и в случае выхода из строя любого процессорного узла его задача переносится на один из резервных узлов. Однако понятно, что введение в состав системы дополнительных резервных узлов приводит к повышенному энергопотреблению, повышенным габаритам системы, что зачастую недопустимо, особенно в случае работы таких систем в мобильном варианте.

Поэтому нами предложен способ, позволяющий повысить отказоустойчивость таких сетевых информационно управляющих систем без дополнительных аппаратурных затрат, только за счет их реконфигурации. Идея заключается в следующем. Каждый процессорный узел системы имеет некоторый резерв производительности. Под резервом производительности понимаем возможность выполнения большего объема вычислений в отведенный промежуток времени, чем задана ему в соответствии с изначальным распределением подзадач, общей задачей управления по процессорам.

Тогда в случае выхода из строя любого процессорного узла мы можем перенести задачи, которые решал этот процессорный узел, на работоспособные процессорные узлы, не выходя за ограничения по лимиту времени. При этом преимуществом такого подхода является то, что мы не вводим в состав системы никакого дополнительного оборудования. Обеспечиваем отказоустойчивость только за счет реконфигурации системы. Показано, что метод реконфигурации по сравнению с методом резервирования обеспечивает большую вероятность безотказной работы таких многопроцессорных информационно управляющих систем, причем потребление уменьшается, а число парируемых отказов не увеличивается.

Важной характеристикой отказоустойчивости таких информационно управляющих систем является, так называемая, гамма-процентная наработка на отказ — время, в течение которого вероятность безотказной работы системы упадет ниже некоторого заданного уровня. Показано, что метод реконфигурации позволяет в 1,5–3 раза увеличить гамма-процентную наработку на отказ, по сравнению с методом резервирования. Более того, если в процессе реконфигурации мы будем обеспечивать выравнивание нагрузки между процессорными узлами, это позволит еще примерно на 20 процентов повысить гамма-процентную наработку на отказ. Объясняется это достаточно просто с физической точки зрения: тот процессор, который будет нагружен сильнее, будет сильнее греться, а вероятность безотказной работы процессора очень сильно зависит от его температуры. Поэтому нагруженные процессоры резко снижают вероятность безотказной работы системы в целом.

Кто должен осуществлять мониторинг работоспособности всех процессорных узлов и выполнения процедуры реконфигурации? В простейшем случае это можно поручить некоторому специально выделенному процессорному узлу, играющему роль центрального диспетчера. Но тогда эта система становится неустойчивой: выход из строя «центрального диспетчера» будет приводить к отказу системы в целом. Поэтому нами разработан новый подход, использующий множество программных агентов, размещенных в процессорных узлах. Каждый такой программный агент отслеживает работоспособность процессорного узла, в котором он расположен, и информирует об этом всех остальных программных агентов.

Если в какой-то момент времени программный агент перестал отвечать на запросы других программных агентов, они понимают, что соответствующий процессор вышел из строя, и предпринимают шаги по реконфигурации, то есть по переразмещению задач, возложенных на этот процессорный узел, на работоспособные узлы. При этом в состав системы не вводится никакое дополнительное оборудование, и, соответственно, вероятность безотказной работы такой системы не уменьшается. Разработаны алгоритмы такой реконфигурации, они характеризуются временем реконфигурации, что эквивалентно времени восстановления вычислительного процесса, и качеством реконфигурации.

В качестве примера использования данной технологии можно привести информационно-управляющую систему транспортно-технологического комплекса перегрузки ядерного топлива на АЭС. Мы создаем такие вычислительные комплексы. Они используются и применяются на целом ряде отечественных и зарубежных атомных станций, в частности — на всех энергоблоках Ростовской атомной станции, Нововоронежской атомной станции. Эти процессоры имеют многопроцессорную сетевую архитектуру и решают комплекс задач, которые в объединенном виде показаны на данном слайде.

Использование метода реконфигурации без дополнительных аппаратурных затрат позволило увеличить количество гарантированного отказа с одного до пяти, а гамма-процентную наработку на отказ — на 56 процентов, с 1,5 до 2,5 тыс. часов.

Еще один пример — информационно-управляющая система перспективного авиационного комплекса. Эта система разрабатывается нами совместно со специалистами концерна «Вега». Использование метода реконфигурации без введения в состав системы дополнительного оборудования позволило увеличить число гарантированных отказов с одного до пяти, а гамма-процентную наработку почти на 200 процентов. При этом время реконфигурации для восстановления вычислительного процесса после обнаружения отказа составляет не более двух секунд.

Таким образом, разработаны теоретические основы и новая технология создания реконструируемых вычислительных и управляющих систем, обеспечивающие решение ряда практически важных прикладных задач обработки информации и управления, повышения их вычислительной эффективности:

— соотношение реальной пиковой производительности в пять-десять раз,

— удельной производительности, то есть производительности единицы объема, — в 100–150 раз,

— энергоэффективности производительности, на Ватт потребляемой мощности — в пять-десять раз,

— отказоустойчивости, то есть гамма-процентной наработки на отказ, — в полтора-три раза.

Пока за рубежом таких машин нет. В лучшем случае они используют ПЛИС в качестве сопроцессоров в ускорителях, а мы используем их как полный вычислительный ресурс. Результаты исследований отражены в пяти монографиях, том числе одной, которая издана в США, что, кстати, дополнительно подчеркивает, что мы действительно находимся впереди в этом направлении.

Оригинал публикации: http://scientificrussia.ru/articles/prezidium-ran-12-05-2015

Опубликовать в LiveJournal
Опубликовать в Мой Мир
Опубликовать в Яндекс
Опубликовать в Google Buzz
Опубликовать в Google Plus
Опубликовать в Одноклассники