Иммерсионная система охлаждения реконфигурируемых вычислительных системна основе плис



Скачать 207.74 Kb.

Дата11.02.2017
Размер207.74 Kb.
Просмотров178
Скачиваний0

Иммерсионная система охлаждения реконфигурируемых
вычислительных системна основе ПЛИС.

И.И. Левин
1
, А.И. Дордопуло
1
, Ю.И. Доронченко
1
, М.К. Раскладкин
1
, А.М. Федоров
1
ООО «Научно-исследовательский центр супер-ЭВМ и нейрокомпьютеров», г. Таганрог, Россия
1
В статье проанализированы проблемы построения перспективных реконфигурируемых вычислительных систем c жидкостным охлаждением для программируемых логических интегральных схем семейства Xilinx Virtex UltraScale. Подробно рассматриваются архитектура, компоновка и сравнительные технические характеристики систем погружного жидкостного охлаждения. Приводятся результаты расчетов, макетирования и экспериментальной проверки основных технических решений созданного энергоэффективного вычислительного модуля нового поколения для построения высокопроизводительных вычислительных систем с жидкостным охлаждением с производительностью 1 Пфлопс в стандартном вычислительном шкафу высотой 47U при потребляемой мощности 150 кВт. Разработанные решения обладают резервом мощности для выпускаемых и проектируемых семейств ПЛИС, нечувствительностью к протечкам и их последствиям и совместимостью с традиционными системами водяного охлаждения на базе промышленных чиллеров.
Ключевые слова: реконфигурируемые вычислительные системы, программируемые логические интегральные схемы, жидкостное охлаждение, вычислительный модуль, высокопроизводительные вычислительные системы, реальная и удельная производительность, энергоэффективность.
1. Введение
На пути достижения высокой реальной производительности вычислительной системы важным шагом является адаптация ее архитектуры под структуру решаемой задачи для создания специализированного вычислительного устройства, аппаратно реализующего все вычислительные операции информационного графа задачи с наименьшими задержками. При этом универсализм в плане решаемых задач, т.е. возможность изменения решаемой задачи или ее алгоритма, является таким же необходимым требованием к вычислительной системе, как и ее проблемноориентированность. Устранить эти противоречия, совместив создание специализированного вычислительного устройства с широким кругом решаемых задач, можно в концепции реконфигурируемых вычислительных систем (РВС) на основе программируемых логических интегральных схем (ПЛИС), которые используются в качестве основного вычислительного ресурса [1].
РВС, содержащие большие вычислительные поля ПЛИС, находят применение при решении вычислительно трудоемких задач в различных областях науки и техники, поскольку обладают рядом существенных преимуществ по сравнению с многопроцессорными вычислительными системами кластерной архитектуры: высокими реальной и удельной производительностями, высокой энергоэффективностью и др. Так, специализированные реконфигурируемые вычислительные системы Janus [2, 3] и Janus2, используемые для расчета спиновых стекол позволяют получить более чем 100-кратное ускорение по сравнению с коммерчески-доступными кластерными системами.
Суперкомпьютер Anton [4], построенный на специализированных микросхемах ASIC, ускоряет решение задач молекулярной динамики более, чем в 1000 раз.

В НИЦ СЭ и НК разрабатываются и производятся РВС, в которых основным вычислительным ресурсом являются не микропроцессоры, а множество кристаллов
ПЛИС, объединенных в вычислительные поля высокоскоростными каналами передачи данных. Спектр выпускаемых и проектируемых изделий достаточно широк: от полностью автономных малогабаритных реконфигурируемых ускорителей (вычислительных блоков), вычислительных модулей в настольном или стоечном конструктивном исполнении
(«Ригель» на основе Xilinx Virtex-6, «Тайгета» на основе Xilinx Virtex-7) до вычислительных систем, состоящих из нескольких вычислительных шкафов, размещаемых в специально оборудованном машинном зале. Основной отличительной особенностью производимых РВС является высокая плотность компоновки элементов и высокая (не менее 90%) степень заполнения кристаллов ПЛИС, что обеспечивает высокую удельную энергоэффективность данных систем [5].
Практический опыт эксплуатации больших вычислительных комплексов на основе РВС показывает, что воздушные системы охлаждения подошли к своему тепловому пределу. Постоянное, как минимум двукратное увеличение степени интеграции и 1,5-кратное увеличение тактовой частоты при выходе очередного семейства кристаллов
ПЛИС фирмы Xilinx приводит к существенному росту потребляемой мощности и к увеличению максимального значения температуры на кристалле. Так, для ПЛИС
XC6VLX240T-1FFG1759C вычислительного модуля (ВМ) «Ригель» максимальный перегрев ПЛИС относительно комнатной температуры 25
о
С в рабочем режиме с потребляемой ВМ мощностью 1255 Вт составляет 33,1
о
С, т.е. максимальная температура кристалла ПЛИС ВМ «Ригель» составляет 58,1
о
С. Для ПЛИС XC7VX485T-1FFG1761C
ВМ «Тайгета» максимальный перегрев ПЛИС относительно комнатной температуры 25
о
С в рабочем режиме с потребляемой ВМ мощностью 1661 Вт составляет уже 47,9
о
С, т.е. максимальная температура кристалла ПЛИС ВМ «Тайгета» составляет 72,9
о
С. Если принять во внимание, что допустимая температура работы ПЛИС составляет 65...70
о
С, то очевидно, что для нормальной и безопасной для оборудования эксплуатации ВМ
«Тайгета» необходим специально охлажденный до 15
о
С воздух в кондиционируемом шкафу.
Согласно полученным экспериментальным данным переход от семейства ПЛИС
Virtex-6 к следующему семейству ПЛИС Virtex-7 ведет к росту максимальной температуры ПЛИС на 11…15
о
С. Поэтому дальнейшее развитие технологий изготовления
ПЛИС и переход на следующее семейство ПЛИС Virtex Ultra Scale, содержащих порядка
100 млн. эквивалентных вентилей и обладающих энергопотреблением не менее 100 Вт на кристалл ПЛИС, приведет к росту величины перегрева ПЛИС на дополнительные
10…15°С, что сместит зону их рабочей температуры до 80…85
о
С с выходом за допустимые пределы рабочей температуры ПЛИС (65...70
о
С), что негативно скажется на их надежности при заполнении кристаллов на 85-95% от доступного аппаратного ресурса.
Это обстоятельство потребовало перехода к принципиально иному способу охлаждения, позволившему сохранить темпы роста производительности РВС для перспективных проектируемых семейств ПЛИС фирмы Xilinx: Virtex UltraScale, Virtex UltraScale+, Virtex
UltraScale2и др.
2. Жидкостное охлаждение для реконфигурируемых вычислительных
систем
Развитие вычислительных технологий приводит к разработке все более производительной в плане вычислительной мощности, а значит, и более тепловыделяющей вычислительной техники.
Утилизация выделяемого тепла осуществляется системой охлаждения электронных компонентов, которая реализует перенос тепла от более горячего тела (охлаждаемый объект) к менее горячему (система охлаждения). При постоянном нагреве охлаждаемого объекта температура системы охлаждения повышается и со временем сравняется с температурой охлаждаемого объекта,
передача тепла прекратится, что вызовет его перегрев. Система охлаждения защищается от перегрева с помощью холодного вещества ‒ хладагента (теплоносителя), характеристикой эффективности охлаждения которого являются теплоемкость и теплоотдача. Перенос тепла, как правило, осуществляется либо с помощью механизма теплопроводности, требующего физического контакта теплоносителя с охлаждаемым объектом, либо с помощью механизма конвективного теплообмена с хладагентом, который связан с физическим переносом свободно циркулирующего охлаждающего вещества.
Для организации переноса тепла к хладагенту необходимо организовать тепловой контакт системы охлаждения с хладагентом. Для этого применяют различные радиаторы
устройства для рассеивания тепла в хладагенте, которые устанавливают на наиболее нагреваемые компоненты вычислительных систем. Для повышения эффективности переноса тепла от электронного компонента к радиатору между ними устанавливается
термоинтерфейс - слой теплопроводящего состава (обычно многокомпонентного) между охлаждаемой поверхностью и отводящим тепло устройством, применяемый для уменьшения термического сопротивления между двумя соприкасающимися поверхностями. Современные процессоры и ПЛИС нуждаются в охлаждающих устройствах с как можно более низким термическим сопротивлением, т.к. в настоящий момент даже самые продвинутые радиаторы и термоинтерфейсы не справляются с этой задачей при воздушном охлаждении.
Системы воздушного охлаждения достаточно успешно использовались для охлаждения суперкомпьютеров до 2013 года. С ростом мощности и степени интеграции применяемых кристаллов микропроцессоров и ПЛИС использование воздушных систем охлаждения для разрабатываемых перспективных суперкомпьютеров, в том числе вычислительных систем гибридного типа, практически достигло своего предела. Поэтому большинство разработчиков вычислительной техники видит выход в применении систем жидкостного охлаждения, которые на сегодняшний день представляются наиболее перспективной областью разработки для охлаждения современных высоконагруженных электронных компонентов вычислительных систем.
Существенным преимуществом всех жидкостных схем охлаждения являются лучшая теплоемкость жидкостей по сравнению с воздухом (от 1500 до 4000 раз) и больший коэффициент теплоотдачи (увеличение до 100 раз). Для охлаждения одного современного кристалла ПЛИС необходимо наличие 1 м
3
воздуха или 0,00025 м
3
(250 мл) воды в минуту. На перекачивание 250 мл воды тратится намного меньше электроэнергии, чем для перекачивания 1 м
3
воздуха. Тепловой поток, передаваемый одинаковыми поверхностями при традиционных скоростях теплоносителя, при жидкостном охлаждении в 70 раз больше, чем при воздушном охлаждении. Дополнительным преимуществом является использование традиционных, достаточно надежных и недорогих рабочих элементов (насосы, теплообменники, клапаны, механизмы управления и т. д.). Для организаций, которые работают с высокой плотностью оборудования при высоких тепловых режимах, жидкостное охлаждение по существу оказывается единственным решением проблемы организации охлаждения современных вычислительных систем.
Дополнительными резервами повышения эффективности жидкостного охлаждения является улучшение исходных параметров теплоносителя: увеличение скорости, снижения температуры, создание турбулентного режима течения, повышения теплоемкости, снижения вязкости.
В жидкостных системах охлаждения вычислительной техники роль хладагента выполняет жидкость (вода либо диэлектрические жидкости). Нагретые электронные компоненты отдают тепло постоянно циркулирующему хладагенту - жидкости, которая после ее охлаждения во внешнем теплообменнике вновь поступает для охлаждения нагретых электронных компонентов. Жидкостные системы охлаждения можно разделить на системы закрытого типа, где нет прямого контакта между жидкостью и электронными
компонентами на печатных платах [6], и системы открытого типа (иммерсионные), в которых жидкость непосредственно омывает электронные компоненты [7;8]. Каждый тип систем жидкостного охлаждения имеет свои достоинства и недостатки.
В системах закрытого типа все тепловыделяющие элементы печатной платы накрываются одним или несколькими плоскими пластинами с каналом для прокачки жидкости [10, 11]. Так, например, в суперкомпьютере «СКИФ-Аврора» [12] использовался принцип «одна охлаждающая пластина на одну печатную плату». Соответственно, пластина имела сложный рельеф, чтобы иметь плотный тепловой контакт с каждой микросхемой. В суперкомпьютере IBM Aquasar используется принцип «одна охлаждающая пластина на одну (горячую) микросхему». В любом случае каналы пластин объединяются коллекторами в единый контур, соединенный с общим радиатором (или другим теплообменником), обычно расположенным за пределами корпуса и/или шкафа или даже машинного зала. С помощью насоса через пластины прокачивается теплоноситель, который отводит тепло от элементов вычислителя и рассеивает его через теплообменник. В такой системе требуется обеспечить доступ теплоносителя к каждому тепловыделяющему элементу вычислителя, что означает довольно сложную
«трубопроводную систему», большое количество герметичных соединений. При этом требования к возможности обслуживания печатных плат без серьезного демонтажа в системе охлаждения неизбежно означают применение специальных жидкостных разъемов, которые обеспечат герметичность соединений с одновременной легкостью операций по сборке/разборке системы.
В системах жидкостного охлаждения закрытого типа можно в качестве хладагента использовать обычную воду или растворы гликолей. Однако утечка теплоносителя может привести к возможному попаданию электропроводной жидкости на незащищенные контакты рабочих плат охлаждаемого компьютера, что, в свою очередь, может быть фатальным как для отдельных электронных компонентов, так и для вычислительной системы в целом. Для устранения неисправности требуются остановка всего комплекса, проверка системы электропитания и ее просушка. В системах управления и мониторинга таких компьютеров всегда предусматривают многочисленные внутренние датчики влажности и протечек. Для решения проблемы протечек часто используется метод, основанный на использовании в системе охлаждения отрицательного давления воды, когда вода не накачивается под давлением, а высасывается, что практически исключает утечку влаги. При нарушении герметичности в систему охлаждения попадет воздух, а вода оттуда не вытечет. Для детектирования утечек используются специальные датчики, а модульная конструкция позволяет осуществлять ремонт без прерывания работы системы в целом. Однако все эти мероприятия значительно усложняют конструкцию гидравлической системы.
Еще одна проблема систем жидкостного охлаждения закрытого типа – проблема
«точки росы». Воздух центра обработки данных (ЦОД) входит в контакт с пластинами охлаждения. Это значит, что если какие-то участки этих пластин слишком холодные, а воздух в ЦОД более теплый и не слишком сухой, то на пластинах может сконденсироваться влага. Последствия этого процесса аналогичны последствиям протечек. Проблема решается либо переходом на охлаждение горячей водой, что неэффективно, либо контролем и поддержанием параметров температуры и влажности воздуха в ЦОД, что сложно и дорого.
Конструкция еще более усложняется, когда необходимо охладить несколько компонентов потоком воды, пропорциональным их тепловыделению. Не считая разветвленных трубок, приходится применять сложные регулирующие приборы
(простыми тройниками и крестовинами не обойдешься). Альтернативный вариант – использовать конструкцию с заводскими регулировками потоков; но в этом случае пользователь лишен возможности существенно изменить конфигурацию охлаждаемых вычислительных модулей.

К достоинствам систем жидкостного охлаждения закрытого типа относятся:
‒ возможность использования в качестве хладагента воды или водных растворов, преимуществами которых является доступность, прекрасные теплотехнические свойства
(теплопроводность, теплоемкость, вязкость), простота и сравнительная безопасность эксплуатации;
‒ наличие большого числа унифицированных механизмов, узлов и деталей для систем водоснабжения, которые можно использовать;
‒ большой опыт эксплуатации систем с водяным охлаждением в промышленности.
При этом системы жидкостного охлаждения закрытого типа обладают целым рядом существенных недостатков, сдерживающих их массовое применение:
‒ сложностью определения места утечки жидкости;
‒ зачастую катастрофическими последствиями не обнаруженных своевременно протечек;
‒ технологическими сложностями ликвидации протечек (необходимость отключения всего вычислительного шкафа, что не всегда возможно и удобно);
‒ необходимостью поддержания микроклимата помещения вычислительного зала
(проблема «точки росы»);
‒ проблемой охлаждения остальных элементов на плате вычислительного модуля
РВС и необходимостью изготовления нового теплообменника даже при небольшом изменении конструкции платы вычислительного модуля;
‒ проблемой электрохимической коррозии при использовании алюминиевых теплообменников либо массогабаритными ограничениями при использовании более устойчивых медных теплообменников (алюминий в три раза легче меди);
‒ необходимостью удаления воздуха из системы охлаждения как при пуско- наладке, так и в процессе эксплуатации;
‒ сложностью компоновки вычислительных модулей в шкафу при большом количестве фитингов, необходимых для подключения каждого вычислительного модуля;
‒необходимостью использования специализированного вычислительного шкафа со значительными массогабаритными характеристиками.
В системах жидкостного охлаждения открытого типа основным компонентом является хладагент, представляющий собой диэлектрическую жидкость, как правило, на основе белого минерального масла, благодаря которому теплоаккумулирующая способность хладагента гораздо выше, чем у воздуха при том же объеме. Конструктивно такие системы представляют собой заполненную хладагентом ванну (в том числе устанавливаемую в вычислительном шкафу), в которой размещаются печатные платы и серверы вычислительного оборудования. Выделяемое электронными компонентами тепло рассеивается циркулирующим в пределах всего объема ванны хладагентом.
Достоинствами погружной системы охлаждения являются простота конструкции и адаптация под меняющуюся геометрию печатных плат, отсутствие сложной системы коллекторов и жидкостных разъемов, отсутствие проблем управления потоками жидкости и проблем «точки росы», повышение надежности и снижение стоимости изделия.
Основная проблема систем жидкостного охлаждения открытого типа заключается в химическом составе используемого хладагента, который должен удовлетворять жестким требованиям по теплопроводности, электропроводности, вязкости, токсичности, пожаробезопасности, стабильности основных параметров и при этом стоимость жидкости должна быть разумной.
Системы жидкостного охлаждения открытого типа обладают следующими преимуществами:
‒ нечувствительностью к протечкам и их последствиям, возможностью эксплуатации системы даже при наличии местных протечек хладагента;

‒ нечувствительностью к климатическим характеристикам помещения вычислительного зала;
‒ решением проблемы охлаждения остальных элементов РВС, т.к. плата вычислительного модуля погружена в хладагент;
‒ возможностью изменения конфигурации платы вычислительного модуля без изменения системы охлаждения;
‒ простотой гидравлической балансировки системы благодаря отсутствию сложной системы коллекторов;
‒ возможностью использования как унифицированных механизмов, узлов и деталей для гидравлических систем общего машиностроения, так и накопленного опыта эксплуатации электрооборудования с использованием трансформаторных масел;
‒ повышением общей надежности системы жидкостного охлаждения.
Недостатками систем жидкостного охлаждения открытого типа являются:
‒ необходимость дополнительного насосного и теплообменного оборудования для улучшения теплотехнических свойств (теплопроводность, теплоемкость, вязкость) хладагента, в роли которого используются специальные диэлектрические органические жидкости;
‒ необходимость обучения обслуживающего персонала и соблюдение повышенных мер безопасности при работе с хладагентом;
‒ необходимость более частой очистки помещения машинного зала из-за высокой проникающей способности хладагента, особенно в случае протечки;
‒ необходимость специальной оснастки для регламентных и аварийных эксплуатационных операций (монтаж/демонтаж вычислительного модуля, залив/слив хладагента и т.д.);
‒ повышение стоимости эксплуатации из-за необходимости регулярной замены хладагента по истечении срока службы и необходимость организации учета
(транспортирование, прием, учет, хранение, выдача, утилизация хладагента и т. д.) хладагента в организации.
Оценивая приведенные достоинства и недостатки двух систем жидкостного охлаждения, можно с достаточной степенью уверенности отметить более весомые преимущества систем жидкостного охлаждения электронных компонентов вычислительных систем открытого типа. Поэтому для вычислительных модулей РВС, проектируемых на основе перспективных семейств ПЛИС, целесообразно использовать жидкостное охлаждение, в частности, непосредственное погружение плат вычислительных модулей в жидкостный хладагент на основе минерального масла.
Технологии жидкостного охлаждения серверов и отдельных вычислительных модулей в настоящее время разрабатывают многие компании, некоторые из них добились определенных успехов в данном направлении [9-14]. Однако эти технологии предназначены для охлаждения вычислительных модулей, содержащих один-два микропроцессора, а предпринятые попытки их адаптации для охлаждения вычислительных модулей, содержащих большое число тепловыделяющих элементов
(поле ПЛИС из восьми кристаллов), выявили ряд недостатков для жидкостного охлаждения вычислительных модулей РВС.
Основными недостатками существующих технологий погружного жидкостного охлаждения для вычислительных модулей, содержащих поле ПЛИС, являются:
- охлаждающая система плохо адаптирована для установки в стандартные вычислительные стойки;
- охлаждение кристаллов электронных компонентов со значительным (свыше 50
Вт) тепловыделением неэффективно;
- при долговременной эксплуатации наблюдается вымывание термопасты между микросхемами ПЛИС и радиаторами;

- система циркуляции охлаждающей жидкости внутри рабочего модуля разработана для одного-двух кристаллов, а не для поля ПЛИС, что приводит к созданию значительных температурных градиентов;
- в предлагаемых по технологии IMMERS [9] системах весь объем охлаждающей жидкости циркулирует по замкнутому контуру через охладитель, что создает ряд проблем:
- необходимость остановки эксплуатации вычислительного комплекса для вывода из эксплуатации отдельных электронных компонентов и устройств;
- необходимость применения мощного специализированного насосного и гидравлического оборудования, адаптированного к охлаждающей жидкости;
- сложная система управления циркуляции охлаждающей жидкости, приводящая к периодическим сбоям.
- высокая стоимость охлаждающей жидкости, производимой только одним предприятием-поставщиком.
Перечисленные недостатки в той или иной мере можно отнести и к другим существующим системам жидкостного охлаждения открытого типа, поскольку охлаждение вычислительных модулей РВС, содержащих не менее восьми кристаллов
ПЛИС, по сравнению с охлаждением одного микропроцессора обладает специфическими особенностями.
Особенностью выпускаемых в Научно исследовательском центре супер-ЭВМ и нейрокомпьютеров РВС является наличие не менее 6-8 кристаллов ПЛИС на одной печатной плате и высокая плотность компоновки платы, что существенно увеличивает число тепловыделяющих элементов по сравнению с микропроцессорными модулями. Это затрудняет применение как технологии непосредственного жидкостного охлаждения
IMMERS, так и других готовых решений погружных систем и требует дополнительных технических и конструктивных решений для эффективного охлаждения вычислительных модулей РВС.
3. Особенности построения иммерсионных систем охлаждения
электронных устройств на основе ПЛИС
Технологии жидкостного охлаждения серверов и отдельных вычислительных модулей в настоящее время разрабатывают многие компании, некоторые из них добились определенных успехов в данном направлении. Одной из известных в России разработок в данной области является технология непосредственного жидкостного охлаждения
IMMERS, разработанная группой отечественных компаний «СТОРУС» и Института программных систем им. А.К. Айламазяна Российской академии наук. На основе данной технологии создан ряд решений в области компактных суперкомпьютеров, обладающих определенными достоинствами. Однако данная технология предназначена для охлаждения вычислительных модулей, содержащих один-два микропроцессора, а предпринятые попытки ее адаптации для охлаждения вычислительных модулей, содержащих большое число тепловыделяющих элементов (поле ПЛИС из восьми кристаллов), выявили ряд недостатков, существенно затрудняющих ее практическое применение для жидкостного охлаждения вычислительных модулей РВС [15-17], производимых в НИЦ СЭ и НК. Основными недостатками для охлаждения вычислительных модулей, содержащих поле ПЛИС, являются:
- разработанная охлаждающая система плохо адаптирована для установки в стандартные вычислительные стойки;
- охлаждение кристаллов электронных компонентов со значительным (свыше 50
Вт) тепловыделением неэффективно;
- при долговременной эксплуатации (в течение календарного года) наблюдалось вымывание термопасты между микросхемами ПЛИС и радиаторами;

- система циркуляции охлаждающей жидкости внутри рабочего модуля для поля
ПЛИС организована нерационально, что приводит к созданию значительных температурных градиентов;
- в предлагаемых по технологии IMMERS системах весь объем охлаждающей жидкости циркулирует по замкнутому контуру через охладитель, что создает ряд проблем:
- необходимость остановки эксплуатации вычислительного комплекса для вывода из эксплуатации отдельных электронных компонентов и устройств;
- необходимость применения мощного специализированного насосного и гидравлического оборудования, адаптированного к охлаждающей жидкости;
- сложная система управления циркуляции охлаждающей жидкости, приводящая к периодическим сбоям.
- высокая стоимость охлаждающей жидкости, производимой только одним предприятием-поставщиком.
Перечисленные недостатки в той или иной мере можно отнести и к другим существующим системам жидкостного охлаждения открытого типа, поскольку охлаждение вычислительных модулей РВС, содержащих не менее восьми кристаллов
ПЛИС, по сравнению с охлаждением одного микропроцессора обладает специфическими особенностями.
В НИЦ СЭ и НК активно развивается направление по созданию РВС нового поколения на основе собственной системы жидкостного охлаждения. В основу критериев проектирования вычислительного модуля (ВМ) нового поколения для РВС с жидкостным охлаждением открытого типа были положены следующие принципы:
- основой конфигурации вычислительного шкафа является вычислительный модуль с размерами 3U на 19" и автономной циркуляцией охлаждающей жидкости;
- в одном вычислительном шкафу стандартной высоты 47U должно размещаться не менее 12 вычислительных модулей с жидкостным охлаждением;
- в одном вычислительном модуле должно размещаться 12-16 плат с установленными на них кристаллами ПЛИС;
- на каждой печатной плате должно быть размещено до восьми ПЛИС с выделяемым тепловым потоком порядка 100 Вт от каждой ПЛИС;
- для охлаждения жидкости должна использоваться традиционная система водяного охлаждения на базе промышленных чиллеров;
Заданные критерии проектирования ВМ нового поколения поставили ряд сложных технических задач и потребовали нетрадиционного подхода к их решению.
Основным элементом любой жидкостной системы охлаждения является охлаждающая жидкость (хладагент). Иммерсионная система охлаждения электронных компонентов вкупе с заданными условиями проектирования ВМ нового поколения определили основные критерии, которыми должна обладать охлаждающая жидкость:
- диэлектрик с наилучшей электрической прочностью;
- максимально возможное удельное электрическое сопротивление
- высокая теплопроводность;
- максимально возможная теплоемкость;
- минимальная вязкость;
- максимальная температура вспышки;
- стойкость к окислению и старению;
- малоопасная по степени воздействия на организм человека;
- экологически безопасная;
- взрыво- и пожаробезопасная;
- безопасность при транспортировке, хранении и утилизации;
- длительный срок службы;

- изготовление на предприятии, обеспечивающем стабильное качество и необходимые объемы продукта;
- невысокая стоимость.
Исследования маловязких диэлектриков, используемых для охлаждения электронных компонентов ЭВМ, проведенные НИЦ СЭ и НК, определили в качестве базового хладагента масло маловязкое диэлектрик - продукт дополнительной переработки трансформаторного масла: «Масло маловязкое диэлектрик МД-4,5 для охлаждения электронных компонентов ЭВМ». На него разработаны технические условия ТУ 38.401-
58-421-2015 Производство данного хладагента освоено отечественными предприятиями в необходимых объемах.
Циркуляцию хладагента в ВМ необходимо организовать по замкнутому контуру с минимальным количеством гидравлических сопротивлений и с учетом технологических возможностей изготовления ВМ. Фитинги и соединения отдельных узлов предложенной системы циркуляции охлаждающей жидкости должны иметь минимальные длину и шероховатость, максимальные сечения с целью минимизировать возникающие гидравлические сопротивления. Исследования, проведенные в теплотехнической лаборатории НИЦ СЭ и НК, выявили необходимость строгой организации потока хладагента внутри ВМ, где основными тепловыделяющими элементами являются ПЛИС и блоки питания. При этом выделяемая тепловая мощность блоков питания в 3 – 4 раза меньше, чем у ПЛИС. Эксплуатационный ресурс ПЛИС существенно зависит от температуры нагрева ее кристалла и основная задача организации охлаждения реконфигурируемого вычислительного блока – добиться максимально возможного снижения температуры кристалла
ПЛИС.
Исследования реконфигурируемых вычислительных систем на основе ПЛИС Xilinx VIRTEX -7, проведенные в теплотехнической лаборатории НИЦ СЭ и НК, позволили сделать вывод, что в открытой системе охлаждения при принятой архитектуре базового модуля для организации теплоотвода от блоков питания достаточно остаточной (после охлаждения ПЛИС) циркуляции хладагента. Поэтому основной поток хладагента необходимо направить на наиболее нагретые элементы плат - ПЛИС. «Свободная» циркуляция хладагента внутри
ВМ не обеспечивает необходимое охлаждение ПЛИС. Специалистами НИЦ СЭ и НК был разработан и изготовлен технологический образец ВМ (рис.1), согласно предложенной схеме организации циркуляции охлаждающей жидкости.
Рис. 1. Технологический образец вычислительного модуля с погружной системой жидкостного охлаждения открытого типа
Эксплуатация технологического образца ВМ подтвердила работоспособность и высокую эффективность принятых технических решений по обеспечению стабильного
охлаждения всех нагреваемых элементов плат ВМ, созданию оптимальных условий для его эксплуатации, технического обслуживания и вывода в ремонт.
В теплотехнической лаборатории НИЦ СЭ и НК были проведены детальные исследования организации циркуляции хладагента в зоне расположения ПЛИС в системе жидкостного охлаждения открытого типа в ВМ. На первоначальном этапе была выявлена необходимость использования радиаторов: при существующих теплотехнических параметрах хладагента и достижимых характеристиках насоса (в заданных габаритах ВМ) невозможно обеспечить приемлемую температуру ПЛИС (63 0
С) без радиаторов. Кристалл
ПЛИС, производящий тепло, имеет небольшие размеры. Чтобы увеличить площадь контакта ПЛИС с охлаждающей жидкостью, на него устанавливается радиатор с большой поверхностью теплосъема. Определены основные требования к радиаторам:
- минимальные габариты;
- максимальная поверхность теплосъема;
- возможность нанесения термоинтерфейса;
- возможность организации циркуляции хладагента через радиатор;
- турбулизация потока хладагента в радиаторе;
- технологичность в изготовлении;
- не высокая стоимость.
Кроме того была выявлена тесная взаимосвязь эффективности организации циркуляции хладагента от конструкции радиаторов, т. е. для каждого конструктива радиатора эффективна своя циркуляция теплоносителя. Общие закономерности были определены. Поэтому задача разработки радиатора решалась комплексно с задачей организации циркуляции хладагента через радиатор. Специалистами НИЦ СЭ и НК были проведены теплотехнические расчеты и предложена принципиально новая конструкция радиатора с оригинальными ламелями, которые позволяют осуществлять местное закручивание потока хладагента, переводя его из ламинарного в условно турбулентный поток. Общая высота такого радиатора с крышкой, обеспечивающей оптимальную циркуляцию хладагента через него, составила 13,5мм, что позволило обеспечить требуемую плотность компоновки плат в ВМ.
Одновременно с разработкой радиатора проводились исследования различных видов термоинтерфейса. Были определены основные требования к термоинтерфейсу, который должен:
- не деградировать в хладагенте;
- не вымываться хладагентом;
- иметь стабильно высокий коэффициент теплопроводности;
- обеспечивать легкий демонтаж и последующий монтаж радиатора;
- иметь не высокую стоимость.
В НИЦ СЭ и НК был разработан эффективный термоинтерфейс, удовлетворяющий заданным требованиям, а так же детально отработана технология его нанесения и удаления. При этом термическое сопротивление системы для теплоперехода: кристалл ПЛИС - термоинтерфейс ПЛИС - крышка ПЛИС - термоинтерфейс между крышкой ПЛИС и радиатором - радиатор - хладагент при тепловом потоке, рассеиваемым с кристалла ПЛИС с выделяемой тепловой мощностью 44,6 Вт в рассматриваемых условиях исследований составило 0,41 0
С/Вт. Для сравнения при бестермоинтерфейсном монтаже радиатора термическое сопротивление для той же системы составило 0,61 0
С/Вт.
Немаловажное значение в системе охлаждения ВМ играет насосное оборудование. При детальном ознакомлении с номенклатурой рынка насосного оборудования выявились следующие критерии, которые необходимо учитывать при подборе насоса:
- обеспечение расчетных рабочих характеристик;
- габаритные размеры насоса (не более 3U, т.е.) и согласованное расположение входного и выходного патрубков должно обеспечивать подключение теплообменника и
вычислительной секции в заданных габаритах с учетом обеспечения возможностей монтажа и технического обслуживания ВМ;
- насос должен быть рассчитан на работу с нефтепродуктами определенной вязкости и химического состава;
- непрерывный режим эксплуатации насоса;
- вибрации, возникающие при работе насоса, должны быть минимальны;
- насос должен иметь минимальный допустимый кавитационный запас;
- класс защиты электродвигателя насоса должен быть не хуже IP-55;
- сроки проведения технического обслуживания насоса должны быть максимально возможными;
- уровень шума, создаваемый насосом, должен быть минимальный.
Протестировав ряд различных насосов, специалистами НИЦ СЭ и НК был подобран насос, удовлетворяющий требуемым параметрам и, после доработки, использован в конструкции ВМ.
Не менее значимым элементом системы охлаждения ВМ является теплообменник, который должен удовлетворять следующим требованиям:
- компактность конструкции;
- оптимальная теплопередача;
- высокая турбулентность течения (эффективный теплообмен);
- простота применения;
- варьируемая термическая длина (оптимизация потери напора и эффективности теплообмена).
В рассматриваемой системе охлаждения ВМ использован пластинчатый теплообменник, разработанный для охлаждения минеральных масел в гидравлических системах промышленного оборудования. Пластины теплообменника образуют специальные каналы особой конфигурации для наиболее эффективной теплоотдачи маловязких сред воде.
С целью минимизации деградации хладагента в процессе эксплуатации ВМ, необходимо ограничить контакт хладагента с воздухом. Поэтому контур его циркуляции является герметичным. Чтобы компенсировать увеличение объема хладагента, в ВМ предусмотрен компенсатор объемного расширения хладагента.
Система охлаждения ВМ должна обеспечивать постоянный отвод тепла хладагентом от нагреваемых электронных компонентов рабочих модулей и передачу избыточного теплового потока через теплообменник вторичному теплоносителю – воде.
Для выполнения данной функции подсистемой охлаждения необходимо безусловное выполнение следующих условий:
- наличие достаточного количества хладагента;
- наличие циркуляции хладагента;
- хладагент должен поступать к нагретым электронным компонентам рабочих модулей охлажденным.
За выполнением этих условий отвечает система контроля тепловых режимов, в которую входят датчики уровня, протока, температуры хладагента, а так же аппаратный контроль температуры ПЛИС.
Использование результатов исследований, производительного оборудования и оптимального построения системы охлаждения позволило создать энергоэффективный
ВМ с возможностью модульной реализации погружной системы жидкостного охлаждения электронных компонентов вычислительных систем.
4. Реконфигурируемая вычислительная система на основе ПЛИС
Xilinx UltraScale с иммерсионной системой охлаждения
Основным элементом модульной реализации погружной системы жидкостного охлаждения электронных компонентов вычислительных систем открытого типа является
реконфигурируемый вычислительный модуль нового поколения, эскиз которого представлен на рис. 2-а. ВМ нового поколения состоит из вычислительной секции, теплообменной секции, корпуса, насоса, теплообменника и штуцера. В корпусе, образующем основу вычислительной секции, размещены герметичный контейнер с диэлектрической охлаждающей жидкостью, содержащий электронные устройства с компонентами, которые выделяют тепло в процессе работы. В качестве электронных устройств могут быть вычислительные модули (не менее 12-16 шт.), платы управления,
ОЗУ, блоки питания, накопители, дочерние платы и т.д. Сверху вычислительная секция закрыта крышкой.
К вычислительной секции примыкает теплообменная секция, содержащая насос и теплообменник. Насос обеспечивает циркуляцию хладагента в ВМ по следующему замкнутому контуру: из вычислительного модуля нагретый хладагент поступает в теплообменник, охлаждается там, из теплообменника охлажденный хладагент вновь поступает в вычислительный модуль, охлаждает там нагретые электронные компоненты, там же нагревается и затем вновь поступает в теплообменник и т.д. Теплообменник подключен к внешнему теплообменному контуру через штуцеры и предназначен для охлаждения хладагента с помощью вторичной охлаждающей жидкости. В качестве вторичной охлаждающей жидкости можно использовать обыкновенную воду, охлаждаемую промышленным чиллером. При этом чиллер может располагаться вне здания серверной и соединяться с реконфигурируемыми вычислительными модулями через стационарную систему инженерных коммуникаций. Эскиз вычислительного шкафа с установленными ВМ представлен на рис. 2-б.
Вычислительная и теплообменная секции механически соединены между собой, образуя единый реконфигурируемый вычислительный модуль. Для эксплуатации реконфигурируемого вычислительного модуля требуется подключение к источнику вторичной охлаждающей жидкости (через краны), к источнику энергоснабжения и к сетевому концентратору (через электрические разъемы).
В корпусе вычислительного шкафа ВМ размещены друг над другом. Их количество ограничивается линейными размерами шкафа, техническими возможностями помещения вычислительного зала и подводимых инженерных коммуникаций.
Рис. 2. Эскиз вычислительной системы на основе жидкостного охлаждения
(а - эскиз ВМ нового поколения, б - эскиз вычислительного шкафа)
Каждый ВМ вычислительного шкафа подключается к источнику вторичной охлаждающей жидкости с помощью подающих обратных коллекторов через штуцеры
(или балансировочные клапаны) и гибкие трубопроводы; подключение к источнику энергоснабжения и сетевому концентратору осуществляется через электрические
разъемы. Через штуцеры (или балансировочные клапаны) подают холодную и отводят нагретую вторичную охлаждающую жидкость в стационарную систему инженерных коммуникаций, подключенную к шкафу. Множество вычислительных шкафов, размещенных в одном или нескольких помещениях, образует вычислительный комплекс.
Для эксплуатации вычислительный комплекс также подключается к источнику вторичной охлаждающей жидкости, к источнику энергоснабжения, модулю управления вычислительным комплексом.
Рассмотренная модульная реализация системы жидкостного охлаждения электронных компонентов вычислительных систем открытого типа, кроме свойственных системам открытого типа достоинств, обладает рядом дополнительных преимуществ:
- платы вычислительных модулей и реконфигурируемые вычислительные модули идентичны, относительно автономны и взаимозаменяемы. При выходе из строя одного
ВМ или при необходимости проведения профилактических работ нет необходимости полностью отключать вычислительный шкаф и останавливать решение задачи;
- достигается повышенная плотность компоновки ПЛИС в ВМ;
- предложенное техническое решение позволяет при необходимости наращивать производительность реконфигурируемых вычислительных модулей без кардинального увеличения габаритных размеров (более производительные насос и теплообменник позволяют вписаться в выбранные габариты). Увеличение количества плат вычислительных модулей незначительно увеличит размер реконфигурируемого вычислительного модуля по глубине при неизменной плотности компоновки.
В силу простоты конструкции теплообменной секции реконфигурируемого вычислительного модуля значительно повышается его надежность.
Согласно проведенным расчетам, использование жидкостного охлаждения и построение вычислительных систем на основе ВМ «Скат» обеспечивают сверхпетафлопсную производительность одного вычислительного шкафа РВС.
Вычислительная 19” стойка суперкомпьютера, эскиз которой представлен на рис. 2-б, может содержать до 12 ВМ нового поколения с жидкостным охлаждением.
Производительность и потребляемая мощность перспективной РВС на основе ПЛИС
Xilinx UltraScale приведены в таблице 1.

Таблица 1. Производительность и потребляемая мощность перспективной РВС на основе
ПЛИС Xilinx UltraScale
Характеристика
Значение
Производительность ВМ «Скат»
105 Тфлопс
Производительность вычислительной стойки на основе ВМ «Скат»
1 Пфлопс
Потребляемая мощность ВМ «Скат»
13 кВт
Потребляемая мощность вычислительной стойки на основе ВМ
«Скат»
150 кВт
На основе производимых в НИЦ СЭ и НК изделий можно проследить темпы роста производительности РВС при переходе от семейства к семейству ПЛИС (таблица 2).

Таблица 2. Производительность реконфигурируемых суперЭВМ
Изделие, год выпуска, семейство ПЛИС
Производительно сть платы
Pi
32
/Pi
64
, Гфлопс
Производительн ость ВМ
Pi
32
/Pi
64
, Гфлопс
Производите льность шкафа 47U
Pi
64
, Тфлопс
«Орион-5», 2009 год, Virtex-5 250/85 1000/340 19,2 - 28,8
«Ригель», 2010/2012 год, Virtex-6 400/125 1600/500 34,5 – 51,8
«Тайгета», 2012/2013 год, Virtex-7 900/300 3600/1200 68 – 100
«Скат», 2015/2016 год, UltraScale
7250/2500 82500/30000 1000 – 1250
В настоящее время проводится опытная эксплуатация созданного технологического образца вычислительного модуля «Скат» с жидкостным охлаждением с целью определения предельно допустимых значений эксплуатационных параметров при различных предполагаемых режимах эксплуатации (рис. 1).
На основе представленного конструктивного исполнения в 2017 году будут созданы сверхвысокопроизводительные вычислительные комплексы с эффективным охлаждением вычислительных ПЛИС как для семейства Xilinx Virtex UltraScale, так и следующего прогнозируемого семейства Xilinx Virtex UltraScale+.
5. Заключение
Использование воздушных систем охлаждения для разрабатываемых суперкомпьютеров практически достигло своего предела, что обусловлено снижением эффективности охлаждения с ростом потребляемой (и отдаваемой) мощности, вызванным увеличением степени интеграции кристаллов микропроцессоров и других микросхем.
Поэтому использование жидкостного охлаждения для организации работы современных вычислительных систем является приоритетным направлением совершенствования систем охлаждения с широкими перспективами дальнейшего развития. Жидкостное охлаждение вычислительных модулей РВС, содержащих не менее восьми кристаллов ПЛИС с высокой плотностью компоновки, обладает спецификой по сравнению с охлаждением кристаллов микропроцессоров, что требует разработки специализированной погружной системы охлаждения. Разработанная оригинальная жидкостная система охлаждения для вычислительного модуля РВС нового поколения позволяет обеспечить высокие эксплуатационные показатели системы – максимальную температуру ПЛИС, не превышающую 55
о
С при температуре хладагента не более 30
о
С в рабочем режиме.
Полученные прорывные решения погружной системы жидкостного охлаждения позволяют в пределах одного вычислительного шкафа высотой 47U разместить не менее
12 ВМ нового поколения с суммарной производительностью свыше 1 Пфлопс. Резерв мощности системы жидкостного охлаждения ВМ нового поколения позволяет обеспечить эффективное охлаждение не только для существующих, но и для проектируемых перспективных семейств ПЛИС фирмы Xilinx UltraScale+ и UltraScale 2.
Литература
1.
Oct Marek Perkowski - Fpga computer architectures // Northcon/93. Conference Record, 12-14 1993. ISBN: 0-7803-9972-2.
2.
Tripiccione, Raffaele Reconfigurable Computing for Statistical Physics: The Weird Case of
JANUS// IEEE 23RD international conference on application-specific systems, architectures and processors (ASAP), 2012

3.
BAITY-JESI M et al. The Janus Project: Boosting Spin-Glass Simulations using FPGAs
// IFAC
Proceedings Volumes, Programmable Devices and Embedded Systems. vol.12, №1, 2013.
4.
D. E. Shaw et al. Anton, a special-purpose machine for molecular dynamics simulation. Commun.
ACM 51, 7 (2008), 91-97 5.
Kalyaev I.A., Levin I.I., Dordopulo A.I., Slasten L.M. Reconfigurable Computer Systems Based on Virtex-6 and Virtex-7 FPGAs // IFAC Proceedings Volumes, Programmable Devices and Embedded
Systems, vol.12, №1, 2013. 210-214 6.
http://www.asetek.com/ data-center/oem-data-center-coolers/( accessed: 10.06.2016)
7.
http://www.grcooling.com/carnotjet/( accessed: 10.06.2016)
8.
http://immers.ru/sys/immers660/( accessed: 10.06.2016)
9.
http://www.eurotech.com/aurora
(accessed: 10.06.2016)
10.
http://www.rscgroup.ru
/( accessed: 10.06.2016)
11.
http://www.t-platforms.ru/products/hpc/a-class/cooling.html/( accessed: 10.06.2016)
12.
http://www.iceotope.com/product.php
(accessed: 10.06.2016)
13.
http://www.liquidcoolsolutions.com
/( accessed: 10.06.2016)
14.
Levin I.I. Rekonfiguriruyemiye vychislitelniye sistemy s otkrytoi masshtabiruyemoi arkhitekturoi.
[Reconfigurable computer systems with open scalable architecture] Parallelniye vychisleniya i zadachi upravlenia (PACO’2010): Trudy Pyatoi Mezhdunarodnoi konferentsii (Moskva, 24 oktyabrya-29 oktyabrya, 2010). [Parallel calculations and problems of control (PACO’2010): Proceedings of the Fifth
International Conference (Moscow, 24 October-29 October, 2010)] М.: Russian Academy of Sciences
Trapeznikov Institute of Control Problems, 2010. 83-95 pp.
15.
Kalyaev I.A., Levin I.I., Dordopulo A.I., Slasten L.M. Reconfigurable Computer Systems Based on
Virtex-6 and Virtex-7 FPGAs. IFAC Proceedings Volumes, Programmable Devices and Embedded
Systems, Volume №12, part №1, 2013. Рр. 210-214.
16.
Levin I.I., Dordopulo A.I., Kalyaev I.A., Doronchenko U.I., Raskladkin M.K. Sovremenniye i perspektivniye vysokoproizvoditelniye vychislitelniye sistemy s rekonfiguriruyemoi arkhitekturoi.
[Modern and perspective high-performance computer systems with reconfigurable architecture] Vestnik
Uzno-Uralskogo gosudarstvennogo universiteta. Seriya Vychislitelnaya matematica i informatica.
[Bulletin of The South Ural State University. Series Computing mathematics and informatics]
Chelyabinsk: Publishing Centre of SUSU, 2015 – vol.4. num.3. 24-37 pp. ISSN:
2410-7034.
Код поля изменен
Код поля изменен
Код поля изменен
Код поля изменен


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©nethash.ru 2017
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал