Суперкомпьютеру: результаты, направления, тенденции



Скачать 134.9 Kb.

Дата16.02.2017
Размер134.9 Kb.
Просмотров16
Скачиваний0

НА ПУТИ К ЭКЗАФЛОПСНОМУ
СУПЕРКОМПЬЮТЕРУ:
РЕЗУЛЬТАТЫ, НАПРАВЛЕНИЯ, ТЕНДЕНЦИИ
Л.К.Эйсымонт, В.С.Горбунов
(ФГУП «НИИ «Квант»)
Третий Московский Суперкомпьютерный Форум
(ВВЦ, 1
ноября 2012)

Используемая методика рассмотрения
темы выступления.
Элементная
база
Архитектура
Системное
программное
обеспечение
Языки
программирования
Модели
вычислений
прикладных
программ и
алгоритмы
Приложения

Проблемы, которые надо решить…

IBM BlueGene/Q
-
микропроцессор

IBM BlueGene/Q
-
конструкция

Суперкомпьютер IBM
BlueWaters
на “тяжелых”
суперскалярных
(out-of-order) процессорных ядрах с
SIMD-ускорителями

серверный узел

Суперкомпьютер IBM
BlueWaters
на “тяжелых”
суперскалярных
(out-of-order) процессорных ядрах с
SIMD-ускорителями

процессор и QCM

Коммуникационная сеть суперкомпьютера IBM
BlueWaters
с “тяжелыми”
ядрами

Маршруты сообщений в IBM BlueWaters

Перспективы и особенности развития
технологий микропроцессорных кристаллов

Развитие микроэлектронных технологий
Процессорные кристаллы
Кристаллы памяти

Анатомия количественных характеристик
экзамасштабных
систем 2018 года

Энергоэффективность
процессора узла

3D сборка – IBM TSV

HMC (фирмы Micron, HP) –
интеллектуальная память

Коммуникационный опточип
IBM
Holley
и вариант перспективной
компоновки вычислительного модуля
90 нм, 48 линков по 12.5 Gb/s (24(in)+24(out)),
5x5мм, 8 pJ/bit.
Перспектива (45 нм) –
40 Gb/s, 1 pJ/bit (0.8 –
E, 0.2 –
O)
Узел - 5х6 см, 82 (OE), 1968 VCSL + 1968 PD,
6 узлов в группе, 4 группы в модуле

Базовые материалы экзафлопсной
тематики (экстремальные технологии)

Итоги прошлого десятилетия

Об организации работ в области
суперкомпьютерных технологий в США
DARPA
Cray –
проект CASCADE
IBM -
проект PERCS
MIT –
проект RAW
Stanford Unv. –
проект Smart Memory
Unv.of South.Calif. (+Raytheon) –
проект MONARCH
Unv.of Texas at Austin (+IBM) –
проект TRIPS

Пространственно-временная локализация
обращений к памяти -
измерение
Пространственная локализация
(spatial locality) -
тенденция приложения выдавать обращения к памяти, в которых адреса находятся вблизи от адресов недавно выданных обращений
Weinberg J. et al. Quantifying Locality In The Memory Access Patterns of
HPC Applications. SC’05, November 12-18, 2005, 12 pp.
(San Diego-LBNL)
Временная локализация
(temporal locality) –
тенденция приложения выдавать обращения к памяти к тем же адресам, которые были в недавно выданных обращениях
SL

[0,1]
TL

[0,1]

Пространственно-временная локализация
обращений к памяти -
синтез
Strohmaier
E., Shan H. Apex-Map: A Global Data Access Benchmark to Analyze
HPC Systems and Parallel Programming Paradigms. SC’05, November 12-18,
2005, 14pp.
Тест APEX-MAP
Есть метод перехода от измеряемых TL и SL к синтезируемым на тесте
APEX-MAP TL* и SL*

Разные режимы пространственно-временной
локализации и эффективность работы памяти
Пространственная локализация
Временная локализация

Профили
тестов, получены
на
имитационной
модели
СКСН
Ангара (Россия, ОАО”НИЦЭВТ”)
Тест SpMV
BFS

Профили реальных программ, получены на
реальном оборудовании (США, ORNL
DoE)

Требования
к
перспективным
CКСН
программы
DARPA HPCS.

Проблема “cтены
памяти”
и сокрытия
других задержек (latency hiding).

Архитектурные принципы для преодоления
проблемы “стены памяти”

Фирма Сray, проект Cascade программы
DARPA HPCS

базовая концепция проекта

Текущее десятилетие

Эволюционное направление

Прогноз роста производительности
на тесте Linpack

2008: Прогноз энергопотребления

ORNL&Cray: эволюционный путь
-1

Современные системы Cray.

Преимущества сети Dragonfly по
стоимости.

Видение перспективы из ORNL…

ANL&IBM: эволюционный путь,
“легкие”
ядра.

Видение перспективы из ANL…

DARPA
Агрессивное и
нновационное
направление
DOE ASCR
Умеренное инновационное
направление

Гипотетическая структура узла
инновационного суперкомпьютера.

DARPA
:
инновационный путь,“средние”
ядра,
массово-мультитредовые,потоковые,гибридные.

DARPA UHPC –
решаемые проблемы
Главные проблемы
- проблема потребления энергии;
- проблема информационной устойчивости вычислительных систем;
- проблема продуктивности разработки программ.
Дополнительные проблемы реализации
1. Ослабление Закона Мура- только рост количества ядер.
2. Увеличивающаяся плотность транзисторов на кристалле никак не влияет на улучшение передач данных, они все также энергоемки и медленны.
3. Изменение требований к отказоустойчивости (ограничение избыточности + защита от информационных атак, интеллектуализация средств, многоуровневость).
4. Остается актуальной известная проблема “стены памяти”, только решать ее стало труднее из-за ограничений по энергетике и возросшей доли потерь на передачу данных.

Проекты DARPA UHPC
экзамасштабной
тематики и эксперименты
с перспективными run-timе системами.
1.
Проект Echelon (NVIDIA, Cray, 8 университетов. Модель программ –
обобщение CUDA.
Есть эмуляция на кластерных суперкомпьютерах.
2.
Проект Runnemede (Intel, Университет Делавера….).
Модель программы –
Соdelet-модель. Есть эмуляция на кластерных компьютерах .
3. Проект Angstrom (MIT, Tilera ), Модель программы –
SEEС, есть эмуляция на кластерных суперкомпьютерах.
4. Проект X-calibr
(Лаборатория Sandia, ….). Модель программы – ParalleX, есть эмуляция на кластерных суперкомпьютерах – HPX (университет Луизианы).

Проект Echelon.
- NVIDIA и CRAY (W.Dally, S.Scott)
-
Окриджская
лаборатория DoE
(ORNL)
-
Lockhead
Martin
- 8 университетов:
-
Университет
Пенсильвании (Penn University),
-
Калифорнийский университет (University of California),
-
Университет штата Юта (The University of UTAH),
-
Техасский университет (The University of TEXAS of Austin),
-
Технологический университет Джорджии
(Gordgia
Institute of Technology),
-Стэнфордский
университет
(Ieland
Stanford Junior University),
-
Университет Теннеси (The University of Tennessee),
-
Университет Вирджинии
(University of Virginia).

Общая структура
суперкомпьютера Echelon

Структура SM-ядра

Полоса обработки (Lane) SM-ядра

Модель вычислений ParalleX.

Сравнение Echelon с
функционально –
специализированными суперкомпьютерами

Teкущие
программы DoE
в области
экзамасштабных
технологий.

Центры со-разработки DoE
в области
экзамасштабных
технологий.

Календарный план работ DoE
по созданию
экзафлопсного
суперкомпьютера

Будущие работы DoE
в области
экзамасштабных
технологий

1. Кластеры с нестандартной иерархической
организацией.
2. Мощные run-time системы, повышающие

10 раз реальную производительность.

3. Системы имитационного моделирования
с элементами эмуляции и узлами на ПЛИС,
с возможностью исследования систем с
уровнем параллелизма 10
7
- 10
9
.
Инновационно-эволюционое
направление работ в области
экзамасштабных
технологий.

Кластер Gordon для решения DIS-задач.

Кластер Gordon
-
32-х процессорный
суперузел
с двухрейловой
сетью.

Кластер Gordon
-
двойная 3D
сеть Infiniband.

Нестандартные кластерные конфигурации: МВС
Орион-М22 и большие суперкомпьютеры на базе
таких блейд-серверов
В ы числитель
Комм утатор
E
the rn et
К
о м
м ут ат ор
In fini b
and
B lade
С ервер 1
B lade
С ервер 10
С ервер загрузки/
управления /
м ониторинга
С ервер ф айловой систем ы
R A ID
FC
K V M
К
о м
м ута то р
МВ
С
-экс пре сс
ИБ
П
Ком м
утато р
се ти мо ни тори нга
Минисуперкомпьютер
“Орион-M22”
2 SandyBridge
+ 3 GPU

Тест Message Rate –
МВС-экспресс
и Infiniband
(К-100).
Важные показатели для сравнения

Схема реализации (эмуляции) в HPGAS-модели
обращения к памяти на кластерных
суперкомпьютерах через сообщения и корутины
Это P-треды
на отдельных
процессорных ядрах в
сокете, остальные ядра
могут быть загружены
пользовательской
программой, корутинами

Сравнительная эффективность чтения,
реализуемого аппаратно (a) и программно (b)
через сообщения и сопрограммы. Внутри узла.

Гибридность
посредством
функциональной специализации

Переход от подхода 90/10 к подходу 10х10 –
специализация ядер в виде функциональных кластеров

Переход от подхода 90/10 к подходу 10х10 –
специализация ядер в виде функциональных кластеров

Специализация на символьную
обработку – “символьный кластер”
Регистры Pe
Правила проектирования –
206
Правила замены - 88
Правила переходов
Pe
Операции Pe

Крупнозернистое распараллеливание
программ –
одновременное выполнение
функций.
Программа
Последовательное выполнение
Параллельное выполнение

Мелкозернистое распараллеливание
проектирования и замены.
Пример левой части
Левая часть с расставленными номерами шагов проектирования
Возможное совмещение проектирования
На следующем слайде –
процесс реального проектирования для обращения
с аргументом BC+M(()A(**)MCPBC). Получаем: e1 = BC, e2=M, w3=(), e4=MCP
Эйсымонт
Л.К. О возможности параллельных схем реализации одного языка для описания задач
переработки текстовой информации. –
Управляющие Системы и Машины, Киев, 1977, с.56-64.

Пример совмещения проектирования
элементов одной левой части

δ1 -
Правила проектирования для Pe
(k)
δ2 -
Правила проектирования для Pe
(
)


δ3 -
Правила проектирования для Pe
(φ)

Выводы
1.
Есть значительные проблемы по производительности и
энергопотреблению (сеть, память и процессор),
отказоустойчивости и продуктивности программирования.
2.
Элементно-конструкторская база позволяет использовать
мультиядерность
(1000-кратно), повышенную пропускную
способность кристаллов по вводу-выводу (3D-компоновка, TSV),
оптические соединения между платами (“Holley”, WDM-технологии)
и внутри кристаллов (нанотрубки), новая технология памяти (HMC,
NVRAM).
3.
Есть архитектурно-программные решения –
массовая
мультитредовость
и модель разделения вычислений/доступа к
данным (MT
и DAE), потоковость
(MD/DF), локализация данных и
вычислений
(RPC), гибридность/функциональная специализация
(10x10), глобально-адресуемая память (PGAS/APGAS/HPGAS),
интеллектуальная отказоустойчивость (Resilience, без PGAS
сложно).

4.
Подходы к решению –
эволюционный
(DoE
NNSA/ASCR),
умеренно-инновационный
(DoE
ASCR), агрессивно инновационный
(DARPA), инновационно-эволюционный&эмуляционный
(DoE
ASCR, NSF).
5.
Cложность проблем и неочевидность решений за рубежом
потребовала привлечения ресурсов не только на федеральном
уровне, но и на региональном и мировом.
8
.
Исключительно важным направлением стала информационно-
аналитическая работа высокопрофессиональных экспертных
групп, подготовка кадров.
7.
Зарубежный опыт показывает, что
важным является
централизованная формулировка целей работ и управления ими
(формирование и поддержка “силового поля”)
6. Цели работ по экзамасштабной
тематике (DARPA) и
экзафлопсной
(DoE)
имеют отличия, но методы их достижения
во многом совпадают.
9.
По-существу, в США
наряду с Экзафлопсной
концепцией
имеется Концепция экзамасштабных
технологий.

Вопросы ?
Горбунов Виктор Станиславович (ФГУП”НИИ”Квант”, vitech@rdi-kvant.ru)
Эйсымонт
Леонид Константинович (ФГУП”НИИ”Квант”,
verger-lk@yandex.ru)

Document Outline

  • НА ПУТИ К ЭКЗАФЛОПСНОМУ СУПЕРКОМПЬЮТЕРУ: РЕЗУЛЬТАТЫ, НАПРАВЛЕНИЯ, ТЕНДЕНЦИИ
  • Используемая методика рассмотрения темы выступления.
  • Проблемы, которые надо решить…
  • IBM BlueGene/Q - микропроцессор
  • IBM BlueGene/Q - конструкция
  • Суперкомпьютер IBM BlueWaters на “тяжелых” суперскалярных (out-of-order) процессорных ядрах с SIMD-ускорителями – серверный узел
  • Суперкомпьютер IBM BlueWaters на “тяжелых” суперскалярных (out-of-order) процессорных ядрах с SIMD-ускорителями – процессор и QCM
  • Коммуникационная сеть суперкомпьютера IBM BlueWaters с “тяжелыми” ядрами
  • Маршруты сообщений в IBM BlueWaters
  • Слайд номер 10
  • Слайд номер 11
  • Анатомия количественных характеристик экзамасштабных систем 2018 года
  • Энергоэффективность процессора узла
  • Слайд номер 14
  • HMC (фирмы Micron, HP) – интеллектуальная память
  • Слайд номер 16
  • Базовые материалы экзафлопсной тематики (экстремальные технологии)
  • Итоги прошлого десятилетия
  • Об организации работ в области суперкомпьютерных технологий в США
  • Пространственно-временная локализация обращений к памяти - измерение
  • Пространственно-временная локализация обращений к памяти - синтез
  • Разные режимы пространственно-временной локализации и эффективность работы памяти
  • Слайд номер 23
  • Слайд номер 24
  • Слайд номер 25
  • Проблема “cтены памяти” и сокрытия других задержек (latency hiding).
  • Слайд номер 27
  • Фирма Сray, проект Cascade программы DARPA HPCS – базовая концепция проекта
  • Текущее десятилетие
  • Эволюционное направление
  • Прогноз роста производительности на тесте Linpack
  • 2008: Прогноз энергопотребления
  • ORNL&Cray: эволюционный путь -1
  • Современные системы Cray.
  • Преимущества сети Dragonfly по стоимости.
  • Видение перспективы из ORNL…
  • ANL&IBM: эволюционный путь, “легкие” ядра.
  • Видение перспективы из ANL…
  • DARPA Агрессивное инновационное направление
  • Гипотетическая структура узла инновационного суперкомпьютера.
  • DARPA : инновационный путь,“средние” ядра, массово-мультитредовые,потоковые,гибридные.
  • DARPA UHPC – решаемые проблемы
  • Проекты DARPA UHPC экзамасштабной тематики и эксперименты с перспективными run-timе системами.
  • Проект Echelon. - NVIDIA и CRAY (W.Dally, S.Scott) - Окриджская лаборатория DoE (ORNL) - Lockhead Martin - 8 университетов: - Университет Пенсильвании (Penn University), - Калифорнийский университет (University of California), - Университет штата Юта (The University of UTAH), - Техасский университет (The University of TEXAS of Austin), - Технологический университет Джорджии (Gordgia Institute of Technology), -Стэнфордский университет (Ieland Stanford Junior University), - Университет Теннеси (The University of Tennessee), - Университет Вирджинии (University of Virginia).
  • Общая структура суперкомпьютера Echelon
  • Структура SM-ядра
  • Полоса обработки (Lane) SM-ядра
  • Модель вычислений ParalleX.
  • Сравнение Echelon с функционально – специализированными суперкомпьютерами
  • Teкущие программы DoE в области экзамасштабных технологий.
  • Центры со-разработки DoE в области экзамасштабных технологий.
  • Календарный план работ DoE по созданию экзафлопсного суперкомпьютера
  • Будущие работы DoE в области экзамасштабных технологий
  • 1. Кластеры с нестандартной иерархической организацией. 2. Мощные run-time системы, повышающие
    10 раз реальную производительность. 3. Системы имитационного моделирования с элементами эмуляции и узлами на ПЛИС, с возможностью исследования систем с уровнем параллелизма 107 - 109 .
  • Кластер Gordon для решения DIS-задач.
  • Кластер Gordon - 32-х процессорный суперузел с двухрейловой сетью.
  • Кластер Gordon - двойная 3D сеть Infiniband.
  • Нестандартные кластерные конфигурации: МВС Орион-М22 и большие суперкомпьютеры на базе таких блейд-серверов
  • Тест Message Rate – МВС-экспресс и Infiniband (К-100).
  • Схема реализации (эмуляции) в HPGAS-модели обращения к памяти на кластерных суперкомпьютерах через сообщения и корутины
  • Сравнительная эффективность чтения, реализуемого аппаратно (a) и программно (b) через сообщения и сопрограммы. Внутри узла.
  • Гибридность посредством функциональной специализации
  • Переход от подхода 90/10 к подходу 10х10 – специализация ядер в виде функциональных кластеров
  • Переход от подхода 90/10 к подходу 10х10 – специализация ядер в виде функциональных кластеров
  • Специализация на символьную обработку – “символьный кластер”
  • Крупнозернистое распараллеливание программ – одновременное выполнение функций.
  • Мелкозернистое распараллеливание проектирования и замены.
  • Пример совмещения проектирования элементов одной левой части
  • δ1 - Правила проектирования для Pe (k)
  • δ3 - Правила проектирования для Pe (φ)
  • Выводы
  • Слайд номер 72
  • Вопросы ?


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©nethash.ru 2017
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал