Российская академия наук Международная научная конференция Параллельные вычислительные технологии



Скачать 90.87 Kb.
Pdf просмотр
Дата24.04.2017
Размер90.87 Kb.
Просмотров38
Скачиваний0

Эффективность суперкомпьютерных центров
в эпоху тотального параллелизма
Воеводин Вл.В
.
voevodin@parallel.ru
31
марта, 2015 г., УрФУ, г.Екатеринбург
Суперкомпьютерный консорциум университетов России
Российская академия наук
Международная научная конференция
Параллельные вычислительные технологии

Top50
самых мощных…
http://top50.supercomputers.ru
Top50
: совместный проект НИВЦ МГУ и МСЦ РАН

Суперкомпьютер МГУ “Ломоносов
-2

1
стойка
= 256
узлов:
Intel (14c) + NVIDIA = 515 Tflop/s
Суперкомпьютер “Ломоносов
-
2”
(5
стоек
) = 2.5 Pflop/s
Суперкомпьютерный центр МГУ:
Пользователи
: 2511
Проекты
: 1607
Организации
: 302
Факультеты
/
Институты МГУ
: 20+
Вычислительная наука везде…

Большие суперкомпьютерные центры
(какова эффективность?)

Средняя производительность
(
одно ядро
)
суперкомпьютера “Чебышев” за
3
дня
400 Mflops = 3,33%
Пиковая производительность ядра
= 12 Gflops
Подобная ситуация везде
,
мы редко говорим о таких фактах, хотя это очень важно
..
Эффективность суперкомпьютерных центров
(
что на практике?
)

Что нам нужно знать для контроля
эффективности суперкомпьютерного центра?
Лицензии
Проекты
Пользователи
Компоненты
ПО
Квоты
Организации
Компоненты аппаратуры
Статусы
Приложения
Разделы
Очереди
Задачи
Пользователи
Сисадмины
Руководство
Сложно ли контролировать несколько компонент
?
Несколько
?..

Лицензии
Проекты
Пользователи
Компоненты
ПО
Квоты
Организации
Компоненты аппаратуры
Статусы
Приложения
Разделы
Очереди
Задачи
Пользователи
Сисадмины
Руководство
400 100 100 300 600 25 000 15 20 2 500 30 1 000 в день
20
Несколько
?
Суперкомпьютер “Ломоносов” это
:
(1.7 Pflops, 6000
вычислительных узлов, 12K CPUs, 2K GPUs…)
Тренд
:
все эти числа быстро растут
!
Невозможно предсказать
/
описать состояние суперкомпьютера…
Мы практически потеряли контроль над суперкомпьютерами…

Полный контроль
:
стоимость задержки…
Тренд
:
стоимость задержки принятия правильного решения постоянно
растет
!
Нам нужно сохранить контроль над суперкомпьютерами
!
Один день суперкомпьютера “Ломоносов” (МГУ
)
стоит
$20 000
Подобная ситуация везде
,
мы редко говорим о таких фактах, хотя это очень важно
.
Один день суперкомпьютера “Titan” (ORNL) стоит
$300 000
Некоторые факты
:

Суперкомпьютер “Ломоносов”:
выполняет около
1000
заданий в день
,
около
200
заданий выполняется в каждый момент времени
,
Если планировщик повис
,
половина суперкомпьютера будет простаивать
уже через
2-3
часа
.
Полный контроль
:
стоимость задержки…
Нам нужно сохранить контроль над суперкомпьютерами
!

OctoTron
(гарантия того, что суперкомпьютер ведет себя так, как мы этого ожидаем)
Monitoring
(полный контроль над аппаратурой и ПО)
OctoShell
(регистрация, биллинг, взаимосвязи, статусы)
OctoStat
(статистика и аналитика: исторические данные и предсказания)
JobDigest
(детальный анализ поведения программы)
OctoScreen
(показать все то, что мы хотим видеть и знать)
Каков наш подход к контролю эффективности
суперкомпьютерного центра
?
Пользователи
Сисадмины
Руководство
Лицензии
Проекты
Пользователи
Компоненты
ПО
Квоты
Организации
Компоненты аппаратуры
Статусы
Приложения
Разделы
Очереди
Задачи

OctoTron
(гарантия того, что суперкомпьютер ведет себя так, как мы этого ожидаем)
Monitoring
(полный контроль над аппаратурой и ПО)
OctoShell
(регистрация, биллинг, взаимосвязи, статусы)
OctoStat
(статистика и аналитика: исторические данные и предсказания)
JobDigest
(детальный анализ поведения программы)
OctoScreen
(показать все то, что мы хотим видеть и знать)
Пользователи
Сисадмины
Руководство
Лицензии
Проекты
Пользователи
Компоненты
ПО
Квоты
Организации
Компоненты аппаратуры
Статусы
Приложения
Разделы
Очереди
Задачи
Для чего спроектированы эти системы
?
(
одним словом
)
Анализ &
Визуализация
Инвентаризация
Анализ
Сбор данных
Контроль
Визуализация

OctoTron
(гарантия того, что суперкомпьютер ведет себя так, как мы этого ожидаем)
Monitoring
(полный контроль над аппаратурой и ПО)
OctoShell
(регистрация, биллинг, взаимосвязи, статусы)
OctoStat
(статистика и аналитика: исторические данные и предсказания)
JobDigest
(детальный анализ поведения программы)
OctoScreen
(показать все то, что мы хотим видеть и знать)
Пользователи
Сисадмины
Руководство
Лицензии
Проекты
Пользователи
Компоненты
ПО
Квоты
Организации
Компоненты аппаратуры
Статусы
Приложения
Разделы
Очереди
Задачи
Для чего спроектированы эти системы
?
(
ответы на вопросы
)
Каково среднее значение
CPULoad для
задачи
?
Каково среднее значение CPULoad для
проекта
,
группы
пользователя
,
пакета
?
Каково среднее значение CPULoad для
приложения
?
Каково среднее значение CPULoad для
узла
?
CPULoad => Cache misses, Flops, LoadAVG, IB/Eth parameters, I/O parameters …

OctoTron
(гарантия того, что суперкомпьютер ведет себя так, как мы этого ожидаем)
Monitoring
(полный контроль над аппаратурой и ПО)
OctoShell
(регистрация, биллинг, взаимосвязи, статусы)
OctoStat
(статистика и аналитика: исторические данные и предсказания)
JobDigest
(детальный анализ поведения программы)
OctoScreen
(показать все то, что мы хотим видеть и знать)
Пользователи
Сисадмины
Руководство
Лицензии
Проекты
Пользователи
Компоненты
ПО
Квоты
Организации
Компоненты аппаратуры
Статусы
Приложения
Разделы
Очереди
Задачи
Серьезный вызов в каждой системе
(
особенно с прицелом на
Exascale)
Контроль

Большие числа в суперкомпьютерах
:
ядра
,
процессоры
,
ускорители
,
узлы
,
компоненты
HW&SW,
файлы
,
индексы
,
пользователи
,
проекты
,
процессы
,
нити
,
исполняющиеся
и ждущие задания…
Мы не знаем и не можем описать
состояние компонент суперкомпьютера
в какой
-
либо момент времени
:
полностью исправны,
нарастают ошибки, эпизодические ошибки, неисправны
?..
Автономная жизнь суперкомпьютеров
(Octotron:
гарантия и предсказуемость поведения
)

Что сейчас
?
Мы лишь надеемся, что компонента
HW/SW
работает до тех
пор, пока не получаем явных доказательств неисправности
.
Что нам нужно
?
Нам нужны гарантии
:
если что
-
то происходит в
суперкомпьютере, мы должны
сразу же быть об этом уведомлены
.
Автономная жизнь суперкомпьютеров
(Octotron:
гарантия и предсказуемость поведения
)

Распределение
LoadAVG
за
3
дня
(
предсказуемость поведения
)
LoadAVG:
среднее число процессов, готовых к исполнению
.
Необходим тотальный контроль
!

Мы хотим, чтобы система работала так, как мы ожидаем.
Наши ожидания
=
Реальность
Что сейчас
?
Мы лишь надеемся, что компонента
HW/SW
работает до тех
пор, пока не получаем явных доказательств неисправности
.
Что нам нужно
?
Нам нужны гарантии
:
если что
-
то происходит в
суперкомпьютере, мы должны
сразу же быть об этом уведомлены
.
Автономная жизнь суперкомпьютеров
(Octotron:
гарантия и предсказуемость поведения
)

Если возникло несоответствие между нашими ожиданиями и реальным
поведением суперкомпьютера, мы должны немедленно об этом узнать.
Но…
Суперкомпьютер огромен
,
мы сами больше не в состоянии его
контролировать полностью
.
Но…
Суперкомпьютер может это делать сам
(
вместо нас
),
нужно только
ему объяснить, что значит “наши ожидания”
.
Автономная жизнь суперкомпьютеров
(Octotron:
гарантия и предсказуемость поведения
)

Суперкомпьютер должен быть в состоянии выполнять
самодиагностику и принимать решения полностью автономно
.
Более того
:
Чем больше суперкомпьютер
,
тем более автономным он должен быть…
Наши ожидания
Реальность
Модель
суперкомпьютера
Суперкомпьютер
Данные мониторинга
Автономная жизнь суперкомпьютеров
(Octotron:
гарантия и предсказуемость поведения
)

Как это можно сделать
?

Тотальный мониторинг над компонентами
HW&SW,
над инженерной
инфраструктурой
;

Для гарантии того, что “наши ожидания
=
реальности”:

формальная модель суперкомпьютера
(
модель – это граф
),

набор правил + набор реакций
как основа для Автономной жизни и контроля над суперкомпьютерами МГУ
:
Тренд: многие решения по контролю за состоянием HW&SW суперкомпьютеров
должны приниматься автоматически.
Разворачивание системы
,
Обнаружение ошибок
,
критических и аварийных ситуаций
,
Отключение
минимального объема оборудования
,
Самодиагностика
,
Обеспечение преемственности и т.п. – все это
должно делаться согласно модели суперкомпьютера.
-
“Чебышев”, 60
Tflops, 625 CPUs:
10 228
вершин
, 24 698
ребер
, 205 044
атрибутов,
160
правил
, 100
реакций
;
-
“Ломоносов”, 1.7
Pflops, 12K CPUs, 2K GPU:
116K+
вершин, 332К+ ребер, 2.4М+ атрибутов
.
Автономная жизнь суперкомпьютеров
(Octotron:
гарантия и предсказуемость поведения
)


Для гарантии того, что “наши ожидания
=
реальности”:

формальная
модель
суперкомпьютера
(
модель – это граф
),

набор правил
+
набор реакций
как основа для Автономной жизни суперкомпьютеров и контроля над их
функционированием.
Набор правил
описывает ситуации, требующие внимания.
Это опыт, важный для сопровождения многих СКЦ,
его нужно сохранить и использовать.
Опыт сопровождения СКЦ и коллективный банк
(
не хочу повторять ошибок: ни своих, ни чужих
)
Коллективный банк
особенностей сопровождения СКЦ.

Эффективность суперкомпьютерных центров
в эпоху тотального параллелизма:
а только ли с аппаратной частью сложности?

I.
Описание свойств и структуры алгоритмов: общая часть
(свойства, которые не зависят от архитектуры
компьютеров)
II.
Описание свойств и структуры алгоритмов: программная
реализация
(свойства, которые определяются реализацией,
технологией программирования и конкретной
вычислительной системой)
Описание свойств и структуры алгоритмов
(от мобильных платформ до экзафлопсных
суперкомпьютерных систем)
AlgoWiki
http://AlgoWiki-Project.org
http://AlgoWiki-Project.org
FFT
От
Top500 (Linpack)
– к
AlgoWiki
и оценке
эффективности суперкомпьютеров
на любом алгоритме!

Суперкомпьютерный консорциум университетов России
МГУ имени М.В.Ломоносова
Летняя Суперкомпьютерная Академия
23
июня –
4
июля,
2014
г.
Пленарные лекции ведущих зарубежных ученых и
специалистов,

6
параллельных учебных треков
,
система тренингов по различным направлениям
,
слушатели
:
от студентов до профессоров
.
http://academy.hpc-russia.ru
22
июня – 3 июля 2015 г.
http://RussianSCDays.org
МОСКВА,
28-29 сентября

Благодарю за внимание !
Воеводин Вл.В
.
voevodin@parallel.ru
31
марта, 2015 г., УрФУ, г.Екатеринбург
Суперкомпьютерный консорциум университетов России
Российская академия наук
Международная научная конференция
Параллельные вычислительные технологии


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©nethash.ru 2017
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал