Редактирование: Параллельная Обработка Данных, 05 лекция (от 02 октября)

Материал из eSyr's wiki.

Перейти к: навигация, поиск

Внимание: Вы не представились системе. Ваш IP-адрес будет записан в историю изменений этой страницы.

Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы изменения вступили в силу.

Текущая версия Ваш текст
Строка 2: Строка 2:
== Рекомендуемая литература ==
== Рекомендуемая литература ==
-
* В. В. Воеводин, Вл. В. Воеводин, «Параллельные вычисления», издательство БХВ Петербург
+
* В. В. Воеводин, Вл. В. Воеводин, «Паралельные вычисления», издательство БХВ Петербург
В основном рассказывать лектор будет по книге. Если появляется что-то новое, то будут использоваться другие материалы. Если изменяются только количественные характеристики, то это тоже будет отмечаться. Все новое отображается на [http://parallel.ru parallel.ru].
В основном рассказывать лектор будет по книге. Если появляется что-то новое, то будут использоваться другие материалы. Если изменяются только количественные характеристики, то это тоже будет отмечаться. Все новое отображается на [http://parallel.ru parallel.ru].
Строка 22: Строка 22:
==== HP SuperDome ====
==== HP SuperDome ====
-
Рассмотрим подробнее HP SuperDome. Он появился в 2000 году, архитектура ccNUMA, до 64 CPU. Архитектура оказалась очень удачной, причем он был одним из первых себе подобных. Вскоре 140 из 500 позиций в [http://www.top500.org/ TOP500] были построены на нём.
+
Рссмотрим подробнее HP SuperDome. Он появился в 2000 году, архитектура ccNUMA, до 64 CPU. Архитектура оказалась очень удачной, причем он был одним из первых себе подобных. Вскоре 140 из 500 позиций в [http://www.top500.org/ TOP500] были построены на нём.
Основное понятие данного компьютера — вычислительная ячейка. Сейчас идет с процессорами PA-8700, 8900, но готова к IA64 и сейчас большинство инсталляций с Intel Itanium II.
Основное понятие данного компьютера — вычислительная ячейка. Сейчас идет с процессорами PA-8700, 8900, но готова к IA64 и сейчас большинство инсталляций с Intel Itanium II.
-
Скорость обмена данными между контроллером и процессорами и банками памяти&nbsp;— 2 гб/сек, с внешним миром&nbsp;— 8 гб/сек. CCP разрешает контроллер вычислительной ячейки. <!-- В целом каждой ячека&nbsp;— честный ICMP компьютер. -->
+
Скорость обмена данными между контроллером и процессрами и банками памяти&nbsp;— 2 гб/сек, с внешним миром&nbsp;— 8 гб/сек. CCP разрешает контроллер вычислительной ячейки. <!-- В целом каждой ячека&nbsp;— честный ICMP компьютер. -->
Процессоры PA8700, 750 MHz. 10 функциональных устройств, суперскалярный, выполняет до 4 операций за такт. Пиковая производительность одного процессора&nbsp;— 3 GFlops. Пиковая производительность всего компьютера&nbsp;— 192 GFlops. Но реальная производительность намного ниже. Рассмотрение каждой архитектуры мы будем заканчивать выписывая причины, по которым отличаются реальная и пиковая производительности.
Процессоры PA8700, 750 MHz. 10 функциональных устройств, суперскалярный, выполняет до 4 операций за такт. Пиковая производительность одного процессора&nbsp;— 3 GFlops. Пиковая производительность всего компьютера&nbsp;— 192 GFlops. Но реальная производительность намного ниже. Рассмотрение каждой архитектуры мы будем заканчивать выписывая причины, по которым отличаются реальная и пиковая производительности.
Строка 37: Строка 37:
===== Причины =====
===== Причины =====
-
# Закон Амдала (10 процентов последовательные операции, 90 процентов параллельные. При увеличении количества процессоров уменьшается время на исполнение параллельных операций. Значит, больше чем в 10 раз ускорения не будет никогда) Для реальных программ закон Амдала очень важен. Все прикладные программы не полностью распараллеливаются (всегда есть ввод-вывод, инициализация, и&nbsp;т.&nbsp;п.). И именно эта доля последовательных операций определяет потенциальное ускорение.
+
# Закон Омдала (10 процентов последовательные операции, 90 процентов параллельные. При увеличении количества процессоров уменьшается время на исполнение параллельных операций. Значит, больше чем в 10 раз ускорения не будет никогда) Для реальных программ закон Омдала очень важен. Все прикладные программы не полностью распараллеливаются (всегда есть ввод-вывод, инициализация, и&nbsp;т.&nbsp;п.). И именно эта доля последовательных операций определяет потенциальное ускорение.
-
# ccNUMA. Акцент на NUMA. Если программа устроена хорошо и обладает свойствами локальности, то это хороший вариант, но далеко не всегда бывает так (работа с разреженными матрицами, например)
+
# ccNUMA. Акцент на NUMA. Если программа устроена хорошо и обладает свойствами локальности, то это хороший вариант, но далеко не всегда бывает так (работа с разреженными матриами, например)
# ccNUMA. Акцент на сс. Решение CCP тоже забирает время.
# ccNUMA. Акцент на сс. Решение CCP тоже забирает время.
-
# Балансировка вычислительной нагрузки.
+
# Блансировка вычислительной нагрузки.
-
Если напишем программу, у которой ускорение при распараллеливании в 50%&nbsp;— зачет поставят сразу. //Не на ассемблере, без использования специальных библиотек.
+
Если напишем программу, у которой ускорение при распараллеливании в 50%&nbsp;— зачет поставят сразу. //Не на ассембелере, без использования специальных библиотек.
Это были компьютеры с общей памятью.
Это были компьютеры с общей памятью.
Строка 48: Строка 48:
== Компьютеры с распределенной памятью ==
== Компьютеры с распределенной памятью ==
-
Большой класс систем. Общую схему мы разбирали, она незатейлива. Есть некоторая коммуникационная среда, к которой подключено какое-то кол-во вычислительных устройств, под каждым из которых может быть либо компьютер, либо процессор, либо система с общей памятью. Важно, что у каждого узла есть своя память. При запросе к памяти идет запрос в коммуникационную среду. Такие компьютеры начали активно развиваться с начала 90 годов.Надо было иметь гибкую архитектуру, так чтобы в зависимости от нужд и бюджета пользователи моги бы подбирать нужную им конфигурацию.(Одинаковая архитектура дл 2 и 200 процессоров). Массивно-параллельные вычислительные системы, вычислительные системы с массовым параллелизмом. По большому счету все системы отличаются в двух вещах -- как устроена коммуникационная среда, и что вместо вычислительного узла.
+
Большой класс систем. Общую схему мы разбирали, она незатейлива. Есть некоторая коммуникационная среда, к которой подключено какое-то кол-во выч. устройств, под каждым из которых может быть либо компьютер, либо процессор, либо система с общей памятью. Важно, что у каждого узла есть своя память. При запросе к памяти идет запрос в коммуникационную среду. Такие компы начали активно развиваться с начала 90 годов.Надо было иметь гибкую архитектуру, так чтобы в зависимости от нужд и бюджета пользователи моги бы подбирать нужную им конфигурацию.(Одинаковая архитектура дл 2 и 200 процессоров). Массивно-паралельные выч системы, выч системы с массовым параллелизмом. По большому счету все системы отличаются в двух вещах -- как устроена коммуникациоая среда, и что вместо выч узла.
-
Один из первых таких компьютеров - комп от Intel - Intel Paragon.
+
Один из первых таких компьютеров - комп от интела
-
*Коммуникационная среда -- прямоугольная решетка, в каждом узле решетки процессор.Каждый процессор может общаться с непосредственными соседями. Угловые узлы были ущербными -- неудобно, несимметрично.
+
Intel Paragon.
-
*Процессор i860
+
*Ком среда -- прямоугольная решетка, в каждом узле решетки проессор.Каждый процессор может общаться с непосредственными соседями. Угловые узлы были ущербными -- неудобно, несимметрично.
 +
*Процессор i860/
Макс конфигурация примерно 1800 процессоров.
Макс конфигурация примерно 1800 процессоров.
Другой вариант
Другой вариант
IBM SP 1/2
IBM SP 1/2
-
*Коммуникационная среда:Несколько процессоров связаны между собой при помощи высокопроизводительного коммутатора, потенциально обеспечивалась связь каждого с каждым. Системы были из сотен процессоров. Центральная часть естественно коммутатор.
+
*Ком среда:Несколько процессоров связаны между собой при помощи высокопроизводительного коммутатора, потенциально обеспечивалась связь каждого с каждым. Системы были из сотен процессоров. Центральная часть естественно коммутатор.
-
*Узел: PowerPC, Power3. Сейчас выпустили уже Power 6. В каждом узле есть своя локальная память, данных лежащих вовне он не видит, для запроса таких данных формируется пакет и получает данные через коммуникационную среду. Но даже через коммутатор -- надо время чтобы установить связь. То есть невыгодно общаться с разными. К тому же коммутатор был очень дорогой.
+
*Узел: PowerPC, Power3. Сейчас выпустили уже Power 6. В каждом узле есть своя локал память, данных лежащих вовне он не видит, для запроса таких данных формируется пакет и получает данные через коммуникационную среду. Но даже через коммутатор -- надо время чтобы установить связ. То есть невыгодно общаться с разными. К тому же коммутатор был очень дорогой.
Мы архитектуру компьютера будем разбирать на примере Cray T3D/T3E. Сейчас используют элементную базу XT3, XT4.
Мы архитектуру компьютера будем разбирать на примере Cray T3D/T3E. Сейчас используют элементную базу XT3, XT4.
{{Параллельная Обработка Данных}}
{{Параллельная Обработка Данных}}

Пожалуйста, обратите внимание, что все ваши добавления могут быть отредактированы или удалены другими участниками. Если вы не хотите, чтобы кто-либо изменял ваши тексты, не помещайте их сюда.
Вы также подтверждаете, что являетесь автором вносимых дополнений, или скопировали их из источника, допускающего свободное распространение и изменение своего содержимого (см. eSyr's_wiki:Авторское право).
НЕ РАЗМЕЩАЙТЕ БЕЗ РАЗРЕШЕНИЯ ОХРАНЯЕМЫЕ АВТОРСКИМ ПРАВОМ МАТЕРИАЛЫ!

Личные инструменты
Разделы