Редактирование: Параллельная Обработка Данных, 09 лекция (от 30 октября)

Материал из eSyr's wiki.

Внимание: Вы не представились системе. Ваш IP-адрес будет записан в историю изменений этой страницы.

Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы изменения вступили в силу.

==CRAY C90==
Расчет максимальной пиковой производительности.
Как ее достичь?
Максимально задействовать векторные операции. Оп явл векторной. если дл яее выполнения используется векторная команда. Векторная команда выполняетя если компилятору удается выделить одинаковые операции над разными данными.
Пример:

DO i = 1,n

c(i) = A(i)+B(i)

END DO

Что бы понять, какие оп можно векторизовать, надо ввести понятие вектора
Вектор -- упорядоченный набор однотипных данных, все элементы которого размещены в памяти с одинаковым смещением друг относительно друга. Простейшим вектором является одномерный массив 
Векторами являются столбцы и сторки матрицы.
Встает задача поиска в программе векторизуемых участков. Необходимо отсутствие зависимости по данным.

DO i = 1,n

A(i) = funct (A(i), B(i))

END DO

В креях были предусмотрены спец комментарии, говорящие про такие куски есть ли в них зависимости или нет.
Операции программы
*векторизуемые
**компилятор может векторизовать
**компиятор не может векторизовать
*невекторизуемые
Есть программа состоит из частей, часть которых можно векторизовать, а часть нельзя, то в действие вступает знакомый нам закон Амдала. 
Итак, мешающие факторы
*Закон Амдала
*разгон конвейера
*секционирование векторных операций.

На хорошем цикле

DO i = 1,N

A(i)= B(i)*s + C(i)

EN DO

можно получить

N   	Mflops

1   	7

2   	14

16 	100.5

128 	433.7

129 	364.3 (влияние селекционирования)

256 	548

257 	491

8192 	802 Mflops

*конфликты в  памяти. Самое плохое -- шаг по памяти в 64.
Рассмотрим цикл

DO i = 1,Nxk, k

A(i) = B(i)*s + C(i)

END DO

Пусть N=1000

k	Mlops

1	705.2

2	444.6

4	274.6

64	22.6

Поэтому с шагом = 64 надо бороться. НО это не всегда просто. Рассмотрим пример
x[40][40][40]

DO i=1,n

DO j = 1,n

DO k = 1,n

x(i,j,k)= x(i,j,k)+P(k,i)*Y(k,j)

END DO

x(i,j,k) x(i,j,k+1) находятся в памяти не рядом, а на расстоянии 40*40 = 25*64.То есть производительность будет крайне маленькой. Поэтому лучше описать х как x[41][41][1000]. Небольшое дополнительной памятью мы расплачиваемся за значительно большую производительность.
Гораздо хуже если есть чтото вроде индексной адресации.

DO i = 1,n

x(IX(i))  = ... X(IX(i))

END DO

Далеко не всегда с конфликтами по памяти можно разобраться статитически и далеко не всегда компилятор может с этим разобраться.
*Ограниченная пропускная способность каналов процессор-память.

DO i=1,n

A(i) = B(i)*C(i)+D(i)

END DO

Надо считать три вектора, а канлов только два.

N	Mflops

10 	57

100	278.3

1000	435.3

12801	445.0

*необходимость использования векторных регистров

Пожалуйста, обратите внимание, что все ваши добавления могут быть отредактированы или удалены другими участниками. Если вы не хотите, чтобы кто-либо изменял ваши тексты, не помещайте их сюда.
Вы также подтверждаете, что являетесь автором вносимых дополнений, или скопировали их из источника, допускающего свободное распространение и изменение своего содержимого (см. eSyr's_wiki:Авторское право).
НЕ РАЗМЕЩАЙТЕ БЕЗ РАЗРЕШЕНИЯ ОХРАНЯЕМЫЕ АВТОРСКИМ ПРАВОМ МАТЕРИАЛЫ!

Описание изменений:

Отменить | Справка по редактированию (в новом окне)

Шаблоны, использованные на этой странице:

Получено с http://esyr.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%94%D0%B0%D0%BD%D0%BD%D1%8B%D1%85%2C_09_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D1%8F_%28%D0%BE%D1%82_30_%D0%BE%D0%BA%D1%82%D1%8F%D0%B1%D1%80%D1%8F%29

Редактирование: Параллельная Обработка Данных, 09 лекция (от 30 октября)

Материал из eSyr's wiki.

Просмотры

Личные инструменты

Навигация

инструменты

Разделы

Спецкурсы

9 семестр

7 семестр

5 семестр

3 семестр

Поиск

Инструменты

@@ Строка 1: / Строка 1: @@
-[[Параллельная Обработка Данных, 08 лекция (от 23 октября)|Предыдущая лекция]] | [[Параллельная Обработка Данных, 10 лекция (от 06 ноября)|Следующая лекция]]
 ==CRAY C90==
 Расчет максимальной пиковой производительности.
@@ Строка 7: / Строка 5: @@
 Пример:
- DO i = 1,n
+DO i = 1,n
-   c(i) = A(i)+B(i)
- END DO
+c(i) = A(i)+B(i)
+END DO
 Что бы понять, какие оп можно векторизовать, надо ввести понятие вектора
@@ Строка 16: / Строка 16: @@
 Встает задача поиска в программе векторизуемых участков. Необходимо отсутствие зависимости по данным.
- DO i = 1,n
+DO i = 1,n
-  A(i) = funct (A(i), B(i))
- END DO
+A(i) = funct (A(i), B(i))
+END DO
 В креях были предусмотрены спец комментарии, говорящие про такие куски есть ли в них зависимости или нет.
@@ Строка 34: / Строка 36: @@
 На хорошем цикле
- DO i = 1,N
+DO i = 1,N
-   A(i)= B(i)*s + C(i)
- END DO
+A(i)= B(i)*s + C(i)
+EN DO
 можно получить
-{|
+N   	Mflops
- !N
- !Mflops
+	7
- |-
- |1
+	14
- |7
- |-
+	100.5
- |2
- |14
+	433.7
- |-
- |16
+	364.3 (влияние селекционирования)
- |100.5
- |-
+	548
- |128
- |433.7
+	491
- |-
- |129
+	802 Mflops
- |364.3 (влияние селекционирования)
- |-
- |256
- |548
- |-
- |257
- |491
- |-
- |8192
- |802
- |}
 *конфликты в  памяти. Самое плохое -- шаг по памяти в 64.
 Рассмотрим цикл
- DO i = 1,Nxk, k
+DO i = 1,Nxk, k
-   A(i) = B(i)*s + C(i)
- END DO
+	A(i) = B(i)*s + C(i)
+END DO
 Пусть N=1000
-{|
+k	Mlops
- !k
- !Mflops
+	705.2
- |-
- |1
+	444.6
- |705.2
- |-
+	274.6
- |2
- |444.6
+	22.6
- |-
- |4
- |274.6
- |-
- |64
- |22.6
- |}
 Поэтому с шагом = 64 надо бороться. НО это не всегда просто. Рассмотрим пример
 x[40][40][40]
- DO i=1,n
+DO i=1,n
-   DO j = 1,n
-     DO k = 1,n
+	DO j = 1,n
-       x(i,j,k)= x(i,j,k)+P(k,i)*Y(k,j)
-     END DO
+		DO k = 1,n
-   END DO
- END DO
+			x(i,j,k)= x(i,j,k)+P(k,i)*Y(k,j)
+		END DO
+	END DO
+END DO
 x(i,j,k) x(i,j,k+1) находятся в памяти не рядом, а на расстоянии 40*40 = 25*64.То есть производительность будет крайне маленькой. Поэтому лучше описать х как x[41][41][1000]. Небольшое дополнительной памятью мы расплачиваемся за значительно большую производительность.
 Гораздо хуже если есть чтото вроде индексной адресации.
- DO i = 1,n
+DO i = 1,n
-   x(IX(i))  = ... X(IX(i))
- END DO
+	x(IX(i))  = ... X(IX(i))
+END DO
 Далеко не всегда с конфликтами по памяти можно разобраться статитически и далеко не всегда компилятор может с этим разобраться.
-* Ограниченная пропускная способность каналов процессор-память.
+*Ограниченная пропускная способность каналов процессор-память.
- DO i=1,n
+DO i=1,n
-   A(i) = B(i)*C(i)+D(i)
- END DO
+A(i) = B(i)*C(i)+D(i)
+END DO
 Надо считать три вектора, а канлов только два.
-{|
+N	Mflops
- !N
- !Mflops
- |-
- |10
- |57
- |-
- |100
- |278.3
- |-
- |1000
- |435.3
- |-
- |12801
- |445.0
- |}
-*необходимость использования векторных регистров
+	57
-{{Параллельная Обработка Данных}}
+	278.3
-{{Lection-stub}}
+	435.3
+	445.0
+*необходимость использования векторных регистров