CSA Home Page
| "Dhrystone 1.1" |
"Livermore Benchmarks" |
В данном разделе мы попытались оценить производительность
машин суперкомпьютерного кластера при помощи имеющегося у нас
набора тестов. Для получения сравнительных данных те-же тесты
были скомпилированы и выполнены на ряде других компьютеров.
Результаты тестов представлены в виде таблицы. Для каждой
тестируемой машины кроме названия представлены тип и число
основных процессоров, участвующих в выполнении задачи, а также
тип и версия операционной системы, используемый компилятор и
режимы оптимизации.
Режимы оптимизации:
- no - оптимизация отсутствует
- O0 - скалярная оптимизация базовых блоков
- O1 - скалярная оптимизация функций
- O2 - векторная оптимизация
- O3 - параллельная оптимизация
Обозначением PCкс отмечены многочисленные персональные
компьютеры "красной сборки" не имеющие другого наименования.
Перейти
| К предыдущему разделу |
К следующему разделу |
Используемый тест относится к семейству синтетических тестов
Dhrystone и основан на вычислении скорости обработки
типично-распределенного набора языковых конструкций. В состав
теста включено 12 модулей, представляющих различные типовые
режимы обработки. Поскольку тесты семейства Dhrystone
предназначены скорее для оценки производительности конкретных
видов компиляторов и операционных систем, то по полученным
результатам довольно трудно оценить сравнительную
производительность различных компьютеров, тем более компьютеров
созданных на базе принципиально разных платформ. Тем не менее
пользователь может сделать некоторые выводы основываясь на
представленных нами результатах.
В тесте отсутствует обработка чисел с плавающей запятой и
преобладают операции над такими типами данных, как символы,
строки, логические переменные, указатели и т.п. По сравнению
с циклами Whetstone здесь уменьшено количество используемых
циклов, но возросло число операций IF и вызовов процедур.
Тестовые процедуры Dhrystone объединены в один вычислительный
цикл, состоящий из 103-х операторов в C-версии, который и принят
за единицу работы (Dhrystone). Производительность определяется
количеством циклов Dhrystone выполненных за секунду.
(Dhrystones/s).
Тест Dhrystone дает высокую нагрузку на кэш инструкций
процессора, что позволяет проследить влияние принципиальных
особенностей тестируемых процессоров, как то: эффективность
предсказания переходов и замещения кэша инструкций.
Структура цикла Dhrystone ориентирована на обработку локальных
переменных, что снижает влияние эффективности обмена данными
между процессором и памятью, но повышает влияние способности
конкретного компилятора и конкретного процессора оптимизировать
работу с локальными переменными.
Во избежание некорректной оптимизации кода к исходному тексту
добавлялся модуль вывода используемых переменных, что
позволяло избежать ситуации "мертвого кода", предсказанной
автором теста Рейхольдом Вейнером. В исходный текст основного
цикла Dhrystone изменений не вносилось.
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + O0 + O1 + O2 - 71530 dhr/s
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + O0 + O1 - 70721 dhr/s
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + O0 - 69252 dhr/s
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + no - 63131 dhr/s
- PCкс, Pentium-100,
Windows 95 V4.00.950,
Turbo C V1.00 + O0 - 50000 dhr/s
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + O3 - 48780 dhr/s
- PCкс, i486DX2-66,
SCO Unix V3.2,
cc + O0 - 43055 dhr/s
- PCкс, i486DX2-66,
SCO Unix V3.2,
cc + no - 34458 dhr/s
- Packard Bell, i486DX2-66,
MS DOS V6.20,
Turbo C V1.00 + O0 - 30000 dhr/s
- PCкс, i486SLC2-66,
SCO Unix V3.2,
cc + O0 - 28464 dhr/s
- PCкс, i486SLC2-66,
SCO Unix V3.2,
cc + no - 23230 dhr/s
- CONVEX C-120, C-120,
ConvexOS V10,
cc + O0 + O1 + O2 - 13805 dhr/s
- PCкс, i386DX-40,
MS DOS V6.20,
Turbo C V1.00 + O0 - 12500 dhr/s
- CONVEX C-120, C-120,
ConvexOS V10,
cc + O0 + O1 - 11815 dhr/s
- CONVEX C-120, C-120,
ConvexOS V10,
cc + O0 - 11005 dhr/s
- CONVEX C-120, C-120,
ConvexOS V10,
cc + no - 10391 dhr/s
- PCкс, i386SX-40,
MS DOS V6.20,
Turbo C V1.00 + O0 - 8958 dhr/s
- ЕС-1066,
СВМ,
C - 4587 dhr/s
Перейти
| К предыдущему разделу |
К следующему разделу |
Ливерморские тесты (Livermore Loops или Lawrence Livermore
Loops) были разработаны в конце 70-х годов доктором Макмагоном
(F.H.McMahon) в Ливерморской национальной физической лаборатории.
Первоначально эти тесты предназначались для оценки
производительности суперкомпьютеров CRAY, однако вскоре они стали
использоваться и для оценок производительности других
компьютерных систем.
Автором тестов были выбраны 18 наиболее представительных
циклических процедур обработки чисел с плавающей точкой,
встречающиеся в вычислительных задачах ядерной физики.
Позднее число циклов было доведено до 24.
В данном случае производительность считается отдельно по каждому
циклу. Результаты всех тестов представляются в единицах "мегафлоп
в секунду". Удобно что пользователь может сам выбирать наиболее
интересное для него подмножество результатов.
Следует отметить что представленные тесты не являются в чистом
виде Ливерморским набором, а составлены на основе описания
алгоритма используемых в нем циклов. Другое отличие от настоящих
Ливерморских циклов состоит в том, что исходным языком
является язык C, в то время как настоящие Ливерморские тесты
написаны на языке FORTRAN, что, кстати отражено в их
альтернативном названии Фортран-ядра. Тем не менее представленные
тесты вполне пригодны для оценки относительной скорости
выполнения соответствующих процедур и алгоритмов.
На сегодняшний день в суперкомпьютерном центре получены
результаты производительности по следующим тестам:
- Тест на сложение и перемножение векторов
- Тест на перемножение векторов
Перейти
| К предыдущему разделу |
К следующему разделу |
- CONVEX C-3440, 4 x C-3440,
ConvexOS V11.1,
cc + O0 + O1 + O2 + O3 - 409.06 Mflops
- CONVEX C-3440, 4 x C-3440,
ConvexOS V11.1,
cc + O0 + O1 + O2 - 251.80 Mflops
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + O0 + O1 + O2 + O3 - 145.32 Mflops
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + O0 + O1 + O2 - 144.91 Mflops
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + O0 + O1 - 29.71 Mflops
- CONVEX C-120, C-120,
ConvexOS V10.1,
cc + O0 + O1 + O2 - 21.88 Mflops
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + O0 - 13.09 Mflops
- CONVEX C-3440, 4 x C-3440,
ConvexOS V11.1,
cc + O0 + O1 - 10.35 Mflops
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + no - 7.49 Mflops
- PCкс, i486DX2-66,
SCO Unix V3.2,
cc + O0 - 6.25 Mflops
- CONVEX C-3440, 4 x C-3440,
ConvexOS V11.1,
cc + O0 - 5.53 Mflops
- PCкс, i486DX2-66,
SCO Unix V3.2,
cc + no - 4.94 Mflops
- CONVEX C-3440, 4 x C-3440,
ConvexOS V11.1,
cc + no - 4.52 Mflops
- CONVEX C-120, C-120,
ConvexOS V10.1,
cc + O0 + O1 - 3.1 Mflops
- CONVEX C-120, C-120,
ConvexOS V10.1,
cc + O0 - 1.61 Mflops
- CONVEX C-120, C-120,
ConvexOS V10.1,
cc + no - 1.04 Mflops
Перейти
| К предыдущему разделу |
К следующему разделу |
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + O0 + O1 + O2 - 157.46 Mflops
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + O0 + O1 + O2 + O3 - 106.89 Mflops
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + O0 + O1 - 55.85 Mflops
- CONVEX C-3440, 4 x C-3440,
ConvexOS V11.1,
cc + O0 + O1 + O2 + O3 - 53.00 Mflops
- CONVEX C-3440, 4 x C-3440,
ConvexOS V11.1,
cc + O0 + O1 + O2 - 44.33 Mflops
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + O0 - 28.42 Mflops
- CONVEX C-3440, 4 x C-3440,
ConvexOS V11.1,
cc + O0 + O1 - 23.89 Mflops
- CONVEX C-3820, 2 x C-3820,
ConvexOS V11.1,
cc + no - 15.21 Mflops
- CONVEX C-3440, 4 x C-3440,
ConvexOS V11.1,
cc + O0 - 14.81 Mflops
- CONVEX C-3440, 4 x C-3440,
ConvexOS V11.1,
cc + no - 10.77 Mflops
- PCкс, i486DX2-66,
SCO Unix V3.2,
cc + no - 10.62 Mflops
- PCкс, i486DX2-66,
SCO Unix V3.2,
cc + no - 9.79 Mflops
Webmaster
Дата последнего обновления: 05-Mar-1999 |