Инновации. Наука. Образование
подзадач, поэтому GPU можно использовать не только для ускорения графики, но и для
ускорения численного моделирования.
Адаптировать коды, оптимизированные для CPU, для графических процессоров не
всегда просто. Например, методы маскирования задержки, используемые в этих двух
архитектурах, сильно различаются: процессоры обычно имеют глубокую и хорошо
подготовленную иерархию кэша наряду со сложной логикой выполнения вне очереди.
Графические процессоры, с другой стороны, имеют гораздо более простые ядра с очень
большими регистровыми файлами, способными быстро переключаться между десятками
доступных контекстов, чтобы маскировать большие задержки в памяти.
Одним из следствий этого является то, что графическим процессорам обычно
требуется как минимум одновременные задачи для насыщения одного графического
процессора, в то время как CPU исторически требовали, чтобы только задачи были
подписаны одновременно на узел. Эта существенная разница может привести к
значительному снижению производительности для методов, которые могут иметь
достаточный параллелизм для хорошей работы в системах на основе CPU, но не могут
насытить графические процессоры.
Архитектура Maxwell продолжает развитие технологий, заложенных в архитектуре
Fermi, несмотря на то, что более современной является архитектура Kepler. Несмотря на
устаревающий 28нм техпроцесс и уменьшение количества CUDA ядер, отвечающих за
скорость параллельных вычислений, инженерам NVIDIA удалось создать новую
архитектуру, опережающую по всем параметрам архитектуру предыдущего поколения.
Произошло существенное понижение потребления электроэнергии и тепловыделения не
только без потери производительности, но и с её увеличением!
Максимальное ускорение S, которое можно получить от распараллеливания
программы на N процессоров (ядер CPU), дается законом Амдала:
,
где Р - это часть времени выполнения программы, которая может быть
распараллелена на N процессоров. Легко видеть, что, при неограниченном увеличении
числа процессоров максимальное ускорение S программы за счет параллельного
исполнения ее кода стремится к 1/(1-P) [1, c.243].
954
Научный журнал «Инновации. Наука. Образование»
Индексация в РИНЦ
н
Достарыңызбен бөлісу: |