Amd ryzen threadripper 1900x обзор


Ryzen™ Threadripper™ 1900X Processor | AMD

Unrestrained performance. Overwhelming power.

Explore the packaging of the new AMD Ryzen™ Threadripper processor.

Step by step video to learn how to successfully install your new Ryzen™ Threadripper Processor.

With AMD SenseMI technology, Ryzen™ processors use true machine intelligence to accelerate performance.‡

Learn more

For the best possible VR experiences, AMD offers select Ryzen™ VR-Ready Premium processors. 

Learn more

Pure. Virtualized. Graphics.

Learn more

Accelerate your PC with Faster, Smarter, Easier storage technology. Exclusively for AMD Ryzen™ desktop processors†

Learn more Specifications Windows 10 - 64-Bit Edition *Operating System (OS) support will vary by manufacturer. System Memory System Memory Specification Key Features AMD Ryzen™ VR-Ready Premium Enmotus FuzeDrive™ for AMD Ryzen™ XFR (Extended Frequency Range) Foundation AMD Ryzen™ Threadripper™ Processors

† Testing by AMD Performance labs as of 12/21/2017 on the following system. PC manufacturers may vary configurations yielding different results. Results may vary based on driver versions used. System Configs:  AMD Ryzen 5 1600X, GA-AX370 AORUS Gaming 5 motherboard, 16GB of dual-channel DDR3-3200,  Graphics driver 23.20.768.0 (17.40), and a Seagate Barracuda 500GB boot drive.  When Enmotus FuzeDrive was enabled, a Samsung 950 PRO NVMe drive was added to the drive pool. Without Enmotus FuzeDrive for Ryzen, the system took 28.611 seconds to complete a boot to Windows via Explorer; 21.421 seconds to initialize SMSS; 2.274 seconds to initialize the Windows Logon; 56.04 seconds to launch Adobe Premiere; 59.27 seconds to launch Adobe Photoshop; and 85.09 seconds to launch DOOM®. With Enmotus FuzeDrive for Ryzen enabled, the system took 10.534 seconds to complete a boot to Windows via Explorer (28.611/10.534=272%, or 172% faster); 3.926 seconds to initialize SMSS (21.421/3.926=546%, or 446% faster); 1.461 seconds to initialize the Windows Logon (2.274/1.461=156%, or 56% faster); 8.27 seconds to launch Adobe Premiere (56.04/8.27=678%, or 578% faster); 5.75 seconds to launch Adobe Photoshop (59.27/5.75=1031%, or 931% faster); and 38.77 seconds to launch DOOM (59.27/38.77=219%, or 119% faster). RZN-116

‡ AMD SenseMI technology is built into all Ryzen™ processors, but specific features and their enablement may vary by product and platform.  For specific capabilities of different processor models, visit www.amd.com/ryzenspecs. If your system is pre-built, contact your manufacturer for additional information. 

www.amd.com

Обзор процессоров AMD Ryzen Threadripper 1950X и 1920X: превентивный ядерный удар

То, какое решительное наступление смогла развить за короткий срок компания AMD на процессорном рынке, действительно поражает. С марта, когда были представлены первые процессоры Ryzen, основанные на новой микроархитектуре Zen, прошло всего пять месяцев. Но за это время компания презентовала не просто полноценный модельный ряд массовых десктопных процессоров стоимостью от $100 до $500, но и всю сопутствующую экосистему.

Это кажется тем более удивительным, потому что первоначально вывод процессоров Ryzen 7 на рынок производил впечатление плохо подготовленного и поспешного проекта. Материнские платы и кулеры были в дефиците, совместимость со скоростной DDR4-памятью оставляла желать лучшего. Вызывал серьёзные недовольства и низкий уровень производительности, который новые процессоры показывали в целом ряде приложений, особенно игровых. Однако все эти «детские» проблемы компании AMD удалось быстро и эффективно устранить. Тесная работа с партнёрами привела к тому, что ассортимент материнских плат для Ryzen стал весьма обширен, а популярные системы охлаждения быстро получили необходимую совместимость с Socket AM4. Решены были и многие вопросы, связанные с производительностью. Выпуск оптимизированного профиля управления питанием для Windows 10 смог снизить время реакции процессоров при малопоточной нагрузке, а обновления внутренних библиотек AGESA позволили поднять эффективность контроллера памяти и придать ему значительно более широкие возможности работы с различными скоростными модулями DDR4 DIMM.

В результате достаточно быстро платформа Socket AM4 превратилась из экспериментального продукта с неясными перспективами в весьма соблазнительный вариант для тех потребителей, которые ищут выгодные многоядерные решения с хорошим сочетанием цены и производительности. И такое предложение уже успели по достоинству оценить многие энтузиасты. Популярность процессоров Ryzen стала быстро расти.

Но AMD не останавливается на достигнутом. Предложив вполне конкурентоспособное решение для массового рынка, компания задумала замахнуться на сегмент, в который она не заглядывала последние лет десять – на процессоры для десктопов премиального уровня – HEDT (High-End Desktop). Как оказалось, новая микроархитектура Zen может прекрасно подойти и для таких продуктов, ведь она предлагает достойную удельную производительность, которая хорошо раскрывается в приложениях для создания и обработки цифрового контента. И, более того, ядра Zen легко собираются в крупные кластеры, позволяя без обременительных накладных расходов создавать процессоры с большим числом вычислительных ядер.

Именно эти особенности Zen и сподвигли AMD на создание Ryzen Threadripper – новой элитарной платформы, в рамках которой будут существовать в два раза более мощные по сравнению с обычными Ryzen процессоры, способные предоставить пользователям до 16 вычислительных ядер, работающих на сравнительно высоких тактовых частотах. Это, безусловно, недешёвый и нишевый проект, и, судя по всему, с его помощью компания не планирует бить рекорды продаж, а собирается решать несколько иную задачу стратегического характера. Ryzen Threadripper должен показать общественности, что AMD действительно вернулась в высшую лигу процессорного рынка и ей вполне по силам создание процессоров, способных превосходить интеловские чипы в любом сегменте.

С этой точки зрения момент для выпуска Ryzen Threadripper оказался выбран очень удачно. На данный момент в модельном ряду интеловских HEDT-процессоров происходит смена архитектур, и отсутствуют модели с числом ядер более десяти. В результате у AMD появился реальный шанс на некоторое время перехватить статус разработчика, предлагающего самые быстрые процессоры для настольных компьютеров. В данном обзоре мы проверим, смогла ли AMD воспользоваться открывшейся возможностью и заинтересуют ли новые процессоры Ryzen Threadripper энтузиастов высокой производительности, традиционно отдававших предпочтение процессорам серии Intel Core Extreme Edition.

⇡#Особенности конструкции Ryzen Threadripper

Стремление компании AMD попасть в сегмент высокопроизводительных настольных систем (HEDT) трудно назвать неожиданным. Коль скоро в её распоряжении появилась конкурентоспособная микроархитектура, которая позволяет проектировать не только десктопные, но и серверные решения, попытка оккупировать настольные компьютеры премиального класса – само собой разумеющийся следующий шаг. Intel уже многие годы занимается тем, что для сегмента HEDT адаптирует свои серверные CPU, и это даёт нормальные результаты и не кажется чем-то противоестественным. У AMD же теперь тоже есть очень достойные процессоры EPYC, ориентированные на дата-центры, поэтому логично, что компания решила попытаться сделать на их основе решения, которые могут заинтересовать  любителей и профессионалов,нуждающихся в высоких вычислительных мощностях.

Впрочем, сразу же следует отметить, что подход у AMD в отношении высокопроизводительной платформы не совсем такой, как у Intel. В то время как микропроцессорный гигант действительно использует для своих процессоров Core i9 полностью аналогичную серверным CPU полупроводниковую базу, Ryzen Threadripper и EPYC имеют между собой много меньше общего. Но связано это не с тем, что инженеры AMD решили заняться проектированием специальных полупроводниковых чипов для энтузиастов, а с тем, что AMD проповедует в принципе иной подход к построению продуктов разных классов.

Действительно, основой любых современных процессоров с микроархитектурой Zen выступает один и тот же восьмиядерный полупроводниковый кристалл Zeppelin, в котором содержится два CCX – четырёхъядерных CPU-комплекса. Этот кристалл используется во всех Ryzen с числом ядер от четырёх до восьми, что может даже показаться неким расточительством, однако на самом деле им не является, ведь должна же AMD иметь возможность куда-то реализовывать полупроводниковые кристаллы с браком. Zeppelin лежит и в основе серверных EPYC с числом ядер до 32, где такие кристаллы комбинируются на одной процессорной плате в кластеры по четыре штуки.

Ryzen Threadripper с точки зрения базовой конструкции представляет собой нечто среднее между EPYC и обычным Ryzen. Такие процессоры для энтузиастов высокой производительности должны иметь до 16 вычислительных ядер, так что для их сборки достаточно двух кристаллов Zeppelin. Поэтому в действительности Threadripper – это, грубо говоря, и есть двухпроцессорная система из пары Ryzen, собранная на единой процессорной подложке и выглядящая как один цельный процессор.

Однако на самом деле на уровне физического исполнения это не совсем так. Для того чтобы упростить себе жизнь и не тратиться на организацию производства хоть и дорогостоящих, но всё же нишевых продуктов, AMD решила по возможности унифицировать Ryzen Threadripper с серверными EPYC. В конечном итоге они очень похожи внешне, и для них используется процессорное гнездо с одинаковой конфигурацией и 4096 контактами. Более того, как показали эксперименты со вскрытием крышки на образцах процессоров Ryzen Threadripper, внутри у них находится не по два, а по четыре полупроводниковых кристалла – точно так же, как и у новых серверных CPU компании AMD. Но это всё же не означает, что Threadripper – это производная от EPYC. Два «лишних» кристалла внутри этого процессора представляют собой простые полупроводниковые болванки, и они нужны лишь для правильного распределения механических усилий на процессорную сборку при её установке в сокете.

AMD Ryzen Threadripper со снятой крышкой. Фото Der8auer

В конечном итоге, Ryzen Threadripper – это не урезанный EPYС, а просто его половина, сделанная из двух кристаллов Zeppelin. Это прослеживается во всех характеристиках, включая число ядер, объём кеш-памяти, количество каналов DDR4 SDRAM, возможности расширения и проч. Кроме того, в Threadripper нет никаких сугубо серверных штук вроде встроенного аппаратного криптографического движка и поддержки регистровой памяти. То есть, данный процессор, как и обычные Ryzen, ориентирован на потребительский сегмент.

Использование двух кристаллов Zeppelin означает, что внутри Ryzen Threadripper используется четыре CCX-комплекса, в каждом из которых имеется по 8 Мбайт разделяемой кеш-памяти. В сумме это даёт 32-мегабайтный L3-кеш, что ровно вдвое больше, чем предлагается в обычных Ryzen.

Помимо 16 вычислительных ядер Ryzen Threadripper может предложить четырёхканальный контроллер памяти с официальной поддержкой DDR4-2667 (здесь, как и раньше, есть определённые нюансы, касающиеся разной максимальной скорости с модулями DDR4 разной организации).

КаналыРанги DRAMDIMM на каналЧисло DIMMСкорость
Четыре канала Одноранговая 1 4 из 8 DDR4-2667
Четыре канала Одноранговая 2 8 из 8 DDR4-2133
Четыре канала Двухранговая 1 4 из 8 DDR4-2400
Четыре канала Двухранговая 2 8 из 8 DDR4-1866

Естественно, поддерживается и разгон модулей DDR4 SDRAM выше номинальных частот. К настоящему моменту компании AMD удалось отладить работу своего контроллера памяти, поэтому проблем несовместимости отдельных модулей с процессорами Ryzen Threadripper уже быть не должно. Фактически можно рассчитывать на то, что контроллер памяти в новых HEDT-процессорах работает так же, как контроллер в Ryzen после обновления библиотек AGESA до версии 1.0.0.6.

Общий объём памяти, который теоретически может адресовать Threadripper, достигает 2 Тбайт. Однако за неимением в данный момент на рынке небуферизированных модулей DDR4 SDRAM объёмом более 16 Гбайт, получить в системе на базе Ryzen Threadripper более 128 Гбайт не выйдет. Кроме того, не следует забывать и об ограничениях со стороны операционной системы. Более 128 Гбайт памяти, например, не поддерживается в Windows 10 Home, а версии Pro и Enterprise не могут работать с объёмами памяти более 512 Гбайт.

Подобным образом дело обстоит и с линиями PCI Express. EPYC в общей сложности имеют 128 линий PCI Express, а процессоры Threadripper предлагают вдвое меньше – до 64 линий PCI Express, которые могут дробиться или собираться произвольным образом. В то же время существует лишь единственное ограничение: общее число PCIe-устройств (видеокарт, NVMe-накопителей и проч.), подключенных к Threadripper, не должно превышать восьми штук. Правда, одно PCIe x4-устройство в системах на базе Ryzen Threadripper есть всегда – это набор логики X399, поэтому пользователю в конечном итоге достаётся 60 линий PCI Express, которые можно поделить на семь устройств.

При этом на работу памяти и PCIe-устройств определённый отпечаток накладывает двухкомпонентное строение Ryzen Threadreaper. Поддержка четырёхканальной памяти и шины PCI Express в данном случае не совсем такая, как в HEDT-процессорах Intel, где применяется монолитный полупроводниковый базис. У AMD она оказывается не равномерной, а распределённой по двум кристаллам Zeppelin. Четырёхканальный контроллер памяти в Ryzen Threadripper на самом деле представляет собой два независимых двухканальных контроллера DDR4 SDRAM, а работа 64 линий PCI Express обеспечивается двумя корневыми хабами PCI Express, которые физически находятся в разных кристаллах.

Но даже несмотря на всё это, думать о Ryzen Threadripper как о собранной в одной упаковке двухпроцессорной системе всё-таки не следует. Дело в том, что объединение двух кристаллов Zeppelin в единое устройство выполнено с использованием передовых технологий, способных обеспечить высокую пропускную способность и низкие латентности взаимодействий, получить которые в классических системах с двумя сокетами было бы нереально. Речь идёт о шине Infinity Fabric – дальнейшем развитии HyperTransport, которое широко применяется AMD в том числе и внутри кристаллов Zeppelin для коммуникации между процессорными CCX-комплексами.

Шина Infinity Fabric, связывающая кристаллы в Ryzen Threadripper, имеет точно такую же пропускную способность, что и шина, пролегающая внутри Zeppelin. А это значит, что она синхронизирована по частоте с контроллерами памяти и может обеспечить передачу 32 байт данных за каждый такт в каждую сторону. При использовании памяти DDR4-2667 это даёт, например, полосу пропускания в 85 Гбайт/с. Правда, в отличие от внутренней шины Infinity Fabric, внешняя шина применяется не только для межъядерных соединений и обслуживания доступа в память, но и для нужд контроллеров PCI Express, SATA и проч. Поэтому некоторая часть пропускной способности оказывается не всегда доступна. Кроме того, при использовании межкристалльной Infinity Fabric задержки получаются выше – здесь отличие от внутренней шины примерно в 1,5-2 раза. Таким образом, процессор Ryzen Threadripper всё равно оказывается архитектурой с неравномерным доступом к памяти, что приводит к необходимости учитывать некоторые особенности. Поговорим о них подробнее.

⇡#Производительность межъядерного взаимодействия

Для того чтобы проиллюстрировать тот факт, что ядра в Ryzen Threadripper по скорости взаимного обмена данными подразделяются на «ближайшие» (находящиеся в одном CCX), «средние» (находящиеся в одном кристалле Zeppelin, но в разных CCX) и «дальние» (разнесённые по разным кристаллам), мы провели традиционный эксперимент по измерению латентностей при передаче данных от одного ядра к другому.

Приведённые в таблице числа относятся к Ryzen Threadripper 1950X, работающему с DDR4-3200 SDRAM.

Результаты очень показательны. Латентность взаимодействия между ядрами, размещенными внутри одного CCX-комплекса, находится на очень хорошем уровне. Порядка 40 нс – это даже лучше задержки, которую даёт интеловская кольцевая шина, так что процессоры AMD позволяют передавать данные между ядрами внутри одного CCX-комплекса быстрее, чем это могут делать лучшие интеловские процессоры. К тому же появившаяся в Skylake-X ячеистая сеть по сравнению с кольцевой шиной ухудшила латентности межъядерного взаимодействия, и теперь новые HEDT-процессоры Intel демонстрируют возросшие до 75-80 нс задержки при передаче данных между ядрами.

Однако о прогрессивности выбранного AMD варианта межъядерного взаимодействия можно говорить лишь до тех пор, покуда речь не заходит о совместной работе с данными ядер из разных CCX-комплексов. Даже для пары ядер, находящихся в одном кристалле, но в разных CCX, латентность при взаимодействии возрастает более чем втрое и составляет уже более 150 нс. Если же обмен данными идёт между ядрами в различных кристаллах, то задержки оказываются ещё на треть выше.

Но справедливости ради стоит отметить, что различия практических латентностей при переходе от обмена данными между разными CCX, находящимися в одном или в соседних кристаллах, на самом деле не столь вопиющи. И это служит наглядной иллюстрацией того факта, что шина Infinity Fabric, связывающая кристаллы Zeppelin внутри Ryzen Threadripper со своей ролью справляется достаточно неплохо: такой собранный из двух частей процессор действительно не похож на ординарную систему с двумя CPU.

⇡#Режимы работы подсистемы памяти

Но дело не только в межъядерном взаимодействии, но и в контроллерах памяти, имеющихся в каждом кристалле Zeppelin. Эти контроллеры двухканальные, и максимальную пропускную способность они могут обеспечить лишь при согласованной многопоточной работе. Однако если речь идёт об однопоточных обращениях к памяти, то скорость доступа, очевидно, зависит от того, в одном или в разных кристаллах находятся контроллер памяти и инициирующее транзакцию ядро. А это значит, что Ryzen Threadripper представляет собой классическое воплощение NUMA-архитектуры (Non-Uniform Memory Architecture). Массив памяти, обслуживаемый этим процессором, получается неравномерным по скорости работы.

Для серверных систем такая организация массива памяти не представляет серьёзной проблемы. Там NUMA-архитектура применяется давно и повсеместно, поэтому программное обеспечение создаётся с учётом особенностей такого строения подсистемы памяти: данные по возможности хранятся как можно ближе к ядру, которое с ними работает. Однако для обычных массовых программ такой оптимизации не делается. Настольные системы всегда оперировали однородной памятью, поэтому подавляющее большинство приложений, с которыми пользователи сталкиваются на десктопах, спроектировано в предположении, что подсистема памяти имеет одинаковые скоростные характеристики в любой своей области. К сожалению, такое предположение может создать определённые проблемы для систем на базе Ryzen Threadripper из-за которых эффективность работы и производительность будет снижаться вследствие непреднамеренного использования областей памяти с большими задержками.

Для того, чтобы как-то обойти эту потенциальную сложность, AMD определила для контроллера памяти Threadripper два различных режима работы: распределённый и локальный.

В распределённом (distributed) режиме (в терминах AMD он также носит название Creator Mode) на первое место ставится пропускная способность памяти. В нём подсистема памяти обслуживается как обычный равноправный массив (UMA), а все запросы к данным равномерно распределяются по всем доступным каналам, вне зависимости от того, к какому из кристаллов процессора они относятся. Такой режим хорош в том случае, когда приложение задействует большие объёмы данных и не чувствительно к латентности.

Для того же случая, когда латентности для скорости работы важнее, предлагается локальный (local) режим. В нём транзакции в первую очередь отдаются тому двухканальному контроллеру, который находится в одном кристалле Zeppelin с ядром, их инициировавшим (эмуляция NUMA). Это в большинстве случаев понижает задержки, однако приложения не получают доступа к полной пропускной способности четырёхканальной памяти, фактически довольствуясь лишь двухканальным режимом.

Разницу между этими режимами нетрудно проиллюстрировать результатами измерений. С помощью бенчмарка CacheMem из пакета AIDA64 мы замерили производительность подсистемы памяти, составленной из четырёх идентичных модулей DDR4-3200 SDRAM (14-14-14-34) в системе с процессором Ryzen Threadripper, при её работе в локальном и распределённом режимах.

Распределённый режим работы памяти (UMA)

Локальный режим работы памяти (NUMA)

Практические различия между режимами оказываются огромны. Как и было обещано, локальный режим действительно позволяет выиграть в практических задержках при обращении к памяти. Кажется, что он лучше и с точки зрения пропускной способности, однако такая картина наблюдается лишь потому, что бенчмарк памяти в AIDA64 измеряет многопоточную производительность подсистемы памяти, загружая работой все доступные ядра и инициируя независимую и одновременную загрузку контроллеров памяти обоих кристаллов Zeppelin, а затем суммирует результаты. То есть, если говорить о том, какую пропускную способность памяти будет получать в своё распоряжение один поток, то представленные для локального режима показатели надо делить пополам. И в конечном итоге именно распределённый режим даст заметное преимущество в полосе пропускания.

AMD по умолчанию активирует локальный режим (эмуляцию NUMA), поскольку он, по мнению компании, обеспечивает лучшую производительность в большем числе случаев. Насколько это справедливо, сказать трудно, но некоторые приложения, которые не используют весь многопоточный потенциал Ryzen Threadripper, но требуют при этом интенсивной межъядерной синхронизации, действительно получают заметный выигрыш. Однако нужно понимать, что в этом случае Ryzen Threadripper практически не пользуется преимуществами четырёх каналов, и этот режим больше подходит для игровых, а не для рабочих приложений. Поэтому существование большого числа приложений для создания цифрового контента, которые в распределённом режиме функционируют явно эффективнее, удивлять не должно.

Для примера ниже приводятся результаты тестов Ryzen Threadripper 1950X в приложениях при работе с четырёхканальным массивом DDR4-3200 SDRAM (14-14-14-34) в распределённом (UMA) и локальном (NUMA) режимах.

Получается, единого и универсального подхода не существует. В некоторых случаях выгоднее один режим, в других ситуациях – иной. К сожалению, переключение между локальным и распределённым режимами работы контроллера памяти выполняется в BIOS материнской платы, что не слишком удобно, так как требует перезагрузки системы. Существует и другой путь – через фирменную утилиту AMD Ryzen Master, где для процессоров Ryzen Threadripper доступен соответствующий переключатель.

Но и он ничего не упрощает. Активация необходимого алгоритма работы с памятью через утилиту тоже требует перезагрузки, поэтому в реальной жизни частое переключение режимов контроллера памяти в зависимости от решаемых задач вряд ли способно стать удобным и популярным подходом.

Но в целом для ресурсоёмких приложений для создания и обработки цифрового контента более оптимальным представляется распределённый режим, а не локальный, который выбирает по умолчанию AMD.

⇡#Игровой режим Ryzen Threadripper

AMD хочет позиционировать свои процессоры Ryzen Threadripper не только как решения для создателей контента, но и в качестве бескомпромиссной игровой платформы. Однако тут существует серьёзная проблема, связанная с тем, что многие игры чрезвычайно чувствительны к латентности памяти и скорости межъядерного взаимодействия, из-за чего, в частности, обычные Ryzen выступают в приложениях такого рода хуже интеловских процессоров Kaby Lake. Но с Ryzen Threadripper ситуация рискует оказаться ещё хуже, ведь у них существуют варианты распределения потоков и данных таким образом, что задержки будут ещё выше, чем у обычных Ryzen.

Казалось бы, проблему могла бы решить активация локального режима контроллера памяти, при котором данные по возможности располагаются в той части памяти, которая относится к кристаллу, исполняющему соответствующий процесс. Однако некоторые многопоточные игры могут легко разрушить этот принцип и захотеть занять большее число ядер, чем присутствует в одном кристалле Threadripper, что приведёт к попаданию части данных в память, относящуюся к «дальнему» контроллеру. К тому же не стоит забывать и про существование смежных потоков, например, DirectX и графического драйвера, которые вполне могут переехать исполняться в соседний кристалл, и тем самым затормозить весь процесс рендеринга кадров в игре. Чтобы такого не происходило, разработчики AMD реализовали ещё один режим – игровой (или режим совместимости).

AMD Ryzen Threadripper 1950X в игровом режиме

Суть данного режима состоит в полном отключении всех вычислительных ядер, которые относятся ко второму кристаллу Zeppelin в Threadripper. Это – жёсткий метод привязки всех потоков к одному кристаллу, который действительно позволяет быть уверенным в первоочередном использовании части памяти с наименьшими задержками. Однако такое принудительное превращение многоядерного Threadripper в простой Ryzen – далеко не самый рациональный шаг, пойти на который может заставить лишь крайняя необходимость. К тому же, получающаяся конфигурация оказывается по своим параметрам всё равно хуже обычной Socket AM4-системы на базе Ryzen, так как половина памяти остаётся подключенной к «дальнему» контроллеру. Поэтому, если игра захочет использовать больше памяти, чем есть в первых двух каналах, с высокими задержками столкнуться всё же придётся.

А это значит, что единственный способ добиться того, чтобы вся память могла работать с низкой латентностью, заключается в активации игрового режима с одновременной физической перестановкой всех модулей DDR4 SDRAM в слоты, относящиеся к первому кристаллу Zeppelin. Но не проще ли всё же в игровых системах использовать процессоры, которые подходят для них без подобных странных ухищрений?

Тем не менее, игровой режим в Ryzen Threadripper всё-таки существует, и активизировать его можно специальным переключателем в утилите AMD Ryzen Master. Впрочем, для окончательного включения потребуется ещё и перезагрузка, так что удобным такую реализацию назвать вряд ли возможно.

Сравнение игрового режима с обычным локальным показывает, что он позволяет выгадать дополнительные несколько процентов игровой производительности не повсеместно, а лишь в некоторых случаях. Приведённые далее результаты тестов проведены в системе с Ryzen Threadripper 1950X, памятью DDR4-3200 SDRAM (14-14-14-34) и видеокартой NVIDIA Titan X (Pascal).

По представленным данным хорошо видно, что заметное преимущество игровой режим даёт лишь в отдельных случаях. То есть, универсальным средством увеличения частоты кадров в играх он не является. Если его включение и помогает, то чаще всего это почти незаметно, а в некоторых ситуациях можно наблюдать, напротив, даже снижение быстродействия. Поэтому скорее всего реальные пользователи будут прибегать к включению игрового режима лишь в каких-то исключительных обстоятельствах.

Сама AMD приводит лишь небольшой список игр, для которых активация игрового режима имеет смысл с точки зрения наблюдаемой частоты кадров. Он включает: Civilization VI, Call of Duty: Modern Warfare Remastered, Heroes of the Storm, Gears of War Ultimate, DOTA 2, Watch Dogs, Thief, Hitman: Absolution и Fallout 4. Однако существует и ряд игр, в которых без игрового режима обойтись невозможно, поскольку они попросту не запускаются в системах с более чем 20 логическими процессорами. Среди популярных игр, имеющих такую проблему, нужно упомянуть DiRT Rally, Far Cry Primal, Far Cry, F1 2016 и GTA V.

В утилите Ryzen Master игровой режим носит название режима совместимости, и это хорошо передаёт его суть. Фактически он играет роль «средства последней надежды», к которому имеет смысл прибегать лишь тогда, когда всё остальное не помогает, и работа Threadripper в его стандартном состоянии с каким-то приложением становится совершенно неудовлетворительной. Причём максимум, что может сделать игровой режим, это лишь приблизить быстродействие Ryzen Threadripper к скорости обычного Ryzen. То есть, никакой панацеей в плане улучшения игровой производительности процессоров AMD он не является.

К сказанному стоит добавить и то, что Ryzen Threadripper может оказаться не слишком удачным вариантом для формирования мощных игровых конфигураций не только из-за распределённой по двум контроллерам памяти, но и из-за аналогичной реализации шин PCI Express, что может стать критичным в случае использования нескольких видеокарт, соединённых в массив по технологиям SLI или CrossfireX. Пара (или большее число) GPU в этом случае окажется подключена к корневым хабам, расположенным в разных кристаллах Zeppelin, поэтому их взаимные коммуникации получат увеличенные латентности. В конечном итоге это может сделать доступный в платформе Threadripper режим PCI Express x16 + x16 даже более медленным вариантом, чем PCI Express x8 + x8 в случае обычных Ryzen, но это соображение ещё нуждается в дополнительной проверке.

⇡#Платформа Socket sTR4 и набор системной логики X399

Ryzen Threadripper используют процессорное гнездо Socket sTR4 с 4096 контактами, которое до сих пор нигде и никогда не встречалось. Однако полностью новым его назвать всё же нельзя – сам разъём в смысле его конструкционного исполнения позаимствован у процессорной платформы EPYC и имеет точно такой же форм-фактор и конструкцию, как и серверный Socket SP3. Скорее всего, между этими разъёмами есть и частичная электрическая совместимость, а отличие состоит лишь в том, что в Socket sTR4 остаётся незадействованной часть контактов, которая отвечает за пятый-восьмой каналы памяти, за межсокетные соединения Infinity Fabric и за дополнительные линии PCI Express, которые есть у EPYC.

Тем не менее, если смотреть на Socket sTR4 глазами пользователя десктопных систем, то выглядит он совершенно безумно. Во-первых, он сразу же поражает своими габаритами: ещё бы, ведь в этом разъёме к процессору подводится более четырёх тысяч контактов, и это даже больше, чем используется в последнем поколении Xeon SP, не говоря уже о двукратном превосходстве над интеловскими CPU для HEDT-сегмента. Во-вторых, Socket sTR4 предполагает LGA-исполнение процессоров, которое компания AMD ранее никогда не использовала в своих продуктах для настольных компьютеров. И в-третьих, фиксация процессора внутри сокета происходит не привычными подпружиненными рычагами, а тремя винтами, которые обеспечивают более надёжный прижим и равномерное распределение механических усилий.

В результате установка процессора в Socket sTR4 превращается в целую эпопею, проиллюстрировать которую лучше всего может следующая схема.

Обратите внимание: непосредственно в Socket sTR4 процессор вставлять не требуется. Вместо этого он вдвигается в появившиеся внутри сокета специальные направляющие полозья, причём корпус CPU остаётся заключён в оранжевую пластиковую монтажную рамку, которая теперь сопровождает процессор на всём протяжении его жизненного цикла.

Для платформы Socket sTR4 компания AMD предлагает и собственный набор системной логики, получивший название X399. Однако на самом деле новым он не является, это простое переименование чипсета X370, используемого с Socket AM4-процессорами Ryzen. И в этом нет ничего удивительного: кристаллы Zeppelin, из которых собирается Ryzen Threadripper, содержат элементы южного моста. Поэтому многие возможности для подключения внешних устройств легко реализуются без каких-либо дополнительных микросхем, а чип X399 нужен лишь для добавления отдельных дополнительных портов.

Так, сами Ryzen Threadripper помимо 64 линий PCI Express 3.0 обеспечивают поддержку четырёх портов SATA и восьми портов USB 3.0. Микросхема же X399 подключается к процессору по четырём линиям PCI Express 3.0 и выступает дополнительным интегральным концентратором, который добавляет к имеющимся в самом Ryzen Threadripper возможностям поддержку двух портов USB 3.1, шести портов USB 3.0, шести портов USB 2.0, восьми SATA-портов и восьми линий PCI Express 2.0. В результате, платформа Socket sTR4 приобретает вполне достаточный на данном этапе набор характеристик, в котором не хватает разве только поддержки RAID-массивов, составленных из NVMe-накопителей.

Остающиеся в распоряжении пользователя после подсоединения к процессору чипсета 60 процессорных линий PCI Express 3.0 могут дробиться или собираться в любые наборы, но общее число поддерживаемых PCIe-устройств ограничено семью. Учитывая это, AMD приводит разные варианты систем, в которых эти линии тем или иным методом распределяются по различным устройствам. Компания указывает на возможность формирования не только игровых систем с несколькими видеокартами, но и компьютеров для рендеринга, рабочих станций для научных расчётов или систем для обработки видеоконтента. В качестве примера максимальной конфигурации, в частности, приводится сборка с четырьмя видеокартами и тремя NVMe накопителями, на которую, несмотря на грандиозность, ресурсов процессора хватает без каких-либо ограничений.

С HEDT-процессорами Intel аналогичная системы была бы невозможна, так как даже у премиальных процессоров семейства Core i9 число линий PCI Express 3.0, контролируемых процессором, ограничено 44.

Также нужно отметить и тот факт, что Ryzen Threadripper унаследовали от своих младших собратьев все способности к разгону. Коэффициент умножения в HEDT-процессорах AMD не заблокирован, а материнские платы на базе X399 обладают всеми привычными для пользователей Ryzen настройками для изменения частот, напряжений и параметров памяти.

Работает с Ryzen Threadripper и оверклокерская утилита Ryzen Master, которую можно применять для мониторинга и настройки параметров процессора в среде операционной системы Windows.

Несмотря на то, что Socket sTR4 – это принципиально новая экосистема, компании AMD вместе с партнёрами удалось неплохо подготовиться к запуску Ryzen Threadripper. Все основные производители материнских плат спроектировали и запустили серийное производство необходимых Socket sTR4-плат. Не остались в стороне и производители систем охлаждения. Иными словами, никакой неподготовленности инфраструктуры, как наблюдалась при запуске Ryzen 7, на этот раз не будет.

Сегодня, в день начала продаж Ryzen Threadripper, в магазинах должны появиться как минимум шесть разных Socket sTR4-плат компаний ASUS, Gigabyte, MSI и ASRock, а концу месяца ассортимент платформ расширится до более чем десятка разных вариантов.

Не должно быть проблем и с подходящими кулерами. Несмотря на то, что площадь поверхности теплораспределительной крышки процессоров Ryzen Threadripper очень велика, AMD считает возможным использование с ними уже имеющихся на рынке замкнутых систем жидкостного охлаждения Asetek, для полной совместимости с которыми в комплекте поставки Threadripper имеется необходимая система крепления. Это значит, что многие популярные СВО, продающиеся под марками Arctic, Cooler Master, Corsair, NZXT, Thermaltake и т. п., без каких-либо проблем встанут и на Ryzen Threadripper.

То же, что подошва водоблоков таких систем покрывает поверхность CPU далеко не полностью, причиной для переживаний быть не должно. Теплораспределительная крышка процессоров AMD сделана из медного сплава с высокой теплопроводностью и качественно снимает и передаёт дальше тепло с процессорных кристаллов благодаря тому, что в качестве внутреннего термоинтерфейса в Threadripper используется эффективный припой на основе индия.

⇡#Модельный ряд Ryzen Threadripper

На данный момент компания AMD анонсировала три модели Ryzen Threadripper, отличающихся друг от друга в первую очередь количеством ядер. В семейство входят 16-, 12- и 8-ядерная версии. Базовые характеристики процессоров приведены в таблице.

Ядра/ потокиБазовая частота/ турбо, ГГцТехнология XFRL3-кеш, МбайтTDP, ВтЦена
Ryzen Threadripper 1950X 16/32 3,4/4,0 +200 МГц 32 180 $999
Ryzen Threadripper 1920X 12/24 3,5/4,0 +200 МГц 32 180 $799
Ryzen Threadripper 1900X 8/16 3,8/4,0 +200 МГц 16 180 $549

Сегодня, 10 августа, на рынок выходят первые две модели с 16 и 12 ядрами, 8-ядерная же модель будет выпущена 31 августа. Кроме того, есть информация, что в модельном ряду со временем появятся дополнительные версии Threadripper без литеры «X» на конце, которые будут отличаться пониженными частотами и тепловыделением на уровне 140 Вт, но пока это официальными источниками не подтверждается.

Все версии Threadripper основываются на одном и том же полупроводниковом базисе: двух кристаллах Zeppelin, объединённых в единое целое посредством шины Infinity Fabric. Соответственно, структура Threadripper включает четыре четырёхъядерных CCX-комплекса. Модификации процессоров с числом ядер, меньшим 16, получаются отключением одинакового количества ядер в каждом CCX. Иными словами, в 12-ядерном процессоре каждый CCX имеет по три активных ядра, а в 8-ядерном – по два. Кроме того, в восьмиядерной модели Ryzen Threadripper 1900X инженеры AMD собираются деактивировать половину кеш-памяти третьего уровня.

Зато в отношении всех остальных характеристик AMD настроена очень либерально. Все объявленные версии Ryzen Threadripper имеют схожие тактовые частоты, достигаемые в турбо-режиме, все они имеют также и достаточно агрессивную технологию XFR, способную на дополнительные 200 МГц увеличивать рабочую частоту процессоров в благоприятном температурном режиме. Отличия есть лишь в базовой частоте, что обусловлено рамками 180-ваттного теплового пакета. Впрочем, к частотам старших процессоров какие-то претензии предъявить очень сложно: 12-ядерный Ryzen Threadripper 1920X по этому параметру похож на старший восьмиядерник Ryzen 7 1800X, а 16-ядерный Ryzen Threadripper 1950X как минимум не уступает в рабочих частотах другому восьмиядернику, Ryzen 7 1700X. Причём, максимальные турбо-частоты процессоры семейства Ryzen Threadripper могут развивать при нагрузке на четыре ядра, в то время как Ryzen 7 способны на максимальный авторазгон при задействовании в работе лишь пары ядер.

Столь впечатляющие по частотам режимы работы AMD обеспечивает за счёт специального отбора для процессоров Threadripper наиболее удачных полупроводниковых кристаллов. Лишь только один из двадцати кристаллов Zeppelin оказывается достаточно хорош для того, чтобы попасть во флагманские HEDT-процессоры по параметрам частотного потенциала и тепловыделения, поэтому Ryzen Threadripper – это отборные и элитарные процессоры в прямом смысле этих эпитетов.

Важно отметить, что помимо числа ядер, частот и размера кеш-памяти, никаких других различий между моделями Threadripper нет. Intel дополнительно дифференцирует свои HEDT-процессоры путём урезания в младших моделях числа доступных линий PCI Express и искусственного снижения скорости исполнения AVX-512-инструкций. Члены же модельного рада Ryzen Threadripper никаких дополнительных или скрытых различий между собой не имеют: все они обладают полным набором из 64 линий PCI Express 3.0 и поддерживают по четыре канала DDR4 SDRAM с максимальной официальной частотой 2667 МГц.

Если ко всему этому прибавить весьма привлекательные цены, которые не выходят за 1000-долларовую планку, то кажется, что интеловская HEDT-платформа LGA2066 находится под серьёзным ударом. В частности, если исходить из стоимости, то 16-ядерный Ryzen Threadripper 1950X можно сопоставлять с 10-ядерным Core i9-7900X, у которого предложение AMD выигрывает не только по числу ядер, но и по другим характеристикам: немного – по базовой частоте, существенно – по общему объёму кеш-памяти и ощутимо – по числу линий PCI Express. Более того, выгодно на фоне Core i9-7900X выглядит даже 12-ядерный Ryzen Threadripper 1920X. Он не только на 20 процентов дешевле и обладает более развитыми средствами многопоточности, но так же как и Ryzen Threadripper 1950X, обходит интеловский десятиядерник по частотам, объёму кеш-памяти и возможностям контроллера PCI Express.

⇡#Ryzen Threadripper 1950X и Ryzen Threadripper 1920X

Для знакомства с платформой Threadripper мы получили от компании AMD обе модели HEDT-процессоров, выход которых назначен на сегодня.

Спецификации моделей:

 Ryzen Threadripper 1950XRyzen Threadripper 1920X
Внутренняя топология Два кристалла Zeppelin: 4+4 и 4+4 Два кристалла Zeppelin: 3+3 и 3+3
L2-кеш 512 Кбайт на ядро 8 Мбайт суммарно 512 Кбайт на ядро 6 Мбайт суммарно
L3-кеш 8 Мбайт на CCX 32 Мбайт суммарно
Базовая частота 3,4 ГГц 3,5 ГГц
Турбо-режим До 3,7 ГГц при нагрузке на 16 ядер До 4,0 ГГц при нагрузке на 4 ядра До 4,2 ГГц при активации XFR (4 ядра)
Поддержка SMT Есть
Линии PCI Express 3.0 64 (4 линии зарезервировано на чипсет)
Каналы DDR4 SDRAM 4
Частота памяти До DDR4-2666 (Single Rank, 1 DIMM на канал)
Поддержка ECC Есть
TDP 180 Вт
Процессорное гнездо Socket sTR4

В работе эти процессоры выглядят так. 16-ядерный Ryzen Threadripper 1950X:

Частота такого процессора при полной ресурсоёмкой нагрузке на все ядра составляет порядка 3,3 ГГц, что даже ниже номинального значения, определённого в спецификациях. Зато при этом процессор сохраняет весьма невысокую рабочую температуру. При использовании системы жидкостного охлаждения Corsair Hydro Series h215i нагрев не превышал 58 градусов.

Снижение сложности накладываемой на процессор нагрузки ожидаемо приводит к увеличению тактовой частоты. Например, при запуске тестирования Prime95 29.2 в однопоточном режиме, Ryzen Threadripper 1950X работает на частоте порядка 4,1 ГГц, а при исполнении четырёх потоков реальная частота «гуляет» в районе 3,95-4,0 ГГц. Впрочем нужно понимать, что частота корректируется технологией XFR, а она опирается на температуры. Поэтому на практике разные экземпляры процессоров, работающие с разными системами охлаждения, могут показывать слегка отличающиеся результаты.

Как и в случае обычных Ryzen, термодатчик Ryzen Threadripper (Tctl) возвращает значения температуры процессора со значительным смещением, составляющим 27 градусов. По словам AMD, оно нужно для правильной настройки профилей работы систем охлаждения. Однако свежие версии популярной утилиты HWINFO64 уже учитывают эту особенность и отображают не только значение Tctl, но и скорректированное значение Tdie, на которое можно ориентироваться для оценки температурного режима.

12-ядерный Ryzen Threadripper 1920X:

При максимальной нагрузке, производимой Prime95 29.2, процессор работает на частоте около 3,55 ГГц. Системе жидкостного охлаждения при полной нагрузке на CPU удавалось удерживать его температуру в пределах 66 градусов. Снижение нагрузки позволяло процессору постепенно увеличивать свою реальную частоту вплоть до величин порядка 4,15 ГГц в случае исполнения одного потока.

Как видно по приведённым скриншотам, в основе процессоров Ryzen Threadripper лежат абсолютно те же самые ядра Zeppelin степпинга B1, которые применяются в массовых процессорах Ryzen. Поэтому в целом от многоядерных новинок никаких сюрпризов ждать не приходится: они по своим повадкам должны быть похожи на младших собратьев.

⇡#Разгон

Разгон процессоров Ryzen Threadripper в целом похож на разгон обычных Ryzen, что, в общем-то, совершенно закономерно. Никаких специальных, свойственных лишь платформе Socket sTR4, настроек в данном случае не предлагается, и для увеличения частоты выше номинальных значений можно пользоваться привычным методом – простым наращиванием коэффициента умножения CPU с одновременной прибавкой в напряжении питания. Правда, в случае с HEDT-платформой AMD заметно большие, чем обычно, неприятности приносит чрезмерный нагрев процессора. Суммарное тепловыделение двух кристаллов Zeppelin, упрятанных внутри Ryzen Threadripper, при разгоне нарастает очень быстро, и именно это ограничивает максимальные частоты, до которых можно добраться, не прибегая к каким-то экстремальным методам теплоотвода. Иными словами, качественное охлаждение – это ключ к покорению оверклокерских вершин.

Максимально допустимая температура Ryzen Threadripper, при которой активируется троттлинг, составляет 85 градусов для 16-ядерного процессора и 87 градусов – для процессора с 12 ядрами. Используемая нами в тестовой платформе замкнутая система жидкостного охлаждения Corsair Hydro Series h215i, опирающаяся на 280-миллиметровый радиатор, если ориентироваться на тяжёлую вычислительную нагрузку, создаваемую утилитой Prime95 29.2, оказалась способна не допускать перегрева и троттлинга Ryzen Threadripper лишь в том случае, если напряжение питания таких CPU не превышает уровень в 1,325-1,375 В. И именно данный фактор стал главным барьером в разгоне: ни о каких 1,4-1,45 В, которые можно было беспрепятственно выбирать при оверклокерских экспериментах с Ryzen 7, теперь речь не идёт.

Предельный уровень напряжения, который позволял работать нашему экземпляру старшего 16-ядерного Ryzen Threadripper 1950X без перегрева в тестах стабильности, составил всего лишь 1,325 В. Тем не менее, даже с таким питанием нам удалось добиться прохождения процессором полного цикла тестирования в Prime95 29.2 на частоте 3,9 ГГц, что является вполне нормальным результатам разгона даже по меркам восьмиядерных Ryzen 7.

Как видно по скриншоту, температура при проверке стабильности приближалась к критическим значениям, но троттлинга, при активации которого частота отдельных ядер Ryzen Threadripper сбрасывается до 600 МГц, избежать удалось.

Второй тестовый процессор, 12-ядерный Ryzen Threadripper 1920X, получилось разогнать немного лучше. Возможно, нам повезло с конкретным экземпляром, но по сравнению с 16-ядерной моделью он не перегревался и при существенно более высоком напряжении питания. Благодаря этому выше оказалась и финальная частота: с напряжением питания 1,375 В процессор стабильно работал при любой нагрузке на частоте 4,0 ГГц.

Естественно, температура в Prime95 29.2 при этом находилась «на грани» и достигала в пике 85,5 градусов, однако никаких проблем со стабильностью или падений частоты из-за этого не возникало.

В конечном же итоге можно сказать, что разгон процессоров серии Ryzen Threadripper в смысле достижимых частот приносит примерно те же результаты, что и разгон обычных Ryzen 7. Если делать ставку на обычные имеющиеся в продаже системы жидкостного охлаждения, то похоже, что вполне можно рассчитывать на получение частот порядка 3,9-4,0 ГГц. Это не намного выше номинальных значений, установленных для Ryzen Threadripper, но таковы уж особенности применяемого для производства кристаллов Zeppelin LPP-техпроцесса с FinFET-транзисторами и 14-нм нормами, который в исполнении GlobalFoundries выдаёт продукцию именно такого качества.

Кроме того, определённый негатив в процесс разгона вероятно вносит и отсутствие систем охлаждения, разработанных непосредственно под Ryzen Threadripper. Высокий нагрев – это первая преграда, в которую упирается оверклокинг. Совместимые же с Ryzen Threadripper и рекомендованные AMD системы жидкостного охлаждения имеют водоблоки «старого образца», которые не закрывают процессор полностью. AMD считает, что это сказывается на теплоотводе не слишком критично, однако нам кажется, что с выходом специализированных систем охлаждения с водоблоками, полностью закрывающими теплораспределительную крышку процессора, предел разгона можно будет отодвинуть на 100-200 МГц дальше.

«Пятно контакта» водоблока Asetek с процессором AMD Ryzen Threadripper

Впрочем, особых поводов для расстройства покорённые оверклокерские рубежи на самом деле на дают. Хотя близких частот получается добиться и с обычными Socket AM4-процессорами семейства Ryzen, в нашем случае речь фактически идёт о гораздо более сложном разгоне капризной двухпроцессорной системы, которая, несмотря на все «но», показывает почти такой же оверклокерский потенциал. Видимо производитель действительно отбирает для Ryzen Threadripper лучшие кристаллы Zeppelin. Тесты показали, что полупроводниковые устройства, составляющие HEDT-процессоры AMD, способны работать на частотах порядка 4,0 ГГц при сравнительно невысоком уровне напряжения, чего от обычных массовых процессоров Ryzen удаётся добиться крайне редко.

Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.

3dnews.ru

Тестируем AMD Ryzen Threadripper 1950X: игрок в супертяжелом весе (страница 2)

Платформа и модельный ряд Ryzen Threadripper

Новым процессорам – новая платформа. Полностью своя, прямо как всегда было у топовых Intel. Отдельные процессорный разъем и системная логика – а значит, и материнская плата. Желательно даже системы охлаждения и память покупать отдельные. Новый сокет sTR4 – в стиле главного конкурента: на процессоре лишь контактные площадки вместо штырьков, а на материнской плате – нежные подвижные контакты в количестве целых 4096. Про установку – дальше и подробнее.

Единственный чипсет – AMD X399. Тут тоже даже название прозрачно намекает на то, что брали в компании за образец. Ну, ничего страшного в недостатке фантазии у маркетологов нет, главное, чтобы у разработчиков с творческим подходом все было хорошо.

На данный момент модельный ряд AMD Ryzen Threadripper состоит из трех процессоров: 1950X, 1920X и 1900X. Сведем их отличия в таблицу:

Характеристика \ Модель CPUThreadripper 1950XThreadripper 1920XThreadripper 1900X
Количество ядер / потоков16 / 3212 / 248 / 16
Кэш L3, Мбайт323216
Частота, ГГц3.43.53.8
Рекомендованная цена, USD999799549

Зачем покупать последний даже самым ярым фанатам AMD при живом Ryzen 7 1800X – загадка. Как, на самом деле, и наличие в модельном ряду 1920X. По крайней мере, по такой цене. При общей цене системного блока, в три-пять тысяч долларов, подавляющее большинство не задумываясь переплатит дополнительные $200 за полноценный процессор с 16, а не 12 ядрами.

Тепловой пакет у всех одинаков – 180 Вт. Как и максимальная частота в турбо-режиме – 4.0 ГГц. И если первое выглядит странно, то последнее вполне логично: видимо, это близко к пределу частотного потенциала чипов. Даже несмотря на то, что по заявлениям производителя, лишь пять процентов лучших кристаллов становится «тредрипперами».

В общем, младшие модели по возможности, конечно, еще протестируем. Но действительно интересно выглядит лишь старшая, на ней и сосредоточимся.

Упаковка и комплект поставки

AMD Threadripper 1950X поставляется в крупной коробке оригинального дизайна. Несмотря на ее габариты, системы охлаждения внутри нет. Вместо нее – лишь прижимная рамка для стандартных СВО Asetek. И кроме того – отвертка для сокета. Ну, и сам процессор, разумеется.

Маркировка AMD Ryzen Threadripper 1950X, который нам достался:

Процессор впечатляет одним своим внешним видом. А ведь CPU под LGA 2066 тоже далеко не мелкие!

overclockers.ru

Обзор AMD Ryzen Threadripper 1950x и 1920x: CPU на стероидах

В начале 2000 велась великая «Война Частот». Производитель, способный прогнать через свой процессор максимум циклов в секунду имел очевидное преимущество над конкурентами. Это привело к созданию некоторых весьма горячих чипов, чья архитектура была со временем позабыта во имя чего-то более разумного. Прошло 10-15 лет, вокруг нас гремит новая война: «Война Ядер». Как много ядер CPU со скоростным межпроцессорным взаимодействием можно поместить в процессор потребителя? Совсем недавно ответ был 10, и вот AMD врывается на рынок с новыми 16-ядерными процессорами Theadripper. Мы раздобыли оба — 1950x и 1920x, чтобы хорошенько поджарить их во имя свежего обзора. В 2017 году AMD выпустила новую архитектуру микропроцессоров — Zen. Архитектура была применена в новой серии процессоров Ryzen с очевидной целью — оторвать часть рынка у хай-энд решений Intel для desktop PC. Трое представителей семейства Ryzen 7 имеют по 8 ядер с технологией hyperthreading и показывают очень хорошее соотношение производительности и цены, иногда показывая результат, сравнимый с вдвое более дорогими процессорами Intel. За ними следуют четыре Ryzen 5 процессора с ценой приблизительно равной линейке quad core i5. За те же деньги AMD предлагает процессор с двенадцатью потоками, что втрое больше, чем у Core i5. И наконец Ryzen 3 находится на ценовой позиции около $120, выступая прямым конкурентом Core i3, при этом имея вдвое больше ядер, чем продукт Intel. Теперь мы наблюдаем, что AMD официально представила семейство серверных процессоров AMD EPYC, предлагая до 32 ядер; в течение следующих нескольких месяцев продукт выйдет на рынок, а пока OEM-производители тестируют процессоры и определяют их производительность. В стороне от перечисленных продуктов находится семейство AMD’s Ryzen Threadripper или попросту Threadripper. Эти процессоры имеют тот же дизайн, что и серверные AMD EPIC CPU, но адаптированы для настольных PC. Первые два процессора — 1950X и 1920X, имеющие 16 и 12 ядер соответственно. За ними последовал 8-ядерный 1900X, вышедший 31 августа, обещает появиться 1920, который правда пока еще не анонсирован. Все эти чипы устанавливаются в 4094-пиновый TR4 сокет LGA типа. Сокет идентичен SP3 сокету, используемому для EPIC (хотя сокеты не взаимозаменяемы), и на голову превосходит 1331-пиновый AM4 сокет PGA типа, используемый для процессоров Ryzen 7/5/3.

* Последняя информация от AMD, по нашим данным ** Неанонсированный продукт, технические характеристики могут быть изменены Если Ryzen 7 нацелен на то, чтобы отобрать часть рынка у Интеловских хай-энд десктопных решений (HEDT), то Threadripper создан, чтобы задать новую планку производительности. Этот сегмент можно назвать «супер-хай-энд десктоп» (SHED). Количество ядер, которое AMD представило в процессорах Threadripper, раньше можно было наблюдать лишь в серверных решениях от Intel, компания предлагала 28 ядер за сумму равную почти $10 тыс. Предлагая чипы с большим количеством ядер, разумными частотами, мощностью и IPC, AMD стирает границы между пользователями, полупрофессионалами и корпоративными клиентами. Чтобы составить конкуренцию, Intel объявила о выходе платформы Skylake-X с 12, 14, 16 и 18 ядрами в течение следующих нескольких месяцев. Как и самые быстрые чипы Intel, процессоры AMD наверняка будут востребованы теми, кто желает делать все и сразу. Для юзера домашнего ПК это может позволить совместить игровой процесс во время стрима (перекодировка и аплоад в рилтайме) с хостингом игрового сервера и параллельным выполнением каких-то дополнительных задач. Для полупрофессионального сегмента это означает обработку видео или проведение вычислений с использованием нескольких GPUs/FPGA. Суть идеи состоит в том, что если пользователю что-то нужно делать на компьютере, он может параллельно использовать систему для других задач, имея достаточный запас мощности CPU, PCI слоты, оперативную память и место в хранилище. Threadripper же, как уже сказано, унаследовал дизайн серверного процессора, и, соответственно, его аспекты высокой плотности производительности, которые определили сервера в последнее десятилетие. Опять же, подобно платформе Intel HEDT, AMD запускает платформу X399 под Threadripper, чтобы предоставить все необходимые инструменты новому процессору. Большой разъем TR4 и все его выводы обеспечивают четырехканальную память с двумя модулями DIMM на канал, а также до 60 линий PCIe для дополнительных плат (видеокарты, сетевые карты, SSD и т. д.). Эти материнские платы в настоящее время поддерживают два уже вышедших процессора Threadripper, плюс процессор, который будет запущен в конце месяца, и еще один процессор, который не был анонсирован, хотя получена инсайдерская информация о его выходе (дата выпуска неизвестна).

Новый сокет заметно отличается от предыдущих сокетов AMD, демонстрируя, как далеко шагнула технология. Вместо гнезда PGA с простой защелкой для надежной фиксации CPU в сокете разъем LGA TR4 имеет три винта Torx, которые необходимо откручивать в определенном порядке (как видно на рисунке выше), после чего фиксатор разъема просто открывается. Под ним находится кронштейн, в который и вставляется процессор. Каждый процессор Threadripper имеет несъемную рамку для удобного размещения CPU в кронштейне.

Из-за конструкции разъема и размера процессоров отверстия для крепления кулера CPU также различаются. Поскольку каждый представленный Threadripper рассчитан на 180 Вт, AMD рекомендует использовать как минимум жидкостное охлаждение и поставляет кронштейн процессора Asetek с каждым проданным процессором (также прилагается отвертка Torx).

Кронштейн более узкий с одной стороны, что указывает на «верх» сокета в традиционном расположении материнской платы.

Суть конструкции материнской платы сводится к тому, как каждая из доступных функций ввода-вывода маршрутизируется. Базовая блок-схема AMD выглядит следующим образом:

Предлагаемая конфигурация AMD дает 48 линий от CPU к слотам PCIe для 4-стороннего SLI / CFX-взаимодействия (16/16/8/8), 12 линий от CPU до слотов M.2 для 3-way x4 NVMe и 4 линии для чипсета. В таком случае чипсет может иметь два гигабитных порта Ethernet, слот PCIe x4, слот PCIe x1, PCIe x1 для Wi-Fi, порты SATA, USB 3.1 Gen 1 и USB 3.1 Gen 2 и порты USB 2.0. Предположительно цены на материнские платы X399 будут варьироваться от $249 до $599 в зависимости от функционала. Системная плата, которую мы испытывали для написания этого обзора, была ASUS X399 ROG Zenith Extreme, у которой MSRP (рекомендуемая производителем розничная цена) составляет $549. Мы попросили как Intel, так и AMD разъяснить, кого они видят основным конкурентом процессоров Threadripper. С учетом того, что Threadripper является продуктом, ориентированным на потребителя, — что интересно, на самом деле не ориентированным на workstations — AMD ожидаемо заявила, что нынешний Core i9-7900X от Intel (10-ядерный процессор) – наиболее подходящий продукт на роль конкурента. Xeon же является корпоративным продуктом, который не будет продаваться в готовых системах, востребованных заказчикам Threadripper. Intel удивила нас, сообщив в точности то же, что и AMD. Они заявили, что Core i9-7900X — главный конкурент Threadripper на момент выхода процессора. Ожидалось, что компаниями будет предложен какой-либо вариант более дешевого решения 2P, хотя, но выслушав мнение Intel, стало понятно, почему это не произошло. Есть две очевидных причины: во-первых, Intel Consumer и Intel Enterprise это практически две разные компании, которые мало пересекаются и участвуют в бизнесе друг друга. У них так же нет общей политики общения с прессой. Спросите Intel Consumer – получите ответ Consumer команды. Спросите команду Enterprise — и вы увидите, что они более сосредоточены на EPYC, а не Threadripper. Вторая причина заключается в том, что «дешевая система 2P» попросту не существует, если речь идет о покупке новых процессоров. В большинстве онлайн дискуссий на тему дешевых систем Intel 2P подразумевается покупка ЦП с серого рынка или у реселлеров. Таким образом, реальный конкурент — это, по сути, Skylake-X (и Broadwell-E со скидкой). В итоге AMD Threadripper 1950X с 16 ядрами и 1920X с 12 ядрами противостоят Core i9-7900X с 10 ядрами и Core i7-7820X с 8 ядрами. Рассмотрим в роли соперников — Broadwell’s Core i7-6950X из-за его архитектуры, AMD Ryzen 7 1800X, Ryzen7 1700, который в список попал как пример неплохого соотношения производительность / цена.

Ключевым моментом здесь является то, что Threadripper имеет больше ядер и больше линий PCIe за ту же цену. ADM предлагает ЦП с более низким Turbo, но с более высокой базовой частотой, при немного большей мощности для подобных платформ. Это будет интересная битва.
  1. AMD Ryzen Theadripper 1950x и 1920x
  2. Feeding the Beast и ключевые особенности процессоров
  3. Чип, шина и NUMA
  4. Creator Mode и Game Mode
  5. Конфигурация тестового стенда
  6. Набор тестов 2017
  7. Benchmarking Performance: CPU System Tests
  8. Benchmarking Performance: CPU Rendering Tests
  9. Benchmarking Performance: CPU Web Tests
  10. Benchmarking Performance: CPU Encoding Tests
  11. Benchmarking Performance: CPU Office Tests
  12. Benchmarking Performance: CPU Legacy Tests
  13. Gaming Performance: Civilization 6 (1080p, 4K, 8K, 16K)
  14. Gaming Performance: Ashes of the Singularity Escalation (1080p, 4K)
  15. Gaming Performance: Shadow of Mordor (1080p, 4K)
  16. Gaming Performance: Rise of the Tomb Raider (1080p, 4K)
  17. Gaming Performance: Rocket League (1080p, 4K)
  18. Gaming Performance: Grand Theft Auto V (1080p, 4K)
  19. Энергопотребление, энергоэффективность
  20. Анализ Creator Mode and Game Mode
  21. Заключение
По причинам, от нас не зависящих, в этом обзоре нет тестов процессора Skylake-X. Возникли некоторые проблемы во время тестирования, которые отложили оный процесс на дату более позднюю. Мы запустили еще несколько тестов с использованием новейшего BIOS и с более серьезной системой охлаждения, но, после прибытия процессора Threadripper, SKL-X был аккуратно упакован, а его место подопытного занял Threadripper. Теперь, заглядывая назад на полученные результаты тестов SKL-X, очевидно, что возникшие проблемы были связаны с BIOS / прошивкой. В скором времени планируется усердно попотеть над поиском ошибки, для этого в планах заменить материнскую плату X299 на новую. Когда частота считалась важнейшей характеристикой процессоров, основная проблема заключалась в урегулировании таких характеристик как эффективность, тепловые характеристики и стоимость вычислений: чем выше поднимались частоты, тем больше напряжения требовалось, чем дальше от оптимального режима процессора, тем больше становилась потребляемая мощность на единицу работы. Для процессора, который занимал первое место в линейке продуктов, выполняя роль «чемпиона производительности», эти недостатки казались неважными — до тех пор, пока рабочая температура не достигла 90°C. Теперь, с наступлением Войны Ядер, пришли другие проблемы. Когда ядро было только одно, предоставление данных для ядра через кэши и DRAM было относительно простой задачей. С 6, 8, 10, 12 и 16 ядрами главным камнем преткновения стала необходимость обеспечения каждого ядра потоком данных для непрерывной работы, чтобы избежать бессмысленного простоя ядер. Это непростая задача: каждое ядро процессора теперь нуждается в быстром способе обмена данными друг с другом и с основной памятью. Звучит это как «кормление зверя» (feeding the beast). После долгих лет игры во второстепенных ролях, AMD с новыми процессорами займет одно из ведущих мест на рынке. У Ryzen 7 было только 16 PCIe линий (lane), и они могли частично конкурировать с процессорами Intel, имеющими 28/44 PCIe линий. Теперь же процессор Threadripper будет иметь доступ к 60 линиям для дополнительных плат PCIe. В некоторых случаях это можно назвать 64 линиями, однако четыре из них зарезервированы для чипсета X399. При цене $799 и $999 Threadripper конкурирует с 44 линиями PCIe на процессоре Intel Core i9-7900X по цене $999.

Причина такого количества линий PCIe – целевой рынок, на который эти процессоры ориентированы: потребители, выполняющие высокопроизводительные вычисления. Это пользователи, которые используют несколько графических процессоров, несколько устройств хранения PCIe, нуждаются в high-end сетях, high-end хранилищах данных и прочем разном hardware, которое можно использовать с помощью PCIe. В итоге мы, скорее всего, увидим материнские платы, имеющие 32 или 48 полосы для слотов PCIe (x16 / x16, x8 / x8 / x8 / x8, x16 / x16 / x16, x16 / x8 / x16 / x8), два или три слота PCIe 3.0 x4 для устройств хранения U.2 или M.2, и более быстрый Ethernet (5 Gbit, 10 Gbit). AMD позволяет каждый из корневых комплексов PCIe x16, разделить вплоть до x1 на максимум семь устройств. Четыре полосы PCIe, идущие на чипсет, также будут поддерживать несколько линий PCIe 3.0 и PCIe 2.0 для SATA или USB-контроллеров. У Intel другая стратегия, позволяющая реализовать 44 полосы в x16 / x16 / x8 (40 полос) или x16 / x8 / x16 / x8 (40 полос) или x16 / x16 до x8 / x8 / x8 / x8 (32 полосы) с 4-12 полосами для хранения PCIe или более быстрых контроллеров Ethernet или Thunderbolt 3. У чипсета Skylake-X есть еще 24 шины PCIe для SATA, USB и гигабитных Ethernet контроллеров. Продукты Intel разделены по нишам, поэтому если клиент хочет иметь процессор с большим количеством ядер с памятью ECC (error-correcting code memory, память с коррекцией ошибок), ему приходится покупать Xeon. Обычно Xeon поддерживает фиксированную скорость памяти в зависимости от количества заполненных каналов (1 DIMM на канал по DDR4-2666, 2 модуля DIMM на канал на DDR4-2400), а также технологии ECC и RDIMM. Однако потребительские платформы HEDT для Broadwell-E и Skylake-X не будут поддерживать эти технологии, и будут использовать только UDIMM Non-ECC. AMD поддерживает ECC на своих процессорах Threadripper, предоставляя клиентам 16 ядер с ECC. Однако, они должны быть только UDIMM (unregistered DRAM), но с поддержкой разгона оперативной памяти, чтобы повысить скорость Infinity Fabric (для связи между отдельными блоками в процессорах AMD Ryzen используется внутреннее соединение Infinity Fabric, пришедшее на смену шине HyperTransport.). AMD официально заявила, что процессоры Threadripper могут поддерживать до 1 TB оперативной памяти, хотя для этого потребуются платы 128 GB UDIMM, максимальный размер которых составляет в настоящее время 16 GB. Intel же заявляет об ограничении в 128 GB для Skylake-X, при использовании 16 GB UDIMM. Оба процессора поддерживают четырехканальную память на DDR4-2666 (1DPC — DIMM Per Channel) и DDR4-2400 (2DPC). Как AMD, так и Intel используют приватные кэши L2 для каждого ядра, затем кэш-память L3 (victim L3 cache) до того, как перейти в основную память. Victim cache — это кэш, который получает данные, удаленные из кэша под ним, и не может совершать предварительную выборку данных. Но размер этих кэшей и то, как AMD и Intel взаимодействует с ними, различны.

AMD использует 512 KB L2 кэша для каждого ядра, 8 MB L3 кэша на комплекс из четырех ядер. В 16-ядерном Threadripper таких комплексов из 4 ядер четыре, в итоге имеем 32 MB L3 кэша, однако каждое ядро может получить доступ только к данным, найденным в его локальном L3. Чтобы получить доступ к L3 другого комплекса, потребуется дополнительное время, что вызывает значительные задержки. В Skylake-X от Intel получаем 1 MB L2 кэша на ядро, это означает более высокую вероятность попадания кэша L2, Кэш L3 был урезан до 1,375 MB на ядро. L3 перестал быть инклюзивным, а значит, содержимое кэша L2 не копируется в кэше L3, если ядру требуются данные другого ядра, находящиеся в кэше L2, то придется выполнять соответствующий запрос – этих данных в кэше L3 уже нет, соответственно требуется больше времени и возникает латенси, однако задержка несколько упорядочивается дизайном. Это заметно отличается от структуры кэша Broadwell-E, где 256 KB — L2 и 2,5 MB — L3 на ядро. В Broadwell-E кэши с инклюзивным архитектурным решением. В линейке Ryzen AMD разработала 8-ядерную кремниевую микросхему, известную как чип Zeppelin. Он состоит из двух комплексов ядер (CCX) по четыре ядра каждый, причем каждый CCX имеет доступ к 8 МБ кэша L3. Чип Zeppelin имеет доступ к двум каналам DRAM и ограничение в 16 линий PCIe для дополнительных карт. С выходом Threadripper AMD удвоила эту матрицу. Если бы вы разобрали процессор Threadripper, то увидели бы четыре кремниевых чипа, похожих на те, что и у процессора EPYC (Multi Core Module design MCM). Два из этих чипов — упрочняющие «прокладки», пустой кремний, не служащий ни для чего, кроме как для распределения веса кулера и охлаждения. Остальные два чипа (в противоположных углах, для улучшения тепловых характеристик и маршрутизации) — это по сути те же Zeppelin, что используются в Ryzen, каждый из которых содержит по восемь ядер и имеет доступ к двум каналам памяти. Они обмениваются данными через внутреннюю шину Infinity Fabric, для которой AMD заявляет пропускную способность в 102 GB/s (двунаправленный полный дуплекс) и задержку в 78 ns для доступа к ближайшей памяти (DRAM, подключенной к тому же чипу) и 133 ns для доступа к дальней памяти (DRAM на другом чипе). Мы проверили и можем подтвердить эти цифры для памяти DDR4-2400. При использовании DDR4-3200 достигается скорость доступа 65 ns и 108 ns соответственно.

Несмотря на то, что этот слайд AMD демонстрирует два чипа, в процессоре их четыре. Так как только два из них активны, AMD «упростила» диаграмму Для сравнения, EPYC заявляет скорость обмена данными между чипами до 42,6 GB/s на DDR4-2666. Это связано с тем, что в EPYC есть три внутренние связи к чипам и одна внешняя (к другому сокету). Чипы в Threadripper должны взаимодействовать только с одним другим чипом, что дает некоторую гибкость. Создается впечатление, что Threadripper использует две связи из трех на скорости 10.4 GT/s (гигатранзакции в секунду):
  • Чип-к-чипу для EPYC ограничивается 42,6 GB/s при использовании DDR4-2667
  • Чип-к-чипу для Threadripper ограничивается 102,2 GB/s при использовании DDR4-3200
  • 42,6 ГБ / с * 2 канала * 3200/2667 = 102,2 GB/s
  • 42,6 ГБ / с * 3 канала * 3200/2667 при 8,0 GT/s = 115,8 GB/s (слишком много)
  • 42,6 ГБ / с * 3 канала * 3200/2667 при 6.4 GT/s = 92,6 GB/s (слишком мало)
Эта конфигурация AMD именно то, что называется конфигурацией NUMA: неравномерный доступ к памяти (non-uniform memory access). Это означает, что код не может полагаться на постоянную (и низкую) задержку между запросом чего-либо из DRAM и его получением. Это может быть проблемой для высокопроизводительного кода, поэтому некоторые программы разработаны с поддержкой NUMA, позволяя привязывать память к ближайшему контроллеру DRAM, снижая потенциальную пропускную способность, но приоритизируя задержку. NUMA не является чем-то новым в архитектуре x86. После того, как процессоры начали поставляться с контроллерами памяти на кристалле, вместо контроллеров вне чипа, на северном мосту материнской платы, NUMA стала неотъемлемой частью многопроцессорных систем. В этом отношении AMD была лидером с самого начала, они на годы опережали Intel в разработке контроллеров на чипе для x86 процессоров. Таким образом, AMD работает с NUMA в течение многих лет, и аналогичным образом NUMA уже почти десятилетие работает в многопроцессорных серверных системах Intel. Новым в Threadripper является то, что наличие NUMA никогда не касалось потребителей. Пользовательские МСМ процессоры можно было пересчитать на пальцах, и нам пришлось бы вернуться к семейству Core 2 Quad, чтобы найти процессор с ядрами на нескольких кристаллах, что предшествовало контроллерам памяти для процессоров Intel. Таким образом, Threadripper стал первым процессором, который представил пользователям NUMA. Но что более важно, потребительское программное обеспечение также не было подготовлено к NUMA, поэтому почти ни одна программа не может использовать его особенности. Хорошей новостью является то, что хотя NUMA и изменяет правила игры, но при этом не нарушает работу старого программного обеспечения. Операционные системы с поддержкой NUMA помогают неприспособленному программному обеспечению поддерживать потоки и работу с памятью на одном узле NUMA, чтобы обеспечить стандартные характеристики производительности. Недостатком этого является то, что как сверхзаботливый родитель, ОС препятствует неприспособленному программному обеспечению использовать другие узлы NUMA, или, как в случае с Threadripper, запрещает приложениям использовать второй чип и его 8 ядер.

На аппаратном уровне Threadripper состоит из двух узлов NUMA В идеальном мире все программное обеспечение было бы NUMA-совместимым, что устранило бы любые проблемы по данному вопросу. Но на практике все выглядит немного иначе: программное обеспечение меняется медленно, и весьма маловероятно, что в скором будущем процессоры в стиле NUMA станут обычным явлением. Кроме того, программировать под NUMA может быть достаточно сложно, особенно в случае рабочих нагрузок или алгоритмов, которые связаны с работой с «дальними» ядрами и памятью. Таким образом, причуды NUMA никогда не исчезнут полностью, именно поэтому AMD взяла на себя ответственность за решение этой проблемы. AMD реализовала переключатели — как в BIOS, так и в приложении, чтобы поддерживать и контролировать NUMA у Threadripper. По умолчанию Threadripper фактически скрывает свою архитектуру NUMA. AMD вместо этого использует Threadripper в конфигурации UMA: унифицированная система доступа к памяти, в которой память отправляется на любую DRAM, а задержка является переменной (например, ~ 100 ns в среднем между 78 ns и 133 ns), но фокусируется на высокой пиковой пропускной способности. С помощью представления CPU для ОС в виде цельного дизайна, пропускная способность памяти увеличивается, и все приложения (NUMA-совместимые и нет) видят все 16 ядер как часть одного и того же CPU. Таким образом, для приложений, не поддерживающих NUMA (и, следовательно, их производительность была бы понижена операционной системой в режиме NUMA) — это позволяет максимизировать количество ядер, потоков и памяти, которые они могут использовать.

Все 32 потока представляются как часть одного монолитного CPU Недостатком режима UMA является то, что, поскольку он скрывает, как работает Threadripper, он не позволяет ОС и приложениям принимать полностью обоснованные решения, и, следовательно, их производительность снижена. Приложения, являющиеся чувствительными к задержкам и не оптимизированные под NUMA, могут терять в производительности, если они используют ядра и память, прикрепленные к другому чипу. Именно поэтому AMD позволяет настраивать Threadripper для режима NUMA, отображая полностью его дизайн для ОС и получая в результате отдельные устройства NUMA для двух чипов. Это предписывает ОС держать приложения привязанными к одному кристаллу, по возможности. Такой режим жизненно важен для некоторого программного обеспечения и игр, и мы проверили это в нашем обзоре. В целом, использование мульти-кристального дизайна имеет положительные и отрицательные стороны. Отрицательные представляют собой неравномерные задержки памяти, неравномерные задержки обращения ядро-к-ядру и избыточность в вычислениях на чипе, которые не нужно повторять. В результате AMD использует 400mm2+ кристаллы, что может увеличить затраты на уровне производства. Положительные же стороны в дизайне кристалла заключаются в возможности проектировать один кристалл и просто повторять его, вместо того, чтоб создавать несколько разных архитектур, которые умножают производственные затраты.

Intel использует единый монолитный кристалл в процессорах Skylake-X: LCC чип, содержащий до 10 ядер и HCC, содержащий от 12 до 18 ядер. Они используют прямоугольную сетку ядер (3x4 и 5x4 соответственно), причем два сегмента зарезервированы для контроллеров памяти. Для связи между ядрами Intel использует сетевое соединение, которое определяет, в каком направлении должны двигаться данные (вверх, вниз, влево, вправо или приниматься в ядро). В нашем обзоре Skylake-X мы рассмотрели методологию Intel в области модульной развязки (MODe-X) Intel, но основная концепция — постоянство. Эта связь работает на частоте 2,4 ГГц. До Skylake-X Intel реализовала кольцевую топологию, где данные должны были бы перемещаться вокруг кольца ядер, чтобы добраться до своего пункта назначения. Что касается связи между ядрами, то для AMD это Infinity Fabric, которая проходит внутри чипа или выходит на другой кристалл, а для Intel — внутренняя шина MoDe-X. Из-за разницы в задержке между двумя парами каналов памяти, AMD реализовало стратегию «режимов», которые пользователи могут выбрать в зависимости от рабочего процесса. Эти два режима называются Creator Mode (по умолчанию) и Game Mode и управляют двумя переключателями, для настройки производительности системы. Вот эти два переключателя:
  • Legacy Compatibility Mode, on or off (off by default)
  • Memory Mode: UMA vs NUMA (UMA by default)
Первый переключатель отключает ядра в одной из кремниевых матриц, но сохраняет доступ к каналам DRAM и линиям PCIe. Когда переключатель LCM выключен, каждое ядро может обрабатывать два потока, а 16-ядерный чип теперь имеет в общей сложности 32 потока. Когда LCM включается, система отключает половину ядер, оставляя 8 ядер и 16 потоков. Этот переключатель предназначен в первую очередь для обеспечения совместимости, поскольку определенные игры (например, DiRT) не могут работать с более чем 20 потоками в системе. С уменьшением количества потоков становится возможным запуск таких программ. Использование ядер одной матрицы также упрощает кросс-коммуникацию в основной микроархитектуре. Второй переключатель, режим памяти, переводит систему в режим однородного доступа к памяти (UMA) или режим архитектуры с неравномерной памятью (NUMA). При настройках по умолчанию, память и ядра процессора рассматриваются системой как единый массив с максимальной пропускной способностью и средней задержкой. Это упрощает понимание кода, хотя фактическая задержка для одной инструкции может быть на 20% больше или меньше средней, в зависимости от того, какой банк памяти используется.

NUMA по-прежнему дает системе всю память, но разбивает память и ядра на два блока NUMA, в зависимости от того, какая пара каналов памяти находится ближе к какому ядру. Система будет сохранять данные для ядра как можно ближе к нему, обеспечивая минимальную задержку. Для одного ядра это означает, что оно заполняет вначале ближайшую к нему память, с низкой задержкой, но использует только половину пропускной способности, а затем другую половину памяти с той же половинной bandwidth и с более высокой задержкой. Этот режим предназначен для чувствительных к задержкам рабочих нагрузок, устраняя узкое место в рабочем процессе. Для некоторого кода это имеет значение, как и для игр — низкая латенси может повлиять на средний FPS или 99-й процентиль в игровых тестах. Путаница в этом переключателе заключается в том, что AMD называет его «Режим доступа к памяти» в своей документации и маркирует две опции как «Локальная» и «Распределенная». Это проще понять, чем переключатель SMT, поскольку параметр «Локальная» фокусируется на латентности памяти, локальной по отношению к ядру (NUMA), а параметр Distributed фокусируется на пропускной способности ядра (UMA), при этом Distributed установлен по умолчанию.
  • When Memory Access Mode is Local, NUMA is enabled (Latency)
  • When Memory Access Mode is Distributed, UMA is enabled (Bandwidth, default)
С учетом вышесказанного, есть четыре способа организовать эти два переключателя. AMD дала двум конфигурациям имена, чтобы помочь пользователям выбрать режим использования системы. Режим Creator предназначен для предоставления как можно большего количества потоков и максимальной пропускной способности памяти. Игровой режим предназначен для оптимизации латентности и совместимости, чтобы повысить FPS в играх.

Есть два способа настроить каждый режим, что весьма запутывает ситуацию.

Настроить эти режимы можно через BIOS, однако в его настройках не указаны явно «Режим создателя» и «Режим игры». Там предоставлен непосредственный доступ к выбору режима памяти, которые ASUS назвал Local и Distributed, а не NUMA и UMA. Для режима Legacy Compatibility пользователям придется пробраться через несколько экранов в опции Zen, где настройка в конечном итоге станет доступной, и вручную отключить восемь ядер. Это делает Ryzen Master самым простым способом включения игрового режима.

Пока мы тестировали Threadripper, AMD обновляла Ryzen Master несколько раз, поэтому есть вероятность, что к тому моменту, когда вы это прочитаете, все снова поменяется. Но суть в том, что режим Creator и игровой режим здесь не являются отдельными настройками. Вместо этого AMD маркирует их как «профили». Пользователи могут выбрать профиль «Creator» или профиль «Game Mode», и в обоих профилях два переключателя, упомянутые выше (обозначенные как «Legacy Compatibility Mode» и «Memory Access Mode»), могут переключаться по мере необходимости. Чисто теоретически, режимы Creator и Game Mode имеет смысл переключать в зависимости от рабочего процесса. Если вам не нужны потоки, но нужна низкая задержка, игровой режим – ваш выбор. Однако это странно, так как Threadripper нацелен на многопоточные рабочие нагрузки больше, чем игры, и потеря половины потоков в игровом режиме может нанести ущерб реализации рабочей станции. При этом пользователи могут оставить SMT включенным и по-прежнему изменить режим доступа к памяти самостоятельно, хотя AMD фокусируется именно на режимах Creator и Game Mode. Для этого обзора мы протестировали оба режима на 16-ядерном Threadripper 1950X. В качестве академического упражнения мы рассматривали задержку памяти в обоих режимах, а также на более высоких частотах DRAM. Ниже показаны данные задержки для выбранного ядра (мы выбрали ядро 2 в каждом случае), а затем переходим к L1, L2, L3 и основной памяти. Для системы UMA, как в режиме Creator, результат латентности памяти будет средним между результатами ближней и дальней памяти. Мы также добавили здесь Ryzen 5 1600X в качестве примера одиночной матрицы Zeppelin и 6950X Broadwell для сравнения. Все процессоры работали на DDR4-2400, что является максимальным поддерживаемым ОЗУ при двух модулях DIMM на канал.

Для 1950X в двух режимах результаты по существу равны, пока мы не достигаем 8 МБ, что является пределом кэша L3 для CCX. После этого ядро задействует основную память, где задержка в режим Game около 79 нс, а в режиме Creator — 108 нс. Для сравнения, Ryzen 5 1600X, похоже, имеет более низкую задержку при 8 МБ (20 нс против 41 нс), а затем оказывается между режимами Creator и Game с показателем 87 нс. Похоже, что значительным недостатком режима Creator является тот факт, что доступ к основной памяти намного медленнее, чем у обычного Ryzen или в режиме Game. Если мы поднимем частоту DRAM до DDR4-3200 для Threadripper 1950X, цифры примут более справедливый вид:

Пока не достигнута граница в 8 МБ, где L3 не попадет в основную память, все почти одинаково. Однако при 8 МБ латентность на DDR4-2400 составляет 41 нс по сравнению с 18 нс на DDR4-3200. Затем, при переходе на основную память, видим результат: режим Creator на DDR4-3200 близок к Game режиму на DDR4-2400 (87 нс против 79 нс), но переход с режима Game на DDR4-3200 снижает латентность до 65 нс. Еще одним элементом, который мы тестировали в Game mode, была латентность для близкой памяти и дальней памяти (относительно одного ядра). Помните этот слайд от AMD?

В нашем тестировании мы достигли следующего:
  • At DDR4-2400, 79 нс ближняя память and 136 нс «дальняя» память (108 нс в среднем)
  • At DDR4-3200, 65 нс ближняя память and 108 нс «дальняя» память (87 нс в среднем)
Эти средние значения — то, что мы получаем в дефолтном режиме Creator, с учетом того, что режим UMA + Creator будет использовать память (дальнюю или ближнюю) случайным образом. В соответствии с нашей политикой тестирования процессора мы берем материнскую плату премиум-класса, подходящую для сокета, и оснащаем систему подходящим объемом памяти, работающим на максимальной поддерживаемой частоте. Так же, по возможности, выполняются предписания JEDEC. Мы знаем, что некоторые пользователи не согласны с таким подходом, заявляя, что иногда максимальная поддерживаемая частота весьма низкая или что более быстрая память доступна по аналогичной цене, или что скорости JEDEC могут препятствовать производительности. Хотя эти комментарии имеют смысл, в конечном итоге очень немногие пользователи используют профили памяти (XMP или другие), поскольку для этого требуется взаимодействие с BIOS. Большинство пользователей отказываются от использования поддерживаемых скоростей JEDEC — сюда относятся как домашние пользователи, так и производители, которые могут как захотеть сэкономить цент или два на стоимости, так и остаться в пределах, установленных производителем.

Там, где это возможно, мы расширим тестирование для применения более быстрых модулей памяти: либо одновременно с обзором, либо позже. Мы должны поблагодарить следующие компании за любезное предоставление оборудования для наших многочисленных тестовых задач. Некоторые из этих аппаратных средств специально не используются в этом тестовом сетапе, но используются в других тестах.

Спасибо Sapphire за предоставление нескольких графических процессоров AMD. Мы встретились с Sapphire на Computex 2016 и обсудили платформу для нашего будущего тестирования на GPU AMD их производства для нескольких предстоящих проектов. В результате, они смогли предоставить нам новейший чип, который AMD может предложить. В верхней части списка была пара графических процессоров Sapphire Nitro R9 Fury 4 ГБ, основанная на первом поколении технологии HBM и платформе AMD Fiji. В качестве первого потребительского GPU c HDM, R9 Fury является ключевым моментом в истории графических карт, и эти супер-карты поставляются с 3584 SP, работающими на частоте 1050 МГц, и GPU с 4 гигабайтами 4096-битной памяти HBM на частоте 1000 МГц.

Вслед за Fury компания Sapphire также представила пару своих новейших карт Nitro RX 480 8GB, чтобы представить текущий высокопроизводительный процессор AMD на 14 нм (по состоянию на март 2017 года). Переход на 14нм привел к значительному улучшению энергопотребления у AMD, что в сочетании с последней версией GCN позволило создать VR-ready видеокарту по цене около $200. Графическая карта Sapphire Nitro RX 480 8GB OC задумана как премиум-класс семейства RX 480, имеющего полный набор 8 ГБ памяти GDDR5 со скоростью 6 Гбит/с, и 2304 SP работающих на тактовых частотах 1208/1342 МГц.

Вместе с R9 Fury и RX 480 — предназначены для гейм тестов — Sapphire передала пару RX 460, которые будут использоваться при тестировании процессора. Объем доступных мощностей GPU может напрямую влиять на производительность ЦП, особенно если процессор все время взаимодействует с видеокартой. RX 460 — отличная карта для такой цели, так как сочетает высокую производительность и низкое энергопотребление, не требуя каких-либо дополнительных разъемов питания. Sapphire Nitro RX 460 2GB следует философии Nitro — предоставляет хорошую мощность по низкой цене. Его 896 SP работают на частотах 1090/1216 МГц, он укомплектован 2 ГБ GDDR5 с эффективными 7000 МГц.

Мы также должны поблагодарить MSI за предоставление нам GPU GTX 1080 Gaming X 8GB. Несмотря на масштабы AnandTech, обеспечение тестов хай-энд графическими картами непростая задача. MSI решила задачу в лучших традициях и поддержала нас парой высококачественных видеокарт. Графическая карта MSI GTX 1080 Gaming X 8GB является продуктом премиум-класса с воздушным охлаждением, который на уровень ниже Seahawk, но превосходит Aero и Armor с водным охлаждением. Это большая карта с двумя вентиляторами Torx, индивидуальным дизайном печатной платы, технологией Zero-Frozr, улучшенной PWM и большой задней панелью для облегчения охлаждения. Карта использует кремниевую матрицу GP104-400 на 16-нм TSMC-процессе, содержит 2560 ядер CUDA и может работать на частоте до 1847 МГц в режиме OC (или 1607-1733 МГц в режиме Silent). На борту есть 8 ГБ GDDR5X, работающий на частоте 10010 МГц. Долгое время GTX 1080 была признанным чемпионом среди видеокарт.

Спасибо ASUS за предоставление GTX 1060 6GB Strix GPU. Чтобы завершить работу с высоким / низким сегментом как для графических процессоров AMD, так и для NVIDIA, мы смотрели на карты GTX 1060 6 ГБ, чтобы соблюсти баланс цены и производительности и получить возможность проверить игры на разрешении выше 1080p при одной видеокарте. ASUS протянула руку помощи, поставив вариант Strix GTX 1060. Эта карта еще длиннее GTX 1080, с тремя вентиляторами и светодиодами. STRIX – лоу-кост игровой бренд ASUS, следующий за ROG, при этом Strix 1060 – это половина топовой карты 1080. Имеет 1280 ядер CUDA, работающих на базовой частоте 1506 МГц (до 1746 МГц в режиме OC), и 6 ГБ GDDR5 с частотой 8008 МГц на 192-битном интерфейсе памяти.

Спасибо Crucial за предоставленный SSD MX200. Критический момент в том, что наш список тестов растет с новыми бенчмарками и именами игр, а 1TБ MX200 – серьезная помощь. Созданный на контроллере 88S9189 от Marvell и использующий микросхему Micron с 16-нм 128-Гбит MLC, это 7-миллиметровый, 2,5-дюймовый прибор, рассчитанный на 100K случайных считываний IOPS и 555/500 МБ/с скорость чтения и записи. Модели 1TБ, которые мы используем здесь, поддерживают шифрование TCG Opal 2.0 и IEEE-1667 (eDrive) и имеют номинальную выносливость 320 ТБ с трехлетней гарантией.

Спасибо Corsair за предоставленный блок питания AX1200i. AX1200i был первым источником питания, предлагающим цифровой контроль и управление через систему Corsair Link. Он способен выдавать 1200 Вт при 50°C и имеет сертификацию 80 PLUS Platinum. Это позволяет обеспечить 89-92% эффективности при 115 В и 90-94% при 230 В. AX1200i полностью модульный, с более крупной 200-миллиметровой конструкцией, и с двойным шарикоподшипниковым 140-мм вентилятором для поддержки высокопроизводительной работы. AX1200i спроектирован как рабочая лошадка с 8 разъемами PCIe с поддержкой four-way GPU. AX1200i также имеет режим вентилятора Zero RPM, который позволяет выключить вентилятор, если источник питания работает с нагрузкой менее 30%.

Спасибо G.Skill за предоставленную память. На протяжении многих лет G.Skill поддерживает AnandTech при тестировании CPU или материнских плат. Мы уже писали об их высокопроизводительных и высокочастотных чипах, и каждый год на Computex G.Skill проходит мировой турнир по оверклокингу на жидком азоте прямо на выставочном этаже.

Для настоящего обзора мы внедрили новый набор тестов процессора. Он использует наши новые скрипты, разработанные специально для этого тестирования. Это означает, что после установки свежей операционной системы, мы можем сконфигурировать ОС для максимальной совместимости, установить новые тесты, сохранить нужную версию ОС без случайных апдейтов и запустить серию тестов менее, чем за пять минут. После этого понадобится одно нажатие кнопки для запуска 8-10-часового теста (с высокопроизводительным ядром) с почти 100 соответствующими отметками данных в тестах, приведенных ниже для процессоров, за которыми следуют наши гейминг тесты, они отработают 4-5 часов на каждом из тестируемых графических процессоров. Тесты CPU охватывают широкий диапазон сегментов, многие из которых будут вам знакомы. Некоторые из тестов являются новыми для бенчмаркинга в целом, но не менее важны для ЦА. Наши новые тесты CPU охватывают шесть основных областей. Мы охватываем Web (у нас есть необновляемая версия Chrome 56), общие системные тесты (открытие сложных PDF-файлов, эмуляция, brain simulation, AI, преобразование 2D-изображения в 3D-модели), рендеринг (трассировка лучей, моделирование), кодирование (сжатие, AES, h364 и HEVC), офисные тесты (PCMark и другие) и наши предыдущие тесты — атавизм из поколения плохого кода, интересный для сравнения. Замечание по подготовке ОС. Поскольку мы используем Windows 10, есть большая вероятность внезапного обновления системы, что нарушит наше тестирование. В связи с такой угрозой мы приняли широкий спектр защитных мер: запретили обновления по максимуму, отключили Windows Defender, удалили OneDrive, отключили Cortana насколько возможно. Кроме того, включили высокопроизводительный режим в параметрах питания, и отключили часы внутренней платформы, которые могут давать погрешность, если базовая частота меняется (и, следовательно, тайминг будет неточным).

Web Tests on Chrome 56

Sunspider 1.0.2 Mozilla Kraken 1.1 Google Octane 2.0 WebXPRT15

System Tests

PDF Opening FCAT 3DPM v2.1 Dolphin v5.0 DigiCortex v1.20 Agisoft PhotoScan v1.0

Rendering Tests

Corona 1.3 Blender 2.78 LuxMark v3.1 CPU C++ LuxMark v3.1 CPU OpenCL POV-Ray 3.7.1b4 Cinebench R15 ST Cinebench R15 MT

Encoding Tests

7-Zip 9.2 WinRAR 5.40 AES Encoding (TrueCrypt 7.2) HandBrake v1.0.2 x264 LQ HandBrake v1.0.2 x264-HQ HandBrake v1.0.2 HEVC-4K

Office / Professional

PCMark8 Chromium Compile (v56) SYSmark 2014 SE

Legacy Tests

3DPM v1 ST / MT x264 HD 3 Pass 1, Pass 2 Cinebench R11.5 ST / MT Cinebench R10 ST / MT Что касается нашего нового набора тестов GPU, мы решили мыслить масштабно. В экосистеме множество пользователей, которые ставят на вершину приоритета игры, если речь идет о выборе процессора. И если есть шанс сэкономить $50 на процессоре и получить лучшую графическую карту без потери производительности, то это путь, который выберет большинство геймеров. Именно здесь нас ждут серьезные трудности — игры не только с разными требованиями, но и по разному нагружают систему, причем и видеокарты по разному «реагируют» на поток кода игры. К тому же пользователи имеют весьма широкий спектр суждений и предпочтений, определяющих, что именно является «нормой». С таким количеством степеней свободы тестирование можно растянуть до конца нашей жизни, при том, что результаты станут устаревшими уже через несколько месяцев после начала тестов – когда выйдет новая игра или новое GPU появится на рынке. Для хорошей точности позволим себе использовать игры под DirectX 12, который упрощает использование большего количества ядер процессора при игровом процессе. Наш первоначальный список из девяти игр, выходящих в феврале, быстро стал шестью из-за отсутствия профессионального уровня настроек в играх Ubisoft. Если вы захотите увидеть на AnandTech тесты For Honor, Steep или Ghost Recon: Wildlands, подскажите Ubisoft Annecy или Ubisoft Montreal, где нас найти. Хотя эти игры имеют внутренний бенчмарк, достойный применения, к сожалению, он не предоставляет конечному пользователю достаточной покадровой детализации, несмотря на то, что используется при подготовке данных, которые и видит пользователь в конечном итоге (в результате он, как правило, бывает скрыт другим слоем). Вместо этого я бы предпочел автоматизировать эти тесты через входные данные, однако чрезвычайно непостоянное время загрузки является серьезным препятствием. Итак, список тестов, входящих в наш скрипт 4/2, автоматизированный до однокнопочного запуска, и выдающий результаты четыре часа спустя по каждому графическому процессору. Также перечислены используемые разрешения и настройки:
  • Civilization 6 (1080p Ultra, 4K Ultra)
  • Ashes of the Singularity: Escalation* (1080p Extreme, 4K Extreme)
  • Shadow of Mordor (1080p Ultra, 4K Ultra)
  • Rise of the Tomb Raider #1 — GeoValley (1080p High, 4K Medium)
  • Rise of the Tomb Raider #2 — Prophets (1080p High, 4K Medium)
  • Rise of the Tomb Raider #3 — Mountain (1080p High, 4K Medium)
  • Rocket League (1080p Ultra, 4K Ultra)
  • Grand Theft Auto V (1080p Very High, 4K High)
Для каждого из графических процессоров при тестировании перечисленные игры (при каждой комбинации разрешения / настройки) выполняются по четыре раза, при этом резко отклоняющиеся значения отбрасываются. Средняя частота кадров, 99-й процентиль и данные «Time Under x FPS» сортируются, а исходные данные архивируются. Четырьмя графическими процессорами, которые мы раздобыли для тестов, являются:
  • MSI GTX 1080 Gaming X 8G
  • ASUS GTX 1060 Strix 6G
  • Sapphire Nitro R9 Fury 4GB
  • Sapphire Nitro RX 480 8GB
В нашем тестовом скрипте мы приберегли кое-что особенное для GTX 1080. Также добавляются следующие тесты:
  • Civilization 6 (8K Ultra, 16K Lowest)
Этот бенчмарк, некоторыми ограничениями, может быть запущен, хотя и выходит за пределы характеристик используемого монитора, позволяя «будущее» тестирование графических процессоров на 8K и 16K с некоторыми любопытными результатами. Мы проводим эти тесты только на GTX 1080, потому что нет никакого смысла смотреть слайд-шоу более одного раза. * Как указано в примечании к этому обзору, у нас нет данных об играх на процессоре Skylake-X. Мы провели серию тестов еще до получения Threadripper, используя последние апдейты и свежий BIOS. Однако сейчас, анализируя данные, мы видим ряд нерешенных проблем с производительностью, которые должны быть закрыты до публикации результатов. Наш первый набор тестов — общие системные тесты. Этот набор тестов предназначен для эмуляции того, что люди обычно делают в операционной системе, как, например, открытие больших файлов или обработка небольших стеков данных. Он несколько отличается от нашего офисного тестирования, где используются промышленные стандарты, а некоторые из тестов здесь относительно новые и необычные. Первый в списке – написанный нами тест с использованием чудовищного PDF-документа, который мы когда-то получали перед посещением мероприятия. Хотя документ содержит всего одну страницу, он содержит такое количество высококачественных слоев, что моему ноутбуку среднего уровня требовалось 15 секунд, чтобы открыть файл и вернуть мне контроль над системой. Этот документ стал лучшим кандидатом для нашего теста «давайте-откроем-ужасный-PDF документ». Здесь мы использовали Adobe Reader DC с отключенным функционалом обновлений. Наш бенчмарк устанавливает разрешение экрана в 1080p, открывает PDF в режиме fit-to-screen и замеряет время между отправлением команды на открытие файла и временем, когда файл развернут на экране, а пользователь снова имеет контроль над софтом. Тест повторялся по 10 раз, после чего вычислялось среднее время. Результаты показаны в миллисекундах.

Этот тест – однопотоковый, поэтому высокочастотные чипы Intel получают очевидную победу. К тому же, на этом тесте незаметно особой разницы между чипами Threadripper. Одна из наиболее интересных нагрузок, которые попадали в наши руки в последних кварталах, — это FCAT — инструмент, который мы используем для измерения и визуального анализа задержек в играх из-за упавших или испорченных кадров. Процесс FCAT требует включения цветного оверлея в игру, записи игрового процесса и последующего анализа видеофайла с помощью соответствующего программного обеспечения. Однако этот софт обычно однопоточный, поскольку видео в основном в RAW формате, что предполагает большой размер файла и требует перемещения большого количества данных. Для нашей проверки мы берем 90-секундную запись теста Rise of the Tomb Raider, работающего на GTX 980 Ti на 1440p, размер которой составляет около 21 ГБ и измеряем время, необходимое для обработки с помощью инструмента визуального анализа.

Подобно открытию PDF, однопоточная производительность на высоте. Многие эмуляторы связаны однопроцессорной производительностью процессора, а общие отчеты, как правило, предполагают, что Haswell значительно повысил производительность эмулятора. Этот бенчмарк запускает программу Wii, в которой луч отслеживает сложную трехмерную сцену внутри эмулятора Dolphin Wii. Результаты этого теста – вполне надежный показатель скорости процессорной эмуляции Dolphin, которая представляет собой интенсивную одноядерную задачу, использующую большинство аспектов процессора. Результаты приведены в минутах, где сам Wii показал результат 17,53 минуты.

Dolphin хорошо показывает себя там, где есть высокая производительность одного ядра, хотя, судя по тесту, многопоточность все же присутствует и дополнительные ядра задействованы. Это последняя версия написанного нами 3DPM бенчмарка. Цель 3DPM – симулировать частично оптимизированные научные алгоритмы, взятые непосредственно из моей докторской диссертации. Версия 2.1 отличается от 2.0 тем, что передает основные структуры частиц ссылкой, а не значением и уменьшает количество преобразований double->float->double, выполняемых компилятором. Это дает ускорение на 25% по сравнению с версией 2.0, что означает новые данные.

Итак, в нашем первом чисто многопоточном тесте, побеждает 1950X с 32 потоками. 1920X превосходит 1950X в режиме SMT-off, из-за 24 потоков, превосходящих 16 потоков. Хотя и устаревшее на пару лет, программное обеспечение DigiCortex является домашним проектом для визуализации активности нейронов и синапсов в мозге. Программное обеспечение поставляется с различными эталонными тестами, и мы берем небольшой бенчмарк, который запускает симуляцию мозга 32 тысячи нейронов / 1.8 миллиарда синапсов. Результаты теста обозначают способность системы вести эмуляцию в режиме реального времени, а значит, любой результат выше единицы подходит для эмуляции.

Для получения хорошего результата DigiCortex требует смесь из высокой частоты процессора и производительности DRAM, поэтому подойдет что угодно с четырехканальной памятью. 1950X в режиме SMT-off выигрывает здесь из-за быстрого обращения к основной памяти в сочетании с наличием 16 потоков для доступа к ней. Broadwell-E является ближайшим конкурентом и превосходит даже Skylake-X, скорее всего, из-за кольцевой топологии (ring) против сетевой (mesh) у Skylake. Показатели 1950X в режиме Creator, однако, намного ниже, чем у стандартных чипов Ryzen, показывая, что при единой архитектуре памяти может произойти значительное снижение производительности. 1920X провалил этот тест по неизвестной причине. Photoscan остается в нашем тестовом наборе из предыдущей версии тестов, однако теперь мы работаем в Windows 10, поэтому в игру вступают такие функции, как Speed Shift на новейших процессорах. Концепция Photoscan – преобразование множества 2D-изображений в 3D-модель — поэтому чем более детализированы изображения и чем больше таковых, тем лучше модель. Алгоритм состоит из четырех этапов: нескольких однопоточных и нескольких многопоточных, а также имеет некоторую зависимость от кэша и памяти. Для некоторых более разнообразных рабочих задач с многопоточными функциями такие опции, как Speed Shift и XFR, смогут использовать преимущества ожидания или простоев CPU, давая значительный прирост производительности на новых микроархитектурах.

Переменчивая одно-много-поточность Agisoft показывает, что в таком процессе решающим элементом победы является сочетание ядер, IPC и частоты. AMD занимает последние позиции, вероятно, из-за его реализации AVX. Рендеринг тесты – давно признанный фаворит обзоров и тестов, поскольку код, используемый пакетами рендеринга, обычно оптимизирован, чтобы выжать каждый бит производительности. Иногда рендеринг программ также сильно зависит от памяти — когда у вас есть много потоков, переносящих тонны данных, память с малой задержкой отклика может быть ключом ко всему. Здесь мы берем несколько обычных пакетов рендеринга под Windows 10, а также несколько новых интересных тестов. Corona — это автономный пакет, предназначенный для поддержки программного обеспечения, такого как 3ds Max и Maya, фотореализмом с помощью трассировки лучей. Это просто – направляешь лучи, получаешь пиксели. Ладно, немного сложнее, но этот бенчмарк рендерит фиксированную сцену шесть раз и выдает результаты в разрезе времени и количества лучей в секунду. В официальных таблицах бенчмарка представлены результаты пользователей с точки зрения времени, однако я считаю, что «лучей в секунду» является лучшим показателем (да и в общем, результаты, где «больше означает лучше», проще объяснять). Corona любит нагромождать потоки, поэтому результаты оказываются в сильной зависимости именно от количества потоков.

Корона любит потоки. Старик в мире рендеринг-тестов, Blender все еще очень популярный инструмент. Нам удалось запустить стандартную рабочую нагрузку на билде Blender от 5 февраля, и измерить время, необходимое для рендеринга первого кадра сцены. Блендер является одним из крупнейших инструментов с открытым исходным кодом, это означает, что как AMD, так и Intel работают активно, чтобы помочь улучшить кодовую базу, что может идти как на пользу, так и во вред их собственной микроархитектуре.

Blender любит потоки и пропускную способность памяти. Как синтетический, LuxMark может показаться несколько ненадежным, как средство визуализации, учитывая, что он в основном используется для тестирования графических процессоров. Однако он предлагает как OpenCL, так и стандартный режим C ++. В этом случае, помимо сравнения в каждом варианте кодирования ядер и IPC, мы также видим, что код C ++ к OpenCL показывают разную производительность на одних и тех же процессорах.

Как и Blender, LuxMark полагается на количество потоков. Трассировка лучей — это почти учебник для легкого многопоточного масштабирования. Хотя интересно, насколько близок к вершине 10-ядерный Core i9-7900X в тесте CPU (C ++), несмотря на значительный недостаток количества ядер, вероятно, из-за комбинации более высоких IPC и частоты. Еще один регулярный бенчмарк в большинстве suit — POV-Ray. Еще один трассировщик лучей с многолетней историей. Как это часто случается, во время подготовки AMD к запуску Ryzen, база кода стала активно обновляться, так как разработчики вносят изменения в код и выпускают новые апдейты. Наша версия для тестов была взята как раз перед началом таких событий, но со временем мы видим, что код POV-Ray корректируется в соответствии с новыми требованиями.

Подобно LuxMark, POV-Ray также выигрывает за счет потоков. Последняя версия CineBench также стала одной из тех программ, которые использовались везде, в частности, как индикатор производительности одного потока. Высокий уровень IPC и высокая частота дают производительность в ST, тогда как наличие хорошего масштабирования и многих ядер — это результат теста MT.

Недавно Intel объявила, что ее новый 18-ядерный чип набирает 3200 на Cinebench R15. Это означает прирост производительности на 6,7% по сравнению с Threadripper 1950X за вдвое большую цену. Одна из проблем при запуске веб-тестов — это привычка современных браузеров автоматически устанавливать обновления. Это означает, что в любой продолжительный период бенчмаркинга правило «обновляй это за пределами состояния сравнения» будет нарушено, особенно когда браузеры начинают обновляться. Несмотря на это, нам удалось найти ряд команд для создания не-обновляемой версии Chrome 56 для нашего тестового набора 2017. Хотя это и означает, что мы не шагаем в ногу со временем с последней версией браузера, это делает оценки сравнения процессоров сопоставимыми. Самый старый веб-тест в этой части нашего обзора – SunSpider. Это очень простой инструмент на основе JavaScript-алгоритма, и в конечном итоге является более мерилом IPC и быстродействием памяти, чем что-либо еще, причем большинство высокопроизводительных процессоров показывают примерно равный результат. Базовый тест выполняет 10 циклов и выдает среднее значение. Мы выполняем этот базовый тест 4 раза.

Kraken — это еще один тест на основе Javascript, использующий тот же тестовый набор, что и SunSpider, но сосредоточенный на более строгих реальных случаях использования и библиотеках, таких как обработка звука и фильтры изображений. Опять же, основной тест зацикливается десять раз и мы выполняем базовый тест четыре раза.

Крупнейшие разработчики браузеров, такие как Google и Mozilla, знают, что максимальная производительность JS зачастую является критическим моментом при сравнении с другими разработчиками ОС. Точно так же, как SunSpider является очень ранним тестом JS, а Kraken немного новее, Octane стремится быть более релевантным для реальных рабочих нагрузок, особенно в устройствах с ограниченными возможностями, в таких как смартфоны и планшеты.

В то время как предыдущие три теста выполняют вычисления в фоновом режиме, а затем показывают набранные очки, WebXPRT предназначен для лучшей интерпретации визуальных рабочих нагрузок, которые могут иметь профессиональные пользователи. Например, приложения на основе браузера, графические изображения, редактирование изображений, сортировка и анализ данных, научный анализ и финансовые инструменты.

В целом, все наши веб-тесты показывают аналогичную тенденцию. Очень немногие веб-фреймворки предлагают многопоточность — сами браузеры не имеют многопоточности, поэтому количество потоков Threadripper's просто не используется. В итоге, герой дня в Интернете — несколько быстрых ядер с высокой однопоточной производительностью. Одним из интересных элементов современных процессоров является производительность кодирования. Это включает в себя шифрование / дешифрование, а также перекодирование видео из одного видеоформата в другой. В случае шифрования / дешифрования производительность по-прежнему актуальна для шифрования конфиденциальных данных «на лету» — процесса, с помощью которого современные устройства обычно обеспечивают безопасность программного обеспечения. Использование перекодирования видео для подгонки качества, размера файла и разрешения видеофайла испытывает настоящий бум в последнее время. Это необходимо для подгонки видео под девайс потребителя или для гейм-стримеров, которые желают выгружать перекодированный поток видео с камеры в режиме риал-тайм. По мере того, как мы переходим в живое 3D-видео, эта задача будет еще более приоритетной, и оказывается, что быстродействие определенных алгоритмов определяется функцией ввода / вывода содержимого. Одним из фриварных архиваторов, позволяющих оценить производительность процессоров, является 7-Zip. Он работает под лицензией с открытым исходным кодом, является быстрым и простым в использовании инструментом для опытных пользователей. Мы запускаем тестовый режим через командную строку для четырех циклов и получаем результат.

По просьбе нескольких пользователей мы вернулись к нашим сохраненным тестовым данным и вытащили номера сжатия / декомпрессии для 7-zip. AMD явно выигрывает здесь в декомпрессии с огромным отрывом. Для тестового пакета 2017 мы воспользуемся последней версией WinRAR в нашем тесте архиваторов. WinRAR в некоторых аспектах более удобен для пользователя, чем 7-Zip, поэтому мы решили включить его в пакет. Вместо использования бенчмарк режима, как в случае с 7-Zip, здесь мы берем набор файлов, представляющих общий стек (33 видеофайла в 1,37 ГБ, 2834 файла меньшего размера в 370 папках в 150 МБ) сжимаемых и несжимаемых форматов. Показанные результаты — это время, затраченное на кодирование файла. Из-за кэширования DRAM мы запускаем тест 10 раз и получаем среднее значение для последних пяти запусков, когда бенчмарк находится в устойчивом состоянии.

Кодирование WinRAR — еще один тест, который не особо масштабируется с ростом количества потоков. После всего лишь нескольких потоков большая часть его многопоточной производительности была достигнута. Это не позволяет использовать ресурсы Threadripper и это прямая помеха в режиме Creator. Алгоритмы, использующие AES-кодирование, широко распространились по всему миру в качестве вездесущего инструмента для шифрования. Однако, это еще один тест-для-ЦПУ, а современные ЦПУ имеют расширение системы команд AES для увеличения производительности шифрования. Мы часто рассматриваем масштабирование как по частоте, так и по ядрам с помощью этого бенчмарка. Мы используем последнюю версию TrueCrypt и запускаем его в бенчмарк-режиме с 1 ГБ данных в DRAM. Показанные результаты — это среднее значение GB / s для шифрования и дешифрования.

Как упоминалось выше, перекодирование видео (как кодирование, так и декодирование) является горячей темой в показателях производительности, поскольку темпы создания нового контента нарастают. Первая идея – изменение стандарта форматирования видео, которое может происходить как с потерей, так и без потери качества. Так же возможно уменьшение качества видео в угоду размера файла. Наряду с любимым кодеком Google, VP9, есть еще два других часто используемых: h364, старый кодек, есть практически везде и оптимизирован для видео 1080p, и HEVC (или h365), целью которого является обеспечение того же качества, что и h364, но при более низком размере файла (или более высоком качестве для одного и того же размера). HEVC важен, поскольку способен передавать потоковое видео в качестве 4К, что означает передачу меньшего количества бит для одного и того же качественного контента. Handbrake является предпочтительным инструментом для перекодирования, поэтому наш тестовый режим покрывает три области. Низкое качество / разрешение h364: здесь мы перекодируем 2-часовую 640x266 h364 видеозапись и меняем кодировку с Main profile на High profile, используя very-fast предустановку.

Высокое качество / разрешение h364: аналогичный тест, но на этот раз мы берем десятиминутный двойной файл 4K (3840x4320), работающий на частоте 60 Гц и перекодированный с Main на High, используя very-fast предустановку.

Тест HEVC: используя то же видео в HQ, мы меняем разрешение и кодек исходного видео с 4K60 в h364 на 4K60 HEVC.

В тесте HQ h364 AMD показывает высокие результаты на обоих процессорах, а SMT-off сильно ограничивает 1950X из-за отсутствия потоков SMT. Когда мы переходим на HEVC, 1950X и 7900X показывают примерно одинаковую производительность. Офисные программы, которые мы используем для бенчмаркинга, — это не конкретные программы, а отраслевые стандартные тесты, которые имеют вес в профессиональной среде. Цель этих тестов — использовать набор программ и методов, с которыми может столкнуться обычный офисный пользователь, например, видеоконференции, редактирование документов, архитектурное моделирование и так далее, и тому подобное. Наш новый тест компиляции использует Windows 10 Pro, VS Community 2015.3 с Win10 SDK для компиляции ночной сборки Chromium. Мы подготовили тест для сборки в конце марта 2017 года, и в нашем тесте мы запускаем новую полную компиляцию. Компиляция — типичный пример рабочей нагрузки с переменной многопоточностью — некоторые процессы компиляции и привязки линейны, тогда как другие части являются многопоточными.

Одним из интересных пунктов в нашем тесте является компиляция, и удивительно видеть, что 1920X оказался немного быстрее чипа Ryzen 7. Поскольку для этого теста требуется высокая скорость обмена данными между ядрами, чем меньше ядер в CCX комплексе, тем хуже результат. Поэтому 1950x обгоняет «3-ядра-в-CCX» 1920x процессор (а также благодаря меньшей скорости отклика памяти). Мы знаем, что этот тест нетребователен к кэшу тестируемых ЦПУ, однако, похоже, соотношение 2 МБ на ядро хорошо помогает 1950X и может объяснить разницу в производительности с 8 до 12 до 16 ядер на микроархитектуре Zen. Несмотря на то, что PCMark впервые появился на свет в 2008/2009 году, Futuremark поддерживает PCMark8, и он остается актуальным и в 2017 году. В масштабах сложных задач PCMark больше ориентируется на низкопроцентный диапазон профессиональных нагрузок, что делает его хорошим индикатором того, что люди считают «офисной работой». Мы запускаем бенчмарк из командной строки в «традиционном» режиме, то есть C ++ поверх OpenCL, чтобы удалить графическую карту из уравнения и сосредоточиться исключительно на процессоре. PCMark8 предлагает Home, Work и Creative рабочую нагрузку, при этом некоторые тесты программного обеспечения являются общими, а другие уникальными для каждого набора тестов.

Как ни странно, Creative тест PCMark 8 терпит неудачу по всем направлениям. Мы пытаемся выяснить, в чем причина. SYSmark разрабатывается Bapco, консорциумом производителей процессоров. Цель SYSmark состоит в том, чтобы взять набор популярных программ, таких как Photoshop и Onenote, и определить, сколько времени потребуется для выполнения определенных задач в этом программном обеспечении. Конечным результатом является оценка для каждого из трех сегментов (Office, Media, Data), а также общий балл. Здесь базовая система отсчета (Core i3-6100, 4 ГБ DDR3, 256 ГБ SSD, Интегрированная графика HD 530) используется для обеспечения базовой оценки 1000 в каждом тесте.

Наши устаревшие тесты представляют собой контрольные показатели, которые когда-то были впереди своего времени. Некоторые из них являются синтетическими стандартами в промышленности, и у нас есть данные, приходящие в течение уже 10 лет. Все данные здесь были повторно запущены в Windows 10, и мы планируем вернуться к нескольким поколениям компонентов, чтобы узнать, как развилась производительность. 3DPM — это написанный нами тест, применяющий базовые алгоритмы 3D-движения, используемые в симуляциях Brownian Motion, и их тестирование на скорость. Высокая производительность вычислений с плавающей точкой, МГц и IPC покажут себя в версии с одним потоком, тогда как многопоточная версия работает с потоками и «любит» наличие многих ядер. Это оригинальная версия, написанная в стиле типичного некомпьютерного студента, кодирующего алгоритм для теоретической проблемы. Она поставляется без каких-либо неочевидных оптимизаций, которые еще не выполняются компилятором, например false sharing.

Cinebench — широко известный инструмент для измерения производительности, имеющий отношение к анимационному программному обеспечению MAXON Cinema 4D. Cinebench оптимизировался в течение десятилетия и фокусируется только на мощности процессора. Это означает, что если есть несоответствие характеристик пропускной способности, Cinebench, скорее всего, покажет это несоответствие. Возможно, другое программное обеспечение не использует все доступные инструменты для нагрузки процессора, поэтому релевантность теста для реального мира может быть чисто академической, но, учитывая нашу большую базу данных для Cinebench, трудно игнорировать небольшой пятиминутный тест. В этом тесте мы запускаем современную версию 15, а также старые 11,5 и 10.

Аналогично, пакет x264 HD 3.0, который мы здесь используем, также хранится для исторических регрессионных данных. Последняя версия 5.0.1, она кодирует видеоролик 1080p в высококачественный x264-файл. Версия 3.0 выполняет тот же тест в файле 720p, и в большинстве случаев производительность программного обеспечения достигает предела для high-end процессоров, но все еще хорошо работает для среднего и младшего уровня. Кроме того, эта версия выполняется всего несколько минут, тогда как последняя может занять более 90 минут.

1950X: первый процессор, который набрал более высокий результат на втором проходе этого теста, чем на первом. Итак, первая игра в наших процессорных гейм-тестах — Civilization 6. Изначально запущенная Sid Meier и его командой, Civ серия пошаговых стратегий стала культовой классикой. Было принесено много извинений за бессонные ночи игроков, которые не могли заставить Ганди начать войну из-за переполнения целых чисел. По правде говоря, я никогда не играл в первую версию, но зато играл в каждую часть со второй по шестую, в том числе четвертую, озвученную покойным Леонардом Нимоем. Это игра, в которую легко играть, но сложно играть хорошо.

Бенчмаркинг Цивилизация всегда была чем-то вроде оксиморона — для пошаговой стратегической игры частота кадров не особенно важна, и при правильном настроении, достаточно всего 5 кадров в секунду для хорошей игры. Однако с Civilization 6 Firaxis ударилась в хардкор и подняла планку визуализации, пытаясь вовлечь вас в игру. В результате, Civilization может потребовать от игрока новую видеокарту и процессор, особенно если играть с высокой детализацией под DirectX 12. Возможно, более востребованный результат будет виден во время поздней игры, в более старых версиях Civilization могло потребоваться 20 минут, чтобы сделать ход игроков AI и передать контроль человеку. Новая версия Civilization имеет интегрированный «AI Benchmark», хотя в настоящее время она еще не входит в наш портфель тестов по техническим причинам, которые мы пытаемся решить. Вместо этого мы запускаем графический тест, который обеспечивает пример средних настроек игры в опциях. Для разрешений 1920x1080 и 4K мы запускаем одинаковые настройки. Civilization 6 имеет слайдеры для MSAA, Использование Производительности и Использование Памяти. Последние два относятся к детализации и размеру текстур, соответственно, и оцениваются от 0 (самый низкий) до 5 (экстремальный). Мы запускаем наш Civ6-тест в четвертой позиции для производительности (ультра) и 0 в памяти, а MSAA — 2x. Для обзоров, где мы используем тесты 8K и 16K (Civ6 позволяет сравнивать экстремальные разрешения на любом мониторе) на нашем GTX 1080, мы запускаем тесты 8K, такие же как 4K, но тесты 16K установлены на самый низкий вариант производительности. MSI GTX 1080 Gaming 8G Performance1080p

4K

8K

16K

ASUS GTX 1060 Strix 6G Performance1080p

4K

Sapphire Nitro R9 Fury 4G Performance1080p

4K

Sapphire Nitro RX 480 8G Performance1080p

4K

В целом, процессоры Threadripper работают так же, как и у Ryzen на большинстве тестов, хотя анализ Time Under показывает худшие данные для Threadripper. Следующее имя в нашей битве производительности – РПГ-экшн с открытым миром Middle Earth: Shadow of Mordor (коротко SoM). Игра создана Monolith на движке LithTech Jupiter EX с множеством дополнительных надстроек. SoM углубляется в детализацию и сложность. Основной сюжет игры был написан тем же автором, что и сюжет Red Dead Redemption, SoM получила награду Zero Punctuation's Game of the Year в 2014 году.

Игры 2014 года весьма устарели для современного тестирования, но SoM имеет стабильный код и множество поклонников, все еще может дать стрессовую нагрузку на компьютер геймера. В то время SoM был уникальным, предлагая динамическое разрешение экрана, позволяющее пользователям использовать настройки с высоким разрешением, которые затем уменьшаются до возможностей монитора. Эта форма естественной передискретизации была спроектирована так, чтобы позволить пользователю получить более полное представление о том, чего хотели разработчики, если у вас есть достаточно мощное графическое оборудование, но нет монитора под разрешение 4K. В игре имеется встроенный бенчмарк, его мы запускаем с применением скрипта, который производит настройку графики, стартует бенчмарк и парсит результаты, которые тест сбрасывает на диск. Настройки графики включают стандартные параметры, такие как Graphical Quality, Lighting, Mesh, Motion Blur, Shadow Quality, Textures, Vegetation Range, Depth of Field, Transparency и Tessellation. Так же имеются стандартные предустановки. Мы запускаем бенчмарк на 1080p и нативном 4K, используя наши 4K-мониторы, в настройках Ultra. Результаты усредняются по четырем прогонам и мы выводим средний FPS, 99 процентиль и time under анализ. MSI GTX 1080 Gaming 8G Performance1080p

4K

ASUS GTX 1060 Strix 6G Performance1080p

4K

Sapphire Nitro R9 Fury 4G Performance1080p

4K

Sapphire Nitro RX 480 8G Performance1080p

4K

Одной из новейших игр в нашем наборе игровых тестов является Rise of the Tomb Raider (RoTR), разработанная компанией Crystal Dynamics, она же сиквел популярного Tomb Raider, который был любим за свой встроенный автоматический бенчмарк режим. Но не обманитесь: эталонный режим в RoTR сильно отличается на этот раз.

Визуально предыдущий Tomb Raider поднял планку реализма практически до уровня TressFX, и новый RoTR поднимается еще на ступеньку выше в плане достоверности графики. Это приводит к интересному набору требований к аппаратным средствам: некоторые разделы игры, как правило, ограничены графическим процессором, тогда как другие, с большим количеством физики на больших дистанциях могут быть ограничены ЦП, в зависимости от того, как драйвер распределит рабочую нагрузку DirectX 12. Если для бенчмарка у старой игры была одна эталонная сцена, в новой игре есть три разных сцены с различными требованиями: Хребет Горы (1-Долина), Могила Пророка (2-Пророк) и Геотермальная Долина (3-Гора) — и мы проверяем все три (и да, мне нужно переименовать их — я ошибался, когда настраивал тесты). Это три сцены должны были быть взяты из игры, однако было отмечено, что сцены, подобные 2-Пророк, используемые в бенчмарк, могут самыми быть требовательными к CPU элементами всего этого уровня, а показанная сцена представляет собой лишь малую часть этого уровня. Из-за этого мы сообщаем результаты для каждой сцены на каждой видеокарте отдельно. Настройки графики для RoTR похожи на другие игры этого типа, предлагая некоторые пресеты или позволяя пользователю настраивать качество текстуры, уровни анизотропного фильтра, качество теней, мягкие тени, окклюзию, глубину резкости, тесселяцию, отражения, листву, блюм и фичи наподобие PureHair, которые позволяет использовать библиотека TressFX. По-прежнему, мы тестируем игру на разрешении 1920x1080 и 4K, используя наши собственные 4K-дисплеи. На 1080p мы запускаем пресет High, а в 4K мы используем предварительную настройку Medium, которая по-прежнему наносит значительный удар по частоте кадров. Стоит отметить, что тест RoTR немного отличается от наших других эталонных тестов тем, что игра сохраняет свои графические настройки в реестре, а не стандартный INI-файл, и в отличие от предыдущей игры встроенный бенчмарк TR не может быть вызван из командной строки. Тем не менее, несмотря на сложности, мы подготовили сценарий для автоматического запуска бенчмарка четыре раза и парсинга результатов. Из полученных данных мы выводим средний FPS, 99 процентиль и time under анализ.

#1 Geothermal Valley Spine of the Mountain

MSI GTX 1080 Gaming 8G Performance1080p

4K

ASUS GTX 1060 Strix 6G Performance1080p

4K

Sapphire Nitro R9 Fury 4G Performance1080p

4K

Sapphire Nitro RX 480 8G Performance1080p

4K

#2 Prophet’s Tomb

MSI GTX 1080 Gaming 8G Performance1080p

4K

ASUS GTX 1060 Strix 6G Performance1080p

4K

Sapphire Nitro R9 Fury 4G Performance1080p

4K

Sapphire Nitro RX 480 8G Performance1080p

4K

#3 Spine of the MountainGeothermal Valley

MSI GTX 1080 Gaming 8G Performance1080p

4K

ASUS GTX 1060 Strix 6G Performance1080p

4K

Sapphire Nitro R9 Fury 4G Performance1080p

4K

Sapphire Nitro RX 480 8G Performance1080p

4K

Из тестов очевидно, что 1950X не самый лучший игровой чип в дефолтном режиме. Веселые простые игры в стиле «играй – подбирай» отличная забава. По этой причине я большой поклонник франшизы Katamari – просто жмешь старт на контроллере и катишься вперед, подбирая предметы, чтобы вырасти. Чрезвычайно просто. Ну а пока мы не получим версию Катамари на ПК, которую я могу протестировать, мы сосредоточимся на Rocket League. Rocket League применяет элементы pick-up-and-play, позволяя пользователям вступать в игру с другими людьми (или ботами), чтобы сыграть в футбол без правил на автомобилях. Игра создана на движке Unreal Engine 3, который на данный момент хотя и устарел, но зато позволяет пользователям как запускать игру на низко-производительных системах, так и выжать все ресурсы из систем помощнее. С момента выпуска в 2015 году было продано более 5 миллионов копий игры, которая, похоже, стала звездой в локальных сетях и игровых шоу. Пользователи, которые тренируются играть, становятся очень серьезными, сражаясь в командах и лигах с очень небольшим количеством настроек, и все находятся на одном уровне. Rocket League уверенно становится одним из громких названий в мире киберспорта, а что особенно приятно — соревнования можно посмотреть прямо из игрового интерфейса.

Исходя из перечисленных факторов, а также потому, что эту игру приятно запустить и играть, мы решили найти «приятный» способ протестировать ее. К сожалению, большая часть автоматических тестов для игр здесь не подойдет. Кроме того, благодаря движку Unreal 3, Rocket League не имеет бенчмарк режима. В этом случае мы должны разработать плотный прогон и записать частоту кадров. Как уже сказано, у Rocket League нет бенчмарк режима, поэтому мы должны выполнить серию автоматических действий, подобных гоночной игре с фиксированным числом кругов. Мы применяем следующий подход: используя Fraps для записи времени, затраченного на показ каждого кадра (и общей частоты кадров), мы применим инструмент автоматизации, чтобы запустить игру с ботами 4v4, при этом система должна выполнить серию действий во время матча, например, переключение углов камеры и движение. Так вышло, что описанный метод весьма точно отображает данные по реальному матчу с ботами, включая движение, столкновения, усиления или даже получение внезапной помощи, как бы это ни странно звучало для автоматизированного набора команд. Чтобы поддерживать согласованность, применяемые нами команды не являются случайными, а так же фиксированны по времени. Мы также проводим тесты на одной и той же карте (Aquadome, которая, как известно, является тяжелой картой для графических процессоров из-за воды / прозрачности) и с постоянными настройками автомобиля. Мы начинаем запись сразу после начала матча и записываем в течение 4 минут игрового времени (думаю, 5 кругов DIRT: Rally benchmark), определяем среднюю частоту кадров, 99-й процентиль и time under.

Графические настройки для Rocket League представлены в четырех общих настройках: Low, Medium, High и High FXAA. Существуют расширенные настройки для теней и деталей; однако для этих тестов мы придерживаемся общих настроек. Для разрешений 1920x1080 и 4K мы тестируем на высоком пресете без ограничения FPS. MSI GTX 1080 Gaming 8G Performance1080p

4K

ASUS GTX 1060 Strix 6G Performance1080p

4K

Sapphire Nitro R9 Fury 4G Performance1080p

4K

Sapphire Nitro RX 480 8G Performance1080p

4K

С Ryzen мы столкнулись с некоторыми странными проблемами при использовании видеокарт на базе NVIDIA, которые привели к значительному ухудшению производительности этих карт. Как ни странно, проблемы, которые мы имеем с Ryzen в Rocket League с графическими процессорами NVIDIA, практически исчезают при использовании Threadripper. Опять же, до сих пор нет очевидного победителя в этом тесте, поскольку Intel, похоже, лучше показывает себя в Rocket League в обычном режиме, но режим SMT-off все же поднимает наверх 1950X. Результаты Time Under вызывают обеспокоенность в отношении AMD, а 1950X стабильно находится внизу этого графика. Долгожданная итерация франшизы Grand Theft Auto попала на полки 14 апреля 2015 года, и AMD, и NVIDIA приложили усилия для оптимизации игры. В GTA нет графических пресетов, но все же игра открывает новые возможности для пользователей и расширяет границы современной графики, нагружая даже самые мощные компьютеры до предела при помощи Advanced Game Engine от Rockstar под DirectX 11. Независимо от того, летает ли пользователь высоко в горах, где понадобится прорисовка мира на дальних дистанциях или имеет дело с сортированным мусором в городе, когда он сгибается до максимума, игра создает потрясающие визуальные эффекты, плюс напряженную работу как для процессора, так и для графической карты.

Для тестирования мы написали несколько скриптов для встроенного в игру бенчмарка. Внутренний бенчмарк включат пять сценариев: четыре коротких панорамных сцены с переменным освещением и погодными эффектами, плюс пятая – последовательность действий продолжительностью около 90 секунд. Мы решили использовать только последнюю сцену, которая включает полет на реактивном самолете, затем поездку на автомобиле через город через несколько перекрестков и в конце — столкновение с бензовозом, который взрывается, как и автомобили вокруг него. Это отличное сочетание рендеринга дальних дистанций, за которым следуют действия с рендерингом на ближней дистанции. И к счастью, игра выдает все необходимые результаты тестов. В GTA нет графических предустановок, зато пользователь может вручную настраивать параметры, такие как плотность населения и дальность прорисовки с помощью слайдеров. Другие параметры, такие как текстура / тень / шейдеры / качество воды переключаются от низкого качества до очень высокого. Другие варианты настроек включают MSAA, мягкие тени, пост-эффекты, разрешение теней и расширенные настройки дистанционного рендеринга. В верхней части экрана есть удобная опция, который показывает, сколько видеопамяти будет потреблять игра при этих параметрах, с очевидными последствиями, если пользователь запрашивает больше видеопамяти, чем имеет на карте (хотя нет очевидной подсказки, если у вас слабая GPU с большим количеством видеопамяти, например, R7 240 4 ГБ). В итоге, мы запускаем тесты в разрешении 1920x1080, используя значения Very High в настройках, а также на 4K с использованием значения High в большинстве из них. Результатом будут средние значения по четырем прогонам, средний показатель частоты кадров, 99-м процентиль и time-under анализ. MSI GTX 1080 Gaming 8G Performance1080p

4K

ASUS GTX 1060 Strix 6G Performance1080p

4K

Sapphire Nitro R9 Fury 4G Performance1080p

4K

Sapphire Nitro RX 480 8G Performance1080p

4K

В зависимости от теста, в большинстве случаев Threadripper выдает результаты подобные Ryzen, а иногда и чуть ниже него. Threadripper с системой охлаждения процессора, расчитаной на отвод тепловой мощности в 180 Вт TDP (thermal design power) – это большой скачок вперед, после предыдущих решений AMD, которые работают в диапазоне 40-95 Вт, или Интеловских платформ, где большинство процессоров имеют показатель TDP до 95 Вт, а хай-энд 140 Вт. Хотя не будем забывать, что AMD уже выпускала процессор с 220Вт TDP — это FX-9590, работающий на частоте 5 ГГц, который первоначально продавался в течение года в качестве продукта исключительно для OEM-производителей, чтобы быть уверенным, что у пользователей будет достаточно мощное охлаждение. В конце концов, он был выпущен как конечный продукт с кулером с жидкостной системой охлаждения и двумя вентиляторами.

AMD’s 5 GHz Turbo CPU in Retail: The FX-9590 and ASRock 990FX Extreme9 Review

Таким образом – TPD 180Вт все же не новая концепция для AMD. Для этого обзора я использовал жидкостное охлаждение AMD, полученное в свое время вместе с образцом FX-9590, потому что он был разработан для работы не менее 220 Вт. (AMD также предоставила кулер Thermaltake 3x120 вместе с Threadripper, но его было намного сложнее пристроить на нашем испытательном стенде.) Для тестирования мощности мы запускаем Prime95 не менее 60 секунд, а затем используем программное обеспечение для опроса встроенных датчиков мощности на чипе для получения результатов. В зависимости от ЦПУ мы можем получить данные для всего чипа, на ядро, DRAM, uncore или интегрированного GPU – важно, чтобы наш инструмент имел последнее обновление, так как регистры для получения этих данных должны быть известны. Обычно этот способ чтения энергопотребления может быть недостаточно точным по сравнению с более инвазивными методами, он является быстрым и доступным для управления скриптами. Кроме того, именно эти данные определяют, когда центральный процессор достигает пределов мощности и ему необходимо увеличить скорость вращения вентилятора. Для начала, посмотрим полное энергопотребление Threadripper.

В целом, Threadripper очень прожорлив даже на холостом ходу. Большая часть мощности здесь потребляется контроллером памяти и шиной PCIe, чтобы поддержать графический процессор со статическим дисплеем. Тот факт, что память 1950X, работающая на DDR4-3200, вытягивает еще 13 Вт + из CPU, показывает, какое влияние контроллер памяти оказывает на общее потребление энергии. Для всех чипов мы записываем 2 Вт мощности для ядер. Когда мы загружаем процессор одним потоком, он запускает uncore / mesh, а также память и переходит в максимальный турбо-режим. В зависимости от того, как сконструирован процессор, это может нагрузить одно ядро или сразу несколько – и тогда, хотя лишь одно ядро будет выполнять работу, остальные всё равно увеличат потребление энергии.

По результатам видно, что разные процессоры Threadripper снова показывают примерно одинаковый результат, потребляя значительно больше процессоров Ryzen, и соответствуют CPU 10C/8C от Broadwell-E и Haswell-E соответственно. 1950X, работающий на DDR4-3200 по-прежнему тянет дополнительно + 13 Вт, но интересно, что потребление энергии у ядер Skylake-X подскочило примерно до той же величины. Похоже, что соединение MoDe-X, используемое в Skylake-X, также потребляет значительную мощность. На следующем тесте загрузим процессор максимальным количеством потоков для этого дизайна чипа. Такой подход обеспечит максимальную нагрузку на все ядра, контроллер памяти и интерконнект.

Все процессоры Threadripper достигли отметки 177 Вт, чуть ниже 180 Вт TDP, а процессоры Skylake-X превысили их заявленное 140 Вт TDP. 1950X в Game Mode, похоже, потребляет немного меньше энергии, что может быть связано с запуском DRAM в среде NUMA. Для некоторых чипов мы можем посмотреть потребление мощности только ядрами. И на полной загрузке мы получили любопытные результаты:

Ключевым элементом на этом графике является 1950X, работающий на DDR4-3200. Поскольку более быстрая DRAM требует, чтобы контроллер памяти потреблял больше энергии, он оставляет меньше энергии для ядер процессора, что может привести к более низкой частоте турбо режима. Поэтому, в то время как более быстрая память может гарантировать более высокую производительность в сценариях, зависящих от памяти, частота ядра при этом может оказаться ниже, выдавая худшую производительность в целом. Это интересное наблюдение, поэтому мы рассчитали мощность ядра в 1950X на DDR4-2400 и DDR4-3200.

На этом графике номер ядра на вертикальной оси – ядро, где измерялась мощность, а на горизонтальной – количество ядер которые нагружались, по два потока за раз. Первоначально мы видим, при загрузке двумя потоками одного ядра, это одноядерное устройство потребляет 20.77 Вт. С момента, когда половина ядер чипа будет загружена, показатель опустится до 19 Вт, затем до 17 Вт, 16 Вт, и до 11 Вт. Как мы видим, при загрузке 8 ядер, ядра сами по себе потребляют 89 Вт — и если мы добавим потребление контроллера DRAM, результат, безусловно, будет больше, чем у процессора Ryzen. Тем не менее, по мере того, как мы нагружаем более 10 ядер, происходит что-то странное: общее энергопотребление ядер падает с 120 Вт до 116 Вт, и до 102 Вт, когда работает 24 потока. Это свидетельствует о том, что второй слой кремниевой матрицы потребляет меньше энергии на ядро. Затем потребление снова поднимается, причем полностью нагруженный чип дает каждому ядру около 8,2 Вт. Переход на память DDR4-3200 показывает аналогичный сценарий:

Сначала одно ядро получает целых 21 Вт, а затем, по мере загрузки новых ядер, на отметке 4 ядра / 8 потоков, наблюдаем потребление меньше — 15 Вт на ядро на DDR4-3200 (сравните с 16 Вт на ядро на DDR4- 2400). Двигаясь дальше, мы наблюдаем небольшое колебание при 24-26 потоках, и в итоге, при полной нагрузке, — потребление 114 Вт всеми ядрами, что на 20 Вт меньше, чем на DDR4-2400. Не все данные для Game Mode были получены должным образом, поэтому мы не рискнем сделать глубокие выводы из полученных результатов, хотя стоит сделать интересное замечание. В игровом режиме, когда система требует небольшого количества потоков, скажем, от 2 до 8, поскольку SMT отключен, эти потоки должны выполняться на разных CCX. В режиме Creator эти потоки группируются в 1-4 ядра по одному CCX и потребляют меньше энергии. Для DDR4-2400 это означает 65 Вт в режиме Creator для 8 потоков (4 ядра) по сравнению с 89 Вт в режиме Game для 8 активных ядер. Как говорилось на странице 3 этого обзора, что AMD предлагает два режима: режим Creator со всеми включенными ядрами и архитектурой uniform memory access (UMA), и режим Game, где отключена одна из матриц и архитектура скорректирована на non-uniform memory architecture (NUMA). Идея в том, чтобы в режиме Creator в вашем распоряжении были все потоки и пропускная способность, в то время как Game Mode фокусируется на совместимости с играми, которые не готовы работать с таким количеством ядер, при этом повышая скорость передачи данных к памяти и от ядра к ядру, и поддерживая потоки в пределах одного и того слоя кремния. Оба метода имеют свои положительные и отрицательные стороны. И хотя они могут переключаться путем нажатия кнопки в Ryzen Master и последующей перезагрузки, большинство пользователей, которых интересуют эти настройки, наверняка, выберут нужный режим один раз и забудут о нем (А здесь обратите внимание, что если BIOS сбрасывается, то и настройки тоже...)

В этом обзоре мы рассмотрели несколько важных тем касательно процессоров с большим количеством ядер: мощность, частота и «кормление зверя». Запуск процессора похож на обратную диету — вам нужно поместить как можно больше данных, чтобы получить хоть что-то на выходе и понять, что же спрятано «под капотом». AMD и Intel используют разные подходы для достижения цели. Мы видим решение с несколькими матрицами против монолитного решения. Комплексы ядер и Infinity Fabric против mesh на основе MoDe-X. Единый доступ памяти против неравномерного доступа к памяти. И те, и другие борются за высокую частоту и низкое энергопотребление. AMD поддерживает ECC и больше PCIe-полос, в то время как Intel предоставляет более полный чипсет и специальные инструкции AVX-512. Оба конкурента сражаются за рынок high-end prosumer и workstations, что способствует высокопроизводительным многозадачным сценариям в качестве ключа к раскрытию потенциала их процессоров.

Вот что мы видим в спецификации: по сравнению с Core i9-7900X, AMD Ryzen Threadripper 1950X имеет на 6 ядер больше, плюс дополнительно 16 линий PCIe и поддержку ECC за ту же цену. По сравнению с выходящим 16-ядерным Core i9-7960X, Threadripper 1950X по-прежнему имеет преимущество — 16 линий PCIe, поддержка ECC, заметно дешевле конкурента. Процессор 1920X предлагает пользователю больше ядер, поддержку ECC и более чем вдвое больше дорожек PCIe по сравнению с Core i7-7820X за разницу в $100. Проще говоря, если есть железо, требующие PCIe-полосы, у AMD есть что предложить.

Что касается тестов производительности, есть несколько ракурсов для описания полученных нами результатов. AMD по-прежнему отстает, когда дело доходит до сырого IPC, но показывает достойные результаты по частоте. Intel по-прежнему выигрывает в однопоточных задачах, особенно те, которые зависят от задержки DRAM. AMD вырывается вперед, когда задача требует серьезных потоков, зачастую распределение памяти не так проблемно, как могло показаться. Если у пользователя есть масштабируемая рабочая нагрузка, AMD даст ядра, чтобы позволить ей масштабироваться как можно шире.

Несмотря на то, что дизайн Threadripper, возможно, лучше подходит для высоконагруженных рабочих задач, его высокая частота по сравнению с Ryzen 7 означает, что гейминг станет частью «уравнения». В своем дефолтном Creative mode игровая производительность Threadripper в лучшем случае занимает средние позиции: очень мало игр могут использовать все эти потоки, а переменная задержка DRAM означает, что ядра иногда, грубо говоря, спотыкаются друг об друга, пытаясь «пообщаться» и предсказать, когда будет выполнена работа. Чтобы решить эту проблему, AMD предлагает игровой режим, который сокращает количество ядер и фокусирует выделение памяти в DRAM, ближайший к ядру (в ущерб максимальной пропускной способности DRAM). Это оказывает наибольшее влияние именно на минимальную частоту кадров, а не на средний FPS и влияет на 1080p больше, чем на 4K, что, возможно, является противоположностью ожиданиям высококлассного геймера. На некоторые игры Game mode не оказывает влияния, в то время как в других он может открыть новые возможности. Если бы я взял и сказал, что процессоры Threadripper не являются, в целом, процессорами, это вызвало бы раздражение у технической аудитории. Более верный ответ — это не лучший игровой процессор. Но AMD освещает все это с другой стороны: процессор позволяет пользователю играть, передавать стрим, смотреть и обрабатывать все одновременно. Вам придется делать много и сразу, чтобы заполнить 16 ядер до максимума, а значит для тех, кто это делает, AMD потенциальный победитель. Для тех, кому нужна хардкорная пропускная способность, перекодирование, декодирование; рендеринг, такой как Blender, Cinema 4D или трассировка лучей — это отличный процессор. Для обладателей нескольких GPU или поклонников мульти-хранилищ, или тех, кто хочет втиснуть в систему шесть штук ПЛИС PCIe 3.0 x8, AMD предлагает хороший продукт.

С дугой стороны, как бы круто не смотрелись 16 ядер в потребительском процессоре (и в этом смысле весь Threadripper выглядит круто — в стиле хардкора 90-х), — потоки Threadripper далеко не всегда полезны при потребительских нагрузках. Всего несколько известных рабочих нагрузок могут полностью насытить чип: кодирование видео — лучший тому пример. Остальные попросту не могу использовать более нескольких потоков. Этот факт во многом вызван тем, что за последние 8 лет образцом высокопроизводительных потребительских процессоров были четырехъядерные чипы Intel. Однако, надоедливый закон Амдаля всегда поблизости, и количество ядер в процессорах продолжает расти. Здесь есть и непредсказуемый фактор – это область, где AMD выступает первопроходцем: неравномерное распределение ядер. NUMA до сих пор никогда не ориентировалась на потребителей, поэтому AMD и сталкивается с проблемами, рассмотренными в нашем обзоре. Наличие нескольких режимов — очень умный выбор, тем более, что там есть достаточно много программного обеспечения, которое «не знает» о NUMA, но может хорошо нагрузить CPU, если NUMA вывести из уравнения, а процессор рассматривать, как полностью монолитное устройство. Несколько неприятным, однако, является тот факт, что режимы переключения требуют перезагрузки; вы можете получить хорошую отдачу благодаря переключению режимов, но для этого понадобятся лишние движения. В долгосрочной перспективе код с поддержкой NUMA уберет эту проблему и будет автоматически использовать память с наименьшей задержкой. Но даже в этом случае AMD создала не только решение, но и проблему, так как даже в идеальном варианте NUMA создаст ряд проблем с программированием, и маловероятно, что каждая программа в будущем сможет правильно его использовать. С учетом сказанного, процессор с NUMA в настоящее время является несколько избыточным в потребительском пространстве. Он очень хорош для определенных экстремальных нагрузок, но не так хорошо сбалансирован, как Ryzen. Отбросив лишнее, это означает, что Threadripper не всегда дает заметный прирост производительности по сравнению с Ryzen. И это не особенность, уникальная для AMD — в течение долгого времени продукты Intel HEDT требовали выбора между количеством ядер и однопотоковой производительностью верхнего уровня, но подсчитать производительность CPU стало еще более сложной задачей с Threadripper. Существуют трудности при масштабировании процессора на столько ядер, и Threadripper несет эту ношу. Поэтому для потребителей (а это рынок, куда нацелен процессор), важно, как никогда, рассмотреть свои запланированные рабочие нагрузки. Вам нужна более быстрая кодировка Handbrake или более плавный геймплей? Можете ли вы бросить достаточное количество ядер на Threadripper, чтобы держать «зверя» занятым, или вам только изредка нужно больше, чем существующие 8 ядер Ryzen?

AMD пообещала, что сокет будет жить как минимум в течение двух поколений, поэтому серия Threadripper 2000, когда она появится, должна прийти сразу после обновления BIOS. Интересно, что с учетом размера сокета и конфигурации матрицы AMD может легко превратить эти два «мертвых» кремниевых пакета в «реальные» кремниевые пакеты и предложить 32 ядра. (Хотя эти дополнительные ядра — узкое местом в вопросе скорости доступа). Это Войны Ядер. Мы приближаемся к первому чипу, который сможет сделать Kessel run меньше двенадцати парсеков (отсылка к «Звездным Войнам» — прим. перев.)

На правах рекламы. В канун зимних праздников акции становятся еще актуальнее! Успейте воспользоваться новогодним предложением и получить скидку в размере 25% на первый платеж при заказе на 3 или 6 месяцев!

Это не просто виртуальные серверы! Это VPS (KVM) с выделенными накопителями, которые могут быть не хуже выделенных серверов, а в большинстве случаев — лучше! Мы сделали VPS (KVM) c выделенными накопителями в Нидерландах и США (конфигурации от VPS (KVM) — E5-2650v4 (6 Cores) / 10GB DDR4 / 240GB SSD или 4TB HDD / 1Gbps 10TB доступными по уникально низкой цене — от $29 / месяц, доступны варианты с RAID1 и RAID10), не упустите шанс оформить заказ на новый тип виртуального сервера, где все ресурсы принадлежат Вам, как на выделенном, а цена значительно ниже, при гораздо более производительном «железе»!

Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки? Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 ТВ от $249 в Нидерландах и США!

habr.com


Смотрите также