Как оптимизировать свой процессор: изменить и включить L2 и L3 своих кэшей процессора. Влияние емкости кэш-памяти на производительность Core i5 третьего поколения

Процессор - самая важная часть любого ПК! Именно он обрабатывает все данные и производит вычислительные операции. Поэтому выбор процессора является одной из первоочередных задач при покупке нового ПК, и к его выбору стоит отнестись как можно тщательнее. В этой статье речь пойдет об основных характеристиках центральных процессоров (ЦП или CPU - Central Processing Unit), категориях сериях ЦП.

На мировом компьютерном рынке существуют два основных производителя ЦП: Intel и AMD (Advanced Micro Devices). Первая компания контролирует львиную долю рынка в следствии чего цены на ее продукцию выше, ведь у многих из нас слово процессор в первую очередь ассоциируется с Pentium, который в свою очередь и есть продукт компании Intel. Да, объективно продукция этой компании лучше и стабильнее и она по праву занимает лидирующую позицию, но это совсем не значит что ЦП AMD сильно отстают в производительности и уступают в качестве, напротив продукция AMD по соотношению цена/производительность выглядит лучше. У тех и других CPU есть своя армия поклонников и какой компании отдать предпочтение - дело сугубо личное.



1-Intel LGA1366 ; 2-Intel LGA1156 ; 3-Intel LGA775 ; 4-AMD AM2 ; 5-AMD AM3 ;

При выборе процессора следите за тем, чтобы выбранные материнская плата и процессор имели аналогичные сокеты!

Теперь рассмотрим основные модельный ряд процессоров Intel:

На сегодняшний день распространены 4 семейства настольных процессоров Intel:

  1. Celeron - самые слабые процессоры Intel. Обычно в продаже встречаются одноядерные процессоры серии 4хх (например Celeron 430 ) и двухъядерная серия Exxxx (например Celeron E3500 ). Данные ЦП маркируются в соответствии с их архитектурой (частота, кэш). Чем цифра в названии процессора, тем более современным и производительным является ЦП. Данные процессоры имеют сокет LGA775.
  2. Pentium - представлены на рынке двумя сериями - E5ххх (FSB - 800МГц) и Е6ххх (FSB - 1066 Мгц).Так же в продаже встречается процессор Pentium G6950 . К особенностям данной модели стоит отнести наличие встроенного видеоядра и поддержку функции Intel Smart Cache . Одним словом - бюджетный вариант платформы Core i3 - неплохой вариант для нетребовательных игр или для дальнейшего апгрейда.
  3. Core 2 - данную линейку можно подразделить на два вида: Core 2 Duo - Двухъядерные процессоры, Core 2 Quad - Четырёхъядерные процессоры. Для серии E7xxx характерны FSB - 1066МГц и 3Мб кэша L2, для серии E8xxx : FSB - 1333МГц и 6Мб кэша L2. По аналогии с двухъядерной серией Core 2, в Core 2 Quad тоже присутствуют две серии: E8xxx и E9xxx с 4 и 6 Мб кэша соответственно.
  4. Core i - линейку Core i можно подразделить на 3 вида Core i3 , Core i5 , Core i7

    Core i3 - двухъядерные ЦП, обладают 512 Кб кэша L2, встроенной видеоподсистемой Intel HD Graphics и подразделяются на серии i3-ххх для сокета LGA1156 и i3-2xxx для сокета LGA1155

    Core i5 - оборудован сокетом LGA1156, подразделяются на серии i5-6xx и i5-7xx . ЦП линейки i5-6xx аналогично Core i3 являются двухъядерными , имеют встроенный видеочип. В свою очередь, процессоры i5-7xx не имеют видеоподсистемы , но обладают 4 ядрами . Новое семейство четырёхъядерных процессоров Core i5 для сокета LGA1155 маркируется четырёхзначным числом Core i5-2xxx , обладает встроенным видеоядром, 1 Мб L2-кэша, 6 Мб L3.

    Core i7 - являются четырёхъядерными ЦП, кроме шестиядерных моделей Core i7-970,975,980X , которые не обладают встроенным видеочипом, имеют кэш второго уровня объёмом 1 Мб, третьего уровня - 8 Мб и предназначены для установки на сокет LGA1366 (модели серии i7-9xx ) или LGA1156 (i7-8xx) .

    Стоит сказать несколько слов о линейки процессоров на архитектуре Sandy Bridge (Core i3-2xxx, Core i5-2xxx, Core i7-2xxx ) - это энергоэффективные (со сниженными тактовыми частотами) и высокоэнергоэффективные (со значительно заниженными частотами) модели, обладающие пониженным тепловыделением. Если в маркировке таких процессоров после числа присутствует буква:
    «S» - энергоэффективные
    «Т» - высокоэнергоэффективные
    «К» - процессоры с незаблокированным множителем

    Данной линейки процессоров характерны следующие параметры: сокет LGA1155 , техпроцесс - 32 нм , поддержка технологии Turbo Boost 2.0 , встроенная графика с поддержкой DirectX 11 и так называемый системный агент SandyBridge .

    таблице :

Переходим к рассмотрению процессоров AMD. На сегодняшний день самый распространенный сокет - AM3.
Сокеты AM2 и AM2+ уже постепенно уходят в историю. Совместимость сокетов лучше всего рассмотреть на
примере таблицы:

Плата AM2 Плата AM2+ Плата AM3
Процессор AM2 + + -
Процессор AM2+ + + -
Процессор AM3 + + +

Из таблицы видно, что новые платы (AM3) не поддерживают старые процессоры на сокете AM2,AM2+. Платы ж с сокетом AM2, AM2+ поддерживают новые процессоры с сокетом AM3, при условии, что чипсет поддерживает данный процессор. Совместимость процессоров и плат нужно смотреть на сайтах производителей.

На сегодняшний день процессоры AMD представлены следующими моделями: Sempron , Athlon II и Phenom II . Если проводить аналогию с процессорами Intel, то

1. Sempron будет соответствовать Celeron. Sempron обозначаются трёхзначным числом. Чем выше число - тем выше тактовая частота процессора. Все процессоры линейки Sempron имеют размер кэша 1 Мб.

2. Athlon II - Intel Pentium и Core i3/i5. Серия X2 2xx - двухъядерные, Х3 4хх - трехъядерные, Х4 6хх - четырёхъядерные. Трёхзначное число зависит от объёма кэша (от 1 до 2 Мб) и тактовой частоты процессора.

3. Phenom II - Core i5-2ххх и Core i7. Phenom II бывают двух- (X2), четырёх- (Х4) и шестиядерными (Х6). В пределах каждой из трёх серий процессоры маркируются в зависимости от тактовой частоты - чем выше трёхзначное число, тем выше частота. Двухъядерные модели имеют L2-кэш объёмом в 1 Мб + 6 Мб кэша L3. В свою очередь модели серии Х4 обладают 2 Мб кэша второго уровня и 6 Мб кэша третьего уровня. Шестиядерные процессоры Phenom II X6 - самые мощные процессоры из всех выпускаемых компаний AMD. Они имеют высокие тактовые частоты, 3 Мб (512 Кб х6) кэша L2 и 6 Мб кэша L3.

Для удобства приведу все основные характеристики в таблице :

На этом все, Уважаемый читатель! Не ошибитесь в выборе. Чтоб быть в курсе новинок в сфере процессоров следите за ежемесячном обзором рекомендованных конфигурации на Удачных Вам покупок!

Центральный процессор (ЦП, или центральное процессорное устройство - ЦПУ; англ. central processing unit, сокращенно - CPU, дословно - центральное обрабатывающее устройство) - электронный блок либо микросхема - исполнитель машинных инструкций (кода программ), главная часть аппаратного обеспечения компьютера или программируемого логического контроллера. Иногда называют микропроцессором или просто процессором. Главными характеристиками ЦПУ являются: тактовая частота, производительность, энергопотребление, используемый техпроцесс (для микропроцессоров) и архитектура.

Сокет - разъема для установки процессора на материнской плате. Как правило, тип сокета характеризуется количеством ножек и производителем процессора. Разные сокеты соответствуют разным типам процессоров. Современные процессоры Intel используют сокет LGA1156, LGA1366 и LGA1155, процессоры AMD - сокеты AM2+ и AM3.

Intel Corporation (произносится «И?нтэл Карпэре?йшн») - американская корпорация, производящая широкий спектр электронных устройств и компьютерных компонентов, включая полупроводники, микропроцессоры, наборы системной логики (чипсеты) и др. Штаб-квартира - в городе Санта-Клара, штат Калифорния, США.

Advanced Micro Devices, Inc. (AMD) - американский производитель интегральной электроники. Второй по величине производитель x86 и x64-совместимых процессоров, а также крупнейший поставщик графических процессоров (после приобретения ATI Technologies в 2006 году), чипсетов для материнских плат и флеш-памяти. Производственные мощности компании расположены в США, Германии, Канаде, Китае, Сингапуре и Таиланде.

Тактовая частота - это количество тактов (операций) процессора в секунду. Тактовая частота процессора пропорциональна частоте шины (FSB, см. "Частота шины"). Как правило, чем выше тактовая частота процессора, тем выше его производительность. Но подобное сравнение уместно только для моделей одной линейки, поскольку, помимо частоты, на производительность процессора влияют такие параметры, как размер кэша второго уровня (L2), наличие и частота кэша третьего уровня (L3), наличие специальных инструкций и другие.

Объем кэша L1 (от 8 до 128 Кб) Объем кэш-памяти первого уровня. Кэш-память первого уровня - это блок высокоскоростной памяти, расположенный прямо на ядре процессора. В него копируются данные, извлеченные из оперативной памяти. Сохранение основных команд позволяет повысить производительность процессора за счет более высокой скорости обработки данных (обработка из кэша быстрее, чем из оперативной памяти). Емкость кэш-памяти первого уровня невелика и исчисляется килобайтами. Обычно "старшие" модели процессоров обладают большим объемом кэша L1. Для многоядерных моделей указывается объем кэш-памяти первого уровня для одного ядра.

Объем кэша L2 (от 128 до 12288 Кб) Объем кэш-памяти второго уровня. Кэш-память второго уровня - это блок высокоскоростной памяти, выполняющий те же функции, что и кэш L1 (см. "Объем кэша L1"), однако имеющий более низкую скорость и больший объем. Если вы выбираете процессор для ресурсоемких задач, то модель с большим объемом кэша L2 будет предпочтительнее. Для многоядерных процессоров указывается суммарный объем кэш-памяти второго уровня.

Объем кэша L3 (от 0 до 24576 Кб) Объем кэш-памяти третьего уровня. Интегрированная кэш-память L3 в сочетании с быстрой системной шиной формирует высокоскоростной канал обмена данными с системной памятью. Как правило, кэш-памятью третьего уровня комплектуются только топовые процессоры и серверные решения. Кэш-памятью третьего уровня обладают, например, такие линейки процессоров, как AMD Opteron, AMD Phenom, AMD Phenom II, Intel Core i3, Intel Core i5, Intel Core i7, Intel Xeon.

Частота шины (Front Side Bus, или FSB). Шина данных - это набор сигнальных линий для передачи информации в процессор и из него.
Частота шины - это тактовая частота, с которой происходит обмен данными между процессором и системной шиной компьютера.
Нужно отметить, что в процессорах Intel Pentium 4, Pentium M, Pentium D, Pentium EE, Xeon, Core и Core 2 используется технология Quad Pumping, которая позволяет передавать четыре блока данных за один такт. При этом эффективная частота шины увеличивается в четыре раза. Для указанных процессоров в поле "Частота шины" приводится эффективная, то есть увеличенная в четыре раза, частота шины.
В процессорах компании AMD Athlon 64 и Opteron использована технология HyperTransport. Она позволяет процессору и оперативной памяти взаимодействовать эффективнее, что положительно сказывается на общей производительности системы.

Техпроцесс - это масштаб технологии, которая определяет размеры полупроводниковых элементов, составляющих основу внутренних цепей процессора (эти цепи состоят из соединенных соответствующим образом между собой транзисторов). Совершенствование технологии и пропорциональное уменьшение размеров транзисторов способствуют улучшению характеристик процессоров. Для сравнения, у ядра Willamette, выполненного по техпроцессу 0.18 мкм - 42 миллиона транзисторов, а у ядра Prescott, техпроцесс 0.09 мкм - 125 миллионов.

Ядро - это главная часть центрального процессора (CPU). Оно определяет большинство параметров CPU, прежде всего - тип сокета (гнезда, в которое вставляется процессор), диапазон рабочих частот и частоту работы внутренней шины передачи данных (FSB). Ядро процессора характеризуется следующими параметрами: технологический процесс (см. "Техпроцесс"), объем внутреннего кэша первого и второго уровня (см. "Объем кэша L1", "Объем кэша L2"), напряжение (см. "Напряжение на ядре") и теплоотдача (насколько сильно будет нагреваться процессор, см. "Тепловыделение"). Прежде чем покупать CPU с тем или иным ядром, необходимо удостовериться, что ваша материнская плата сможет работать с таким процессором. В рамках одной линейки могут существовать CPU с разными ядрами. Например, в линейке Intel Core i5 присутствуют процессоры с ядрами Lynnfield, Clarkdale, Arrandale и Sandy Bridge.

Сегодняшняя статья не является самостоятельным материалом - она просто продолжает исследование производительности трех поколений архитектуры Core в равных условиях (начатое в конце прошлого года и продолженное недавно). Правда, сегодня мы сделаем небольшой шаг в сторону - часто́ты ядер и кэш-памяти останутся теми же, что и ранее, а вот емкость последней уменьшится. Зачем это нужно? Мы использовали «полный» Core i7 двух последних поколений для чистоты эксперимента, тестируя его с включенной и отключенной поддержкой технологии Hyper-Threading, поскольку вот уже полтора года как Core i5 снабжаются не 8, а 6 МиБ L3. Понятно, что влияние емкости кэш-памяти на производительность не так уж велико, как иногда принято считать, но оно есть, и никуда от него не деться. К тому же, Core i5 являются более массовыми продуктами, чем Core i7, а в первом поколении по этому параметру их никто «не обижал». Зато раньше их чуть ограничивали по-другому: тактовая частота UnCore в i5 первого поколения составляла всего 2,13 ГГц, так что наш «Nehalem» - это не совсем представитель 700-й линейки на частоте 2,4 ГГц, а немного более быстрый процессор. Однако сильно расширять список участников и переделывать условия тестирования мы сочли излишним - все равно, как мы уже не раз предупреждали, тестирования этой линейки никакой новой практической информации не несут: реальные процессоры работают совсем в других режимах. А вот желающим досконально разобраться во всех тонких моментах, как нам кажется, такое тестирование будет интересно.

Конфигурация тестовых стендов

Мы решили ограничиться всего четырьмя процессорами, причем главных участников будет два: оба четырехъядерных Ivy Bridge, но с разной емкостью кэш-памяти третьего уровня. Третий - «Nehalem HT»: в прошлый раз по итоговому баллу он оказался почти идентичен «Ivy Bridge просто». И «просто Nehalem» который, как мы уже сказали, чуть-чуть быстрее настоящего Core i5 первого поколения, работающего на частоте 2,4 ГГц (из-за того, напомним, что в 700-й линейке частота UnCore была немного ниже), но не слишком радикально. Зато и сравнение интересно: с одной стороны - два шага улучшения микроархитекутры, с другой - кэш-память ограничили. Априори можно предположить, что первое в большинстве случаев перевесит, но вот насколько и вообще - как сопоставимы «первые» и «третьи» i5 (с поправкой на частоту UnCore, конечно, хотя если будет много желающих увидеть абсолютно точное сравнение, мы и его потом сделаем) - уже хорошая тема для исследования.

Тестирование

Традиционно, мы разбиваем все тесты на некоторое количество групп и приводим на диаграммах средний результат по группе тестов/приложений (детально с методикой тестирования вы можете ознакомиться в отдельной статье). Результаты на диаграммах приведены в баллах, за 100 баллов принята производительность референсной тестовой системы сайт образца 2011 года. Основывается она на процессоре AMD Athlon II X4 620, ну а объем памяти (8 ГБ) и видеокарта (NVIDIA GeForce GTX 570 1280 МБ в исполнении Palit) являются стандартными для всех тестирований «основной линейки» и могут меняться только в рамках специальных исследований. Тем, кто интересуется более подробной информацией, опять-таки традиционно предлагается скачать таблицу в формате Microsoft Excel , в которой все результаты приведены как в преобразованном в баллы, так и в «натуральном» виде.

Интерактивная работа в трёхмерных пакетах

Некоторое влияние емкости кэш-памяти есть, однако оно менее 1%. Соответственно, оба Ivy Bridge можно считать идентичными друг другу, ну а улучшения архитектуры позволяют новым Core i5 спокойно обгонять старые Core i7 точно также, как это делают новые Core i7.

Финальный рендеринг трёхмерных сцен

В данном случае, естественно, никакие усовершенствования не могут скомпенсировать увеличение количества обрабатываемых потоков, но сегодня для нас самым важным является не это, а полное отсутствие влияния емкости кэш-памяти на производительность. Вот Celeron и Pentium, как мы уже установили , разные процессоры, так что программы рендеринга чувствительны к емкости L3, однако лишь тогда, когда последнего мало. А 6 МиБ на четыре ядра, как видим, вполне достаточно.

Упаковка и распаковка

Естественно, эти задачи восприимчивы к емкости кэш-памяти, однако и здесь эффект от ее увеличения с 6 до 8 МиБ достаточно скромный: примерно 3,6%. Более интересно, на самом деле, сравнение с первым поколением - архитектурные улучшения позволяют новым i5 на равных частотах «громить» даже старые i7, но это в общем зачете: благодаря тому, что два теста из четырех однопоточные, а еще один двухпоточный. Сжатие данных силами 7-Zip, естественно, быстрее всего на «Nehalem HT»: восемь потоков всегда быстрее четырех сравнимой производительности. А вот если ограничиться всего четырьмя, то наш «Ivy Bridge 6М» проигрывает не только своему прародителю, но и старичку Nehalem: улучшения микроархитектуры полностью пасуют перед уменьшением емкости кэш-памяти.

Кодирование аудио

Несколько неожиданным оказался не размер разницы между двумя Ivy Bridge, а то, что она вообще есть. Правда настолько копеечная, что ее можно и на особенности округления или погрешности измерения списать.

Компиляция

Важны потоки, но важна и емкость кэш-памяти. Однако, как обычно, не слишком - порядка 1,5%. Более любопытно сравнение с первым поколением Core при отключенном Hyper-Threading: «по очкам» новенький Core i5 даже на равной частоте побеждает, но один из трех компиляторов (производства Microsoft, если быть точным) отработал на обоих процессорах за одинаковое время. Даже с преимуществом в 5 секунд у более старого - притом, что в этой программе у «полнокэшевого» Ivy Bridge результаты на 4 секунды лучше, чем у Nehalem. В общем, и здесь нельзя считать, что уменьшение емкости L3 как-то сильно повлияло на Core i5 второго и третьего поколения, но есть и нюансы.

Математические и инженерные расчёты

Опять менее 1% разницы со «старшим» кристаллом и опять убедительная победа над первым поколением во всех его видах. Что скорее правило, чем исключение для подобных малопоточных тестов, но почему бы в нем в очередной раз не убедиться? Особенно в таком вот рафинированном виде, когда (в отличие от тестов в штатном режиме) не мешает разница в частотах («стандартных» или появляющаяся из-за работы Turbo Boost).

Растровая графика

Но и при более полной утилизации многопоточности картина не всегда меняется. А емкость кэш-памяти не дает вовсе ничего.

Векторная графика

И здесь аналогично. Правда и потоков вычисления нужна всего парочка.

Кодирование видео

В отличие от этой группы, где, тем не менее, даже Hyper-Threading не позволяет Nehalem бороться на равных с последователями более новых поколений. А вот им не слишком мешает уменьшение емкости кэш-памяти. Точнее, практически вообще не мешает, поскольку разница опять менее 1%.

Офисное ПО

Как и следовало ожидать, никакого прироста производительности от увеличения емкости кэш-памяти (точнее, ее падения от уменьшения) нет. Хотя если посмотреть на подробные результаты, то видно, что единственный многопоточный тест этой группы (а именно распознавание текста в FineReader) выполняется примерно на 1,5% быстрее при 8 МиБ L3, нежели на 6 МиБ. Казалось бы - что такое 1,5%? С точки зрения практики - ничто. А вот с исследовательской точки зрения уже интересно: как видим, именно многопоточным тестам чаще всего не хватает кэш-памяти. В результате разница (пусть и небольшая) иногда находится даже там, где ее быть, вроде бы, не должно. Хотя ничего такого уж необъяснимого в этом нет - грубо говоря, в малопоточных тестах мы имеем 3-6 МиБ на поток, а вот в многопоточных там же получается 1,5 МиБ. Первого - много, а вот второго может оказаться и не совсем достаточно.

Java

Впрочем, Java-машина с такой оценкой не согласна, но и это объяснимо: как мы уже не раз писали, она очень хорошо оптимизирована вовсе не под х86-процессоры, а под телефоны и кофеварки, где ядер может быть много, но вот кэш-памяти очень мало. А иногда и ядер, и кэш-памяти мало - дорогие ресурсы как по площади кристалла, так и по энергопотреблению. И, если с ядрами и мегагерцами что-то сделать получается, то вот с кэшом все сложнее: в четырехъядерной Tegra 3 его, к примеру, всего 1 МиБ. Понятно, что JVM может «схрюпать» и больше (как и все системы с байт-кодом), что мы уже видели сравнивая Celeron и Pentium, но более 1,5 МиБ на поток ей если и может пригодиться, то не в тех задачах, которые вошли в SPECjvm 2008.

Игры

На игры у нас были большие надежды, поскольку к емкости кэш-памяти они нередко оказываются более требовательными чем даже архиваторы. Но бывает такое тогда, когда ее совсем мало, а 6 МиБ - как видим, достаточно. Да и, опять же, процессоры уровня четырехъядерных Core любых поколений даже на частоте 2,4 ГГц слишком мощное решение для используемых игровых приложений, так что узким местом явно будут не они, а прочие компоненты системы. Поэтому мы решили стряхнуть пыль с режимов с низким качеством графики - понятно, что для таких систем он слишком уж синтетичен, но у нас и все тестирование синтетическое:)

Когда не мешают всякие там видеокарты и прочее, разница между двумя Ivy Bridge достигает уже «безумных» 3%: и в этом случае можно не обращать внимания на практике, но для теории - немало. Больше вышло как раз только в архиваторах.

Многозадачное окружение

Где-то мы уже такое видели. Ну да - когда тестировали шестиядерные процессоры под LGA2011. И вот ситуация повторяется: нагрузка что ни на есть многопоточная, часть используемых программ до кэш-памяти «жадная», а вот ее увеличение только снижает среднюю производительность. Чем это можно объяснить? Разве что тем, что усложняется арбитраж и увеличивается количество промахов. Причем, заметим, происходит такое только тогда, когда емкость L3 относительно велика и одновременно работающих потоков вычисления не менее четырех - в бюджетном сегменте совсем другая картина. Во всяком случае, как показало наше недавнее тестирование Pentium и Celeron, для двухъядерных процессоров увеличение L3 с 2 до 3 МиБ добавляет 6% производительности. А вот четырех- и шестиядерным не дает, мягко говоря ничего. Даже менее, чем ничего.

Итого

Закономерный общий итог: поскольку нигде существенной разницы между процессорами с разным объемом L3 не обнаружилось, нет ее и в «общем и целом». Таким образом, расстраиваться по поводу уменьшения емкости кэш-памяти во втором и третьем поколении Core i5 поводов нет - предшественники первого поколения им все равно не конкуренты. Да и старые Core i7 в среднем тоже демонстрируют лишь аналогичный уровень производительности (разумеется, в основном за счет отставания в малопоточных приложениях - а так есть сценарии, с которыми в равных условиях они справляются быстрее). Но, как мы уже говорили, на практике реальные процессоры находятся далеко не в равных условиях по частотам, так что практическая разница между поколениями больше, чем можно получить в таких вот исследованиях.

Открытым остается лишь один вопрос: нам пришлось сильно снизить тактовую частоту для обеспечения равенства условий с первым поколением Core, но сохранятся ли замеченные закономерности в более близких к реальности условиям? Ведь из того, что четыре низкоскоростных потока вычислений не видят разницы между 6 и 8 МиБ кэш-памяти, не следует, что она не обнаружится в случае четырех высокоскоростных. Правда, не следует и обратного, так что для того, чтобы окончательно закрыть тему теоретических исследований, нам понадобится еще одна лабораторная работа, которой мы и займемся в следующий раз.

Кэширование - это использование дополнительной быстродействующей памяти для хранения копий блоков информации из основной (оперативной) памяти, вероятность обращения к которым в ближайшее время велика.

Различают кэши 1-, 2- и 3-го уровней (обозначаются L1, L2 и L3 - от Level 1, Level 2 и Level 3). Кэш 1-го уровня имеет наименьшую латентность (время доступа), но малый размер, кроме того, кэши первого уровня часто делаются многопортовыми.

Процессоры AMD K8 умели производить одновременно 64-битные запись и чтение, либо два 64-битных чтения за такт.

AMD K8L может производить два 128-битных чтения или записи в любой комбинации.

Процессоры Intel Core 2 могут производить 128-битные запись и чтение за такт. Кэш 2-го уровня обычно имеет значительно большую латентность доступа, но его можно сделать значительно больше по объему.

Кэш 3-го уровня самый большой по объёму и довольно медленный, но всё-же он гораздо быстрее, чем оперативная память.

Объем кэша L1 (от 8 до 128 Кб)

Объем кэш-памяти первого уровня.

Кэш-память первого уровня - это блок высокоскоростной памяти, расположенный прямо на ядре процессора. В него копируются данные, извлеченные из оперативной памяти.

Сохранение основных команд позволяет повысить производительность процессора за счет более высокой скорости обработки данных (обработка из кэша быстрее, чем из оперативной памяти). Емкость кэш-памяти первого уровня невелика и исчисляется килобайтами. Обычно "старшие" модели процессоров обладают большим объемом кэша L1.
Для многоядерных моделей указывается объем кэш-памяти первого уровня для одного ядра.

Объем кэша L2 (от 128 до 12288 Кб)
Объем кэш-памяти второго уровня.
Кэш-память второго уровня - это блок высокоскоростной памяти, выполняющий те же функции, что и кэш L1, однако имеющий более низкую скорость и больший объем.

Если вы выбираете процессор для ресурсоемких задач, то модель с большим объемом кэша L2 будет предпочтительнее.
Для многоядерных процессоров указывается суммарный объем кэш-памяти второго уровня.

Объем кэша L3 (от 0 до 16384 Кб)
Объем кэш-памяти третьего уровня.
Интегрированная кэш-память L3 в сочетании с быстрой системной шиной формирует высокоскоростной канал обмена данными с системной памятью.

Как правило, кэш-памятью третьего уровня комплектуются только CPU для серверных решений или специальные редакции "настольных" процессоров. Кэш-памятью третьего уровня обладают, например, такие линейки процессоров, как Intel Pentium 4 Extreme Edition, Xeon DP, Itanium 2, Xeon MP и прочие.

Частота шины
Частота шины данных (Front Side Bus, или FSB). Шина данных - это набор сигнальных линий для передачи информации в процессор и из него.
Частота шины - это тактовая частота, с которой происходит обмен данными между процессором и системной шиной компьютера.
В современных процессорах Intel Pentium 4, Pentium M, Pentium D, Pentium EE, Xeon, Core и Core 2 используется технология Quad Pumping, которая позволяет передавать четыре блока данных за один такт. При этом эффективная частота шины увеличивается в четыре раза. Для указанных процессоров в поле "Частота шины" приводится эффективная, то есть увеличенная в четыре раза, частота шины.
В процессорах компании AMD Athlon 64 и Opteron использована технология HyperTransport . Она позволяет процессору и оперативной памяти взаимодействовать эффективнее, что положительно сказывается на общей производительности системы.


Коэффициент умножения (от 6.0 до 30.0).

Значение коэффициента умножения процессора, на основании которого производится расчет конечной тактовой частоты процессора.
Тактовая частота процессора вычисляется как произведение частоты шины (FSB) на коэффициент умножения. Например, частота шины (FSB) составляет 533 Mhz, коэффициент умножения - 4.5, получаем: 533*4.5= 2398,5 Mгц. Это и будет тактовой частотой работы процессора. Почти у всех современных процессоров данный параметр является заблокированным на уровне ядра и не поддается изменению.
В современных процессорах Intel Pentium 4, Pentium M, Pentium D, Pentium EE, Xeon, Core и Core 2 используется технология Quad Pumping , которая позволяет передавать четыре блока данных за один такт, при этом эффективная частота шины увеличивается в четыре раза.

Для указанных процессоров в поле "Частота шины" приводится эффективная, то есть увеличенная в четыре раза, частота шины. Для получения физической частоты шины нужно эффективную частоту разделить на четыре.

Максимальная рабочая температура (от 54.8 до 105 C)
Допустимая максимальная температура поверхности процессора, при которой возможна нормальная работа.
Температура процессора зависит от его загруженности и от качества теплоотвода. В холостом режиме и при нормальном охлаждении температура процессора находится в пределах 25-40°C, при высокой загруженности она может достигать 60-70 градусов.
Для процессоров с высокой рабочей температурой рекомендуются мощные системы охлаждения.

Напряжение на ядре (от 0.65 до 1.75 В)
Номинальное напряжение питания ядра процессора.
Этот параметр указывает напряжение, которое необходимо процессору для работы (измеряется в вольтах). Он характеризует энергопотребление процессора и особенно важен при выборе CPU для мобильной, нестационарной системы.

Поддержка 3DNow
Поддержка технологии 3DNow!.
3DNow! - это технология, представляющая собой набор из 21 дополнительной команды. Она предназначена для улучшенной обработки мультимедийных приложений. Эта характеристика относится только к процессорам производства компании AMD.

Поддержка AMD64/EM64T
Поддержка технологии AMD64 или EM64T.
Процессоры с 64-битной архитектурой могут одинаково эффективно работать как со старыми 32-битными приложениями, так и с 64-битными, которые становятся в последнее время все более популярными.

Примеры линеек с 64-битной архитектурой: AMD Athlon 64, AMD Opteron, Core 2 Duo, Intel Xeon 64 и прочие.

Процессоры с поддержкой 64-битной адресации работают с оперативной памятью свыше 4 Гб, что недоступно традиционным 32-битным CPU. Для использования преимуществ 64-битных процессоров необходимо, чтобы ваша операционная система была адаптирована к ним.
Реализация 64-битных расширений в процессорах AMD называется AMD64, в моделях от Intel - EM64T.

Поддержка HT
Поддержка технологии Hyper-Threading (HT) .
Технология Hyper-Threading, разработанная компанией Intel, позволяет процессору выполнять параллельно два потока команд (или две части программы).

Это значительно повышает эффективность выполнения специфических приложений, связанных с аудио- и видеоредактированием, 3D-моделированием и т.п., а также работы в многозадачном режиме.

Однако в некоторых приложениях использование этой технологии может приводить к обратному эффекту, поэтому при необходимости ее можно отключить.

Поддержка NX Bit
NX Bit представляет собой технологию, которая может предотвращать исполнение вредоносного кода некоторых видов вирусов. Она поддерживается в операционной системе Windows XP и во всех 64-битных операционных системах.

Поддержка SSE2
Технология SSE2 включает в себя набор команд, разработанных компанией Intel в дополнение к своим предыдущим технологиям SSE и MMX. Эти команды позволяют добиться существенного прироста производительности в приложениях, оптимизированных под SSE2. Данную технологию поддерживают практически все современные модели.

Поддержка SSE3
SSE3 - технология, представляющая собой набор из 13 новых команд, призванных улучшить производительность процессора в ряде операций потоковой обработки данных.

Поддержка SSE4
SSE4 - технология, представляющая собой набор из 54 новых команд. Они призваны увеличить производительность процессора в работе с медиаконтентом, в игровых приложениях, задачах трехмерного моделирования.

Поддержка Virtualization Technology
Virtualization Technology позволяет запускать на одном компьютере несколько операционных систем одновременно. Таким образом, с помощью виртуализации одна компьютерная система может функционировать как несколько виртуальных систем.

Сокет
Тип сокета - разъема для установки процессора на материнской плате. Как правило, тип сокета характеризуется количеством ножек и производителем процессора. Разные сокеты соответствуют разным типам процессоров.
Современные процессоры Intel используют сокет LGA775 и LGA1366 , процессоры AMD - сокеты AM2 и AM2+ .

Тепловыделение (от 10 до 165 Вт)
Величина тепловыделения процессора.
Тепловыделение - это мощность, которую должна отводить система охлаждения, чтобы обеспечить нормальную работу процессора. Чем больше значение этого параметра, тем сильнее греется процессор при работе.
Процессор с низким тепловыделением легче охлаждать, и, соответственно, его можно сильнее разогнать.
Однако следует обратить внимание, что производители процессоров по-разному измеряют тепловыделение, поэтому их сравнение корректно только в рамках одного производителя

Техпроцесс
Техпроцесс - это масштаб технологии, которая определяет размеры полупроводниковых элементов, составляющих основу внутренних цепей процессора (эти цепи состоят из соединенных соответствующим образом между собой транзисторов). Совершенствование технологии и пропорциональное уменьшение размеров транзисторов способствуют улучшению характеристик процессоров.

Для сравнения, у ядра Willamette , выполненного по техпроцессу 0.18 мкм - 42 миллиона транзисторов, а у ядра Prescott , техпроцесс 0.09 мкм - 125 миллионов.

Частота процессора (от 900 до 3800 МГц)
Тактовая частота процессора.
Тактовая частота - это количество тактов (операций) процессора в секунду. Тактовая частота процессора пропорциональна частоте шины (FSB). Как правило, чем выше тактовая частота процессора, тем выше его производительность. Но подобное сравнение уместно только для моделей одной линейки, поскольку, помимо частоты, на производительность процессора влияют такие параметры, как размер кэша второго уровня (L2), наличие и частота кэша третьего уровня (L3), наличие специальных инструкций и другие.

Шина EV-6(AMD)

Шина компании Advanced Micro Devices (AMD). Для обмена с системной памятью.

По словам основателя и исполнительного директора (CEO или Chief Executive Officer) компании Джерри Сандерса (Jerry Sanders), процессор К7 , выпушенный в 1999 году в картридже, физически совместим (то есть, имеет такое же количество и расположение контактов) с патентованным разъемом Slot 1 компании Intel. При этом новый разъем компании AMD (рабочее название - Slot A) не будет электрически совместим со Slot 1, то есть AMD не собирается нарушать патенты Intel. В качестве системной шины К7 будет использовать шину ввода/вывода процессора Alpha 21264 (внутреннее название EV-6) компании Digital Equipment.

Насколько важен кэш L3 для процессоров AMD?

Действительно, имеет смысл оснащать многоядерные процессоры выделенной памятью, которая будет использоваться совместно всеми доступными ядрами. В данной роли быстрый кэш третьего уровня (L3) может существенно ускорить доступ к данным, которые запрашиваются чаще всего. Тогда ядрам, если существует такая возможность, не придётся обращаться к медленной основной памяти (ОЗУ, RAM).

По крайней мере, в теории. Недавно AMD анонсировала процессор Athlon II X4 , представляющий собой модель Phenom II X4 без кэша L3, намекая на то, что он не такой и необходимый. Мы решили напрямую сравнить два процессора (с кэшем L3 и без), чтобы проверить, как кэш влияет на производительность.

Нажмите на картинку для увеличения.

Как работает кэш?

Перед тем, как мы углубимся в тесты, важно понять некоторые основы. Принцип работы кэша довольно прост. Кэш буферизует данные как можно ближе к вычислительным ядрам процессора, чтобы снизить запросы CPU в более отдалённую и медленную память. У современных настольных платформ иерархия кэша включает целых три уровня, которые предваряют доступ к оперативной памяти. Причём кэши второго и, в частности, третьего уровней служат не только для буферизации данных. Их цель заключается в предотвращении перегрузки шины процессора, когда ядрам необходимо обменяться информацией.

Попадания и промахи

Эффективность архитектуры кэшей измеряется процентом попаданий. Запросы данных, которые могут быть удовлетворены кэшем, считаются попаданиями. Если данный кэш не содержит нужные данные, то запрос передаётся дальше по конвейеру памяти, и засчитывается промах. Конечно, промахи приводят к большему времени, которое требуется для получения информации. В результате в вычислительном конвейере появляются "пузырьки" (простои) и задержки. Попадания, напротив, позволяют поддержать максимальную производительность.

Запись в кэш, эксклюзивность, когерентность

Политики замещения диктуют, как в кэше освобождается место под новые записи. Поскольку данные, записываемые в кэш, рано или поздно должны появиться в основной памяти, системы могут делать это одновременно с записью в кэш (write-through) или могут маркировать данные области как "грязные" (write-back), а выполнять запись в память тогда, когда она будет вытесняться из кэша.

Данные в нескольких уровнях кэша могут храниться эксклюзивно, то есть без избыточности. Тогда вы не найдёте одинаковых строчек данных в двух разных иерархиях кэша. Либо кэши могут работать инклюзивно, то есть нижние уровни кэша гарантированно содержат данные, присутствующие в верхних уровнях кэша (ближе к процессорному ядру). У AMD Phenom используются эксклюзивный кэш L3, а Intel следует стратегии инклюзивного кэша. Протоколы когерентности следят за целостностью и актуальностью данных между разными ядрами, уровнями кэшей и даже процессорами.

Объём кэша

Больший по объёму кэш может содержать больше данных, но при этом наблюдается тенденция увеличения задержек. Кроме того, большой по объёму кэш потребляет немалое количество транзисторов процессора, поэтому важно находить баланс между "бюджетом" транзисторов, размером кристалла, энергопотреблением и производительностью/задержками.

Ассоциативность

Записи в оперативной памяти могут привязываться к кэшу напрямую (direct-mapped), то есть для копии данных из оперативной памяти существует только одна позиция в кэше, либо они могут быть ассоциативны в n-степени (n-way associative), то есть существует n возможных расположений в кэше, где могут храниться эти данные. Более высокая степень ассоциативности (вплоть до полностью ассоциативных кэшей) обеспечивает наилучшую гибкость кэширования, поскольку существующие данные в кэше не нужно переписывать. Другими словами, высокая n-степень ассоциативности гарантирует более высокий процент попаданий, но при этом увеличивается задержка, поскольку требуется больше времени на проверку всех этих ассоциаций для попадания. Как правило, наибольшая степень ассоциации разумна для последнего уровня кэширования, поскольку там доступна максимальная ёмкость, а поиск данных за пределами этого кэша приведёт к обращению процессора к медленной оперативной памяти.

Приведём несколько примеров: у Core i5 и i7 используется 32 кбайт кэша L1 с 8-way ассоциативностью для данных и 32 кбайт кэша L1 с 4-way для инструкций. Понятно желание Intel, чтобы инструкции были доступны быстрее, а у кэша L1 для данных был максимальный процент попаданий. Кэш L2 у процессоров Intel обладает 8-way ассоциативностью, а кэш L3 у Intel ещё "умнее", поскольку в нём реализована 16-way ассоциативность для максимизации попаданий.

Однако AMD следует другой стратегии с процессорами Phenom II X4, где используется кэш L1 с 2-way ассоциативностью для снижения задержек. Чтобы компенсировать возможные промахи ёмкость кэша была увеличена в два раза: 64 кбайт для данных и 64 кбайт для инструкций. Кэш L2 имеет 8-way ассоциативность, как и у дизайна Intel, но кэш L3 у AMD работает с 48-way ассоциативностью. Но решение выбора той или иной архитектуры кэша нельзя оценивать без рассмотрения всей архитектуры CPU. Вполне естественно, что практическое значение имеют результаты тестов, и нашей целью как раз была практическая проверка всей этой сложной многоуровневой структуры кэширования.

Каждый современный процессор имеет выделенный кэш, которых хранит инструкции и данные процессора, готовые к использованию практически мгновенно. Этот уровень обычно называют первым уровнем кэширования или L1, впервые такой кэш появился у процессоров 486DX. Недавно процессоры AMD стали стандартно использовать по 64 кбайт кэша L1 на ядро (для данных и инструкций), а процессоры Intel используют по 32 кбайт кэша L1 на ядро (тоже для данных и инструкций)

Кэш первого уровня впервые появился на процессорах 486DX, после чего он стал составной функцией всех современных CPU.

Кэш второго уровня (L2) появился на всех процессорах после выхода Pentium III, хотя первые его реализации на упаковке были в процессоре Pentium Pro (но не на кристалле). Современные процессоры оснащаются до 6 Мбайт кэш-памяти L2 на кристалле. Как правило, такой объём разделяется между двумя ядрами на процессоре Intel Core 2 Duo, например. Обычные же конфигурации L2 предусматривают 512 кбайт или 1 Мбайт кэша на ядро. Процессоры с меньшим объёмом кэша L2, как правило, относятся к нижнему ценовому уровню. Ниже представлена схема ранних реализаций кэша L2.


У Pentium Pro кэш L2 находился в упаковке процессора. У последовавших поколений Pentium III и Athlon кэш L2 был реализован через отдельные чипы SRAM, что было в то время очень распространено (1998, 1999).

Последовавшее объявление техпроцесса до 180 нм позволило производителям, наконец, интегрировать кэш L2 на кристалл процессора.



Первые двуядерные процессоры просто использовали существующие дизайны, когда в упаковку устанавливалось два кристалла. AMD представила двуядерный процессор на монолитном кристалле, добавила контроллер памяти и коммутатор, а Intel для своего первого двуядерного процессора просто собрала два одноядерных кристалла в одной упаковке.


Впервые кэш L2 стал использоваться совместно двумя вычислительными ядрами на процессорах Core 2 Duo. AMD пошла дальше и создала свой первый четырёхъядерный Phenom "с нуля", а Intel для своего первого четырёхъядерного процессора вновь использовала пару кристаллов, на этот раз уже два двуядерных кристалла Core 2, чтобы снизить расходы.

Кэш третьего уровня существовал ещё с первых дней процессора Alpha 21165 (96 кбайт, процессоры представлены в 1995) или IBM Power 4 (256 кбайт, 2001). Однако в архитектурах на основе x86 кэш L3 впервые появился вместе с моделями Intel Itanium 2, Pentium 4 Extreme (Gallatin, оба процессора в 2003 году) и Xeon MP (2006).

Первые реализации давали просто ещё один уровень в иерархии кэша, хотя современные архитектуры используют кэш L3 как большой и общий буфер для обмена данными между ядрами в многоядерных процессорах. Это подчёркивает и высокая n-степень ассоциативности. Лучше поискать данные чуть дольше в кэше, чем получить ситуацию, когда несколько ядер используют очень медленный доступ к основной оперативной памяти. AMD впервые представила кэш L3 на процессоре для настольных ПК вместе с уже упоминавшейся линейкой Phenom. 65-нм Phenom X4 содержал 2 Мбайт общего кэша L3, а современные 45-нм Phenom II X4 имеют уже 6 Мбайт общего кэша L3. У процессоров Intel Core i7 и i5 используется 8 Мбайт кэша L3.


Современные четырёхъядерные процессоры имеют выделенные кэши L1 и L2 для каждого ядра, а также большой кэш L3, являющийся общим для всех ядер. Общиё кэш L3 также позволяет обмениваться данными, над которыми ядра могут работать параллельно.


Кэш центрального процессора разделён на несколько уровней. В универсальном процессоре в настоящее время число уровней может достигать 3. Кэш-память уровня N+1 как правило больше по размеру и медленнее по скорости доступа и передаче данных, чем кэш-память уровня N.

Самой быстрой памятью является кэш первого уровня - L1-cache . По сути, она является неотъемлемой частью процессора, поскольку расположена на одном с ним кристалле и входит в состав функциональных блоков. В современных процессорах обычно кэш L1 разделен на два кэша, кэш команд (инструкций) и кэш данных (Гарвардская архитектура). Большинство процессоров без L1 кэша не могут функционировать. L1 кэш работает на частоте процессора, и, в общем случае, обращение к нему может производиться каждый такт. Зачастую является возможным выполнять несколько операций чтения/записи одновременно. Латентность доступа обычно равна 2−4 тактам ядра. Объём обычно невелик - не более 128 Кбайт.

Вторым по быстродействию является L2-cache - кэш второго уровня, обычно он расположен на кристалле, как и L1. В старых процессорах - набор микросхем на системной плате. Объём L2 кэша от 128 Кбайт до 1−12 Мбайт. В современных многоядерных процессорах кэш второго уровня, находясь на том же кристалле, является памятью раздельного пользования - при общем объёме кэша в nM Мбайт на каждое ядро приходится по nM/nC Мбайта, где nC количество ядер процессора. Обычно латентность L2 кэша, расположенного на кристалле ядра, составляет от 8 до 20 тактов ядра.

Кэш третьего уровня наименее быстродействующий, но он может быть очень внушительного размера - более 24 Мбайт. L3 кэш медленнее предыдущих кэшей, но всё равно значительно быстрее, чем оперативная память. В многопроцессорных системах находится в общем пользовании и предназначен для синхронизации данных различных L2.

Иногда существует и 4 уровень кэша, обыкновенно он расположен в отдельной микросхеме. Применение кэша 4 уровня оправдано только для высоко производительных серверов и мейнфреймов.

Проблема синхронизации между различными кэшами (как одного, так и множества процессоров) решается когерентностью кэша. Существует три варианта обмена информацией между кэш-памятью различных уровней, или, как говорят, кэш-архитектуры: инклюзивная , эксклюзивная и неэксклюзивная .

  • Инклюзивная архитектура предполагает дублирование информации кэша верхнего уровня в нижнем (предпочитает фирма Intel).
  • Эксклюзивная кэш-память предполагает уникальность информации, находящейся в различных уровнях кэша (предпочитает фирма AMD).
  • В неэксклюзивной кэши могут вести себя как угодно.