Biostar Racing P1: عادم بارد

لم نكن أول من لاحظ أن أجهزة الكمبيوتر الصغيرة مثل Intel Compute Stick ليست جيدة بما يكفي من حيث الأداء. التعرف على جهاز مماثل من Biostar ، لم تكن التوقعات الأكثر تفاؤلاً. مثل الموديلات الأصغر من أجهزة الكمبيوتر العصوية ، يعمل Racing P1 على أحد أضعف المعالجات في عائلة Atom Z8000. ومع ذلك ، فإن رقاقة x5-Z8350 التي اختارها Biostar هي خطوة واحدة ، ولكنها أكثر إنتاجية من أخيه الأصغر. دعنا نحاول تقييم أداء هذه المنصة ، التي لم تعد عصا ، ولكن بفضل جهود Biostar ، ولكنها ليست كمبيوتر محمول أيضًا.


الشكل 1 . USB 3.0 / 2.0 ، وفتحة بطاقة SD ، وجهات اتصال الإضاءة الخلفية ، ومقبس سماعة الرأس وزر طاقة مناسبان على اللوحة الأمامية

الأدوات المستخدمة هي معيار NCRB (علامات NUMA CPU و RAM) لـ Win64 والأداة المساعدة عبر الأنظمة الأساسية لتحديد معالج JavaCPUID.


وحدة المعالجة المركزية


تؤكد تعليمات CPUID تثبيت معالج Intel Atom x5-Z8350 على منصة Biostar Racing P1 . تردده الاسمي هو 1.44 جيجا هرتز ، والذي ، مع ذلك ، لا يمنعه من التسارع بشكل قانوني إلى 1.92 جيجا هرتز إذا لزم الأمر. حتى مع معرفة قصيرة بهذه المنصة ، فإن المفارقة واضحة: إن تشغيلها في النطاق من 1.44 إلى 1.92 هو قاعدة أكثر من كونه استثناءً لها.


الشكل 2 . مواصفات مصنع Intel Atom x5-Z8350

يعتمد قرار معالج x5-Z8350 على تحديد الحد الأدنى أو القياسي لتردد الساعة وبدء وضع Turbo على تحليل الحمل ودرجة حرارة التشغيل. يحدد إطار SDP (Scenario Dissipated Power) استهلاك الطاقة النموذجي للجهاز. تقوم آليات التحكم بتقييم الوضع بشكل مستقل ، وفي حالة الحمل "الخفيف" تقلل من استهلاك الطاقة للرقاقة. القدرة على تشغيل وضع Turbo هي دالة لدرجة الحرارة ، لذلك قد تختلف نتائج اختبارات الصيف والشتاء. بشكل عام ، تقوم Racing P1 أيضًا بتغيير "الأحذية" لهذا الموسم.


بعد تجاوز نطاق الدراسة ، نلاحظ أن الحرق اللاحق يؤدي إلى استهلاك ما يصل إلى 7 واط على خطوط الطاقة من 220 فولت. .


الشكل 3 . CPUID على ميزات Intel Atom x5-Z8350

تعمل Intel Atom x5-Z8350 مع البيانات بسعة قصوى تبلغ 128 بت. الملحقات الوظيفية الحديثة AVX 256/512 غير مدعومة. هذا يعني أن أداة القياس لدينا ستكون مجموعة من تعليمات المتجه SSE 128 ، وكائن القياس - ذاكرة التخزين المؤقت وذاكرة الوصول العشوائي الديناميكية.


الشكل 4 . معلومات النظام ونافذة اختيار وضع الاختبار لأداة NCRB: تعرض القائمة الموجودة على اليسار مجموعات التعليمات ، بما في ذلك الملحقات الوظيفية التي يدعمها المعالج

انحراف مهم مناسب هنا: في الحالة العامة ، لا تعني السعة القصوى للمعاملات الحد الأقصى من الأداء. لذا ، يقوم عدد من معالجات AMD حتى AM2 ، بشكل شامل ، بمعالجة تنزيلين 64 بت مع تعليمات MOV الكلاسيكية بشكل أسرع من تنزيل SSE 128 بت واحد مع تعليمات MOVAPD. بتذكر ذلك ، قبل إجراء التجارب ، تأكدنا تجريبيًا - استخدام SSE لـ Atom x5-Z8350 هو في الواقع السيناريو الأكثر إنتاجية.


ذاكرة التخزين المؤقت L1


عادةً ما يكون حجم ذاكرة التخزين المؤقت مضاعفًا لقوة اثنين. في المستوى الأول ، تحاول الشركة المصنعة توزيعها بالتساوي بين التعليمات والبيانات. كل هذه الشرائع لا تحترمها بنية معالج x5-Z8350. يحتوي كل من نوىه الأربعة على 32 كيلوبايت من ذاكرة التخزين المؤقت للتعليمات و 24 كيلوبايت للبيانات.


الشكل 5 . تصنيف مستويات التخزين المؤقت

يعطي عدد من المصادر منتجًا بحجم ذاكرة التخزين المؤقت من قلب واحد حسب عددها ، مما يعطي عرضًا أكثر إثارة للإعجاب: ذاكرة تخزين مؤقت 128 كيلوبايت وذاكرة تخزين بيانات 96 كيلوبايت. الصفحة الرسمية صامتة تقليديا حول ذاكرة التخزين المؤقت L1 ، على الأقل في وقت كتابة هذه السطور.


لاحظ أن ذاكرة التخزين المؤقت ذات المستوى صفر (على غرار L1 Trace Cache) ، التي تخزن التعليمات التي تم فك تشفيرها وتحسن كفاءة الدورات القصيرة ، لم يتم التصريح عنها بواسطة تعليمات CPUID. التحقق من توفرها وتحليلها للأداء تستحق نشر منفصل.


النظريات والتطبيق: أداء ذاكرة التخزين المؤقت


يتكون قياس سرعة التخزين المؤقت من عمليات قراءة أو كتابة دورية لكتلة يقل حجمها عن حجم مستوى التخزين المؤقت قيد الدراسة ، وبالتالي فإن عمليات الوصول إلى البيانات هي نتائج ذاكرة التخزين المؤقت. في الواقع ، يتم تحديد اختيار الهدف (ذاكرة التخزين المؤقت L1 أو L2 أو DRAM) حسب حجم كتلة البيانات المعالجة.


بعد تحديد الكيان الذي يتم اختباره ، ننتقل إلى النظر في العمليات على مستوى تعليمات الماكينة. في تجربتنا ، نستخدم دورة ممتدة من ستة عشر تعليمات SSE2 MOVAPD ، كل منها ينقل معامل 128 بت بين الذاكرة وأحد تسجيلات XMM. ونتيجة لذلك ، يتم تحميل 16 تسجيلات XMM0 ... XMM15 بالكامل في تكرار واحد للحلقة.


من أجل الاكتمال ، نلاحظ أنه يمكن أيضًا استخدام تعليمات MOVAPD لنقل البيانات بين اثنين من سجلات XMM ، ولكن في عملياتنا الخاصة بحالات التسجيل لن تعطي فكرة عن أداء كائنات الذاكرة. يتم ضمان الحد الأقصى للأداء من خلال متطلبات المحاذاة التي تتطلبها تعليمات MOVAPD: يجب أن يكون عنوان المعامل مضاعف 16 بايت (128 بت).



معايير ذاكرة التخزين المؤقت L1


في حين أن كتلة القراءة أو الكتابة أصغر من حجم ذاكرة التخزين المؤقت L1 (على الرسم البياني ، هذا هو المحور X) ، فإن سعر الصرف مرتفع. بمجرد تجاوز كتلة L1 ، تحدث أخطاء ذاكرة التخزين المؤقت وتنخفض السرعة. من الواضح أنه عند تقييم الأداء ، تكون "الخطوة العليا" المقابلة للجزء الأيسر من الرسم البياني مفيدة.


الشكل 6 . رسم بياني لسرعة قراءة كتلة البيانات على حجمها ؛
الجوار X = الحجم L1

تعادل السرعة القصوى بالميغابايت في الثانية (MBPS) الحد الأدنى لعدد علامات التجزئة لكل تعليمات ( CPI ، الساعات لكل تعليمات ) وهي حوالي 30 جيجابايت في الثانية .


الشكل 7 . مؤامرة سرعة الكتابة لكتلة البيانات على حجمها ؛
الجوار X = الحجم L1

كما يتبين من الرسوم البيانية ، فإن نقطة الانعطاف لقراءة L1 تقابل قيمة نظرية تبلغ 24 كيلو بايت. للتسجيل ، تتميز سياسة التخزين المؤقت المستخدمة في هذا المعالج بـ "انخفاض مبكر" في السرعة ، والذي سيكون موضوع دراسة منفصلة. ولكن الآن يمكن ملاحظة - هذه السياسة لا تساهم في تسجيل مؤشرات الأداء ، على الرغم من أنه في بعض الحالات من الممكن تجنب انسداد L1 بالبيانات غير الضرورية.


أظهرت النتائج السرعة التي طورها مركز واحد لمعالج Atom x5-Z8350. يظهر عدد من الاختبارات ، ولا سيما AIDA64 ، الأداء الكلي لجميع النوى.


سنقوم بإجراء حساب نظري صغير من خلال نمذجة ذروة الإنتاجية. بالنسبة لوحدة المعالجة المركزية قيد الدراسة ، فإن تردد الساعة في وضع Turbo هو 1920 ميجاهرتز. يتم إرسال 128 بت أو 16 بايت في دورة ساعة واحدة:

  • 1920 * 16 = 30720 (حوالي 30 غيغابايت في الثانية)

يستخدم عداد TSC (عداد طابع الوقت) كمصدر لفترات زمنية نموذجية. نظرًا لأن نواة المعالج و TSC يتم تسجيلهما بشكل غير متزامن بشكل عام ، فإن قيم دورات ساعة TSC لكل تعليمة هي قيم كسرية.


تأكد من أن المعالج يعمل في وضع Turbo ، بناءً على قيم التردد الموضحة في الوثائق. تبلغ دورة الساعة الواحدة للتردد الأساسي المعزز 1920 ميجاهرتز حوالي 0.521 نانو ثانية. تبلغ دورة الساعة الواحدة للتردد الاسمي 1440 ميجاهرتز ، التي يعمل عليها عداد الطابع الزمني ، حوالي 0.694 نانو ثانية. للحصول على التعليمات المنفذة لكل دورة ، يجب أن تكون القيمة النظرية لعدد دورات TSC لكل تعليمة (CPI)

  • 0.521 / 0.694 = 0.750

القيم المقاسة المعروضة للحد الأدنى لمؤشر أسعار المستهلك ضمن 0.759 ... 0.767 قريبة جدًا من هذه القيمة.


ذاكرة التخزين المؤقت L2


تنقسم أربعة نوى للمعالج قيد الدراسة إلى مجموعتين ، نوى في كل منهما. يبلغ الحجم الكلي لذاكرة التخزين المؤقت L2 2 ميغابايت ويتم تقسيمها بالتساوي. الاستنتاج واضح: 1 ميجابايت من ذاكرة التخزين المؤقت L2 متاحة لكل نواة ، ويتم الوصول إلى الوصول إليها مع جار المجموعة.



معايير ذاكرة التخزين المؤقت L2


سرعة التخزين المؤقت L2 هي "الخطوة" المركزية التي تحدث عند ملاحظة عدم المساواة المزدوجة لـ 24 كيلوبايت <X <1 ميجابايت ، عندما لا يتم وضع كتلة البيانات المعالجة في L1 ، ولكن لا تزال توضع في L2.


الشكل 8 . رسم بياني لسرعة قراءة كتلة البيانات على حجمها ؛
الجوار X = الحجم L2

كما يتبين من الرسوم البيانية ، يحدث انخفاض في السرعة بسبب استنفاد L2 عندما يتم تجاوز الحد البالغ 1 ميجابايت. لم يتم العثور على القدرة على "استعارة" ذاكرة تخزين مؤقت من مجموعة مجاورة ، بعد أن انتقلت لحظة انخفاض السرعة إلى نقطة 2 ميجابايت.


الشكل 9 . مؤامرة سرعة الكتابة لكتلة البيانات على حجمها ؛
الجوار X = الحجم L2

معدل أداء ذاكرة التخزين المؤقت للكتابة L2 قريب من القراءة: 12 مقابل 11.5 جيجابايت في الثانية. سيتم النظر في الخلفية النظرية لهذه النتيجة في المنشور التالي .

Source: https://habr.com/ru/post/ar413857/


All Articles