قد لا يستخدم العم سام الكبير التالي وحدات معالجة الرسومات
من بين أقوى أجهزة الكمبيوتر العملاقة في العالم، تسعة من أفضل 10 أجهزة كمبيوتر تعمل بوحدات معالجة الرسومات، ولكن قد لا يكون هذا هو الحال لفترة أطول.
نظرًا لأن صانعي الرقائق مثل Nvidia يمنحون الأولوية لـ AI FLOPS على حسابات النقطة العائمة فائقة الدقة المستخدمة في الحوسبة العلمية، فإن المختبرات الوطنية الأمريكية تتجه إلى معماريات الرقائق الجديدة للحصول على إصلاح FP64.
ومن بين المرشحين هناك Maverick-2 من شركة NextSilicon، وهو معالج تدفق البيانات مصممة بشكل صريح مع رياضيات الفاصلة العائمة 64 بت التي تهيمن على أهم عمليات المحاكاة في وزارة الطاقة.
وعلى الرغم من اسمها، فإن وزارة الطاقة مهتمة بما هو أكثر بكثير من مجرد شبكة الكهرباء في الولايات المتحدة. وهي تدير بعضًا من أكبر الشركات المعروفة أجهزة الكمبيوتر العملاقة في العالم، وهي المسؤولة عن كل شيء بدءًا من محاكاة فيزياء الأسلحة النووية في لحظة الحرجة والدفاع عن الأسلحة البيولوجية وحتى الصحة والسلامة العامة.
منذ ظهور حاسوب Titan Supercomputer لأول مرة في عام 2012، تم تشغيل عدد متزايد من هذه الحواسيب العملاقة بواسطة وحدات معالجة الرسوميات من Nvidia، ومؤخرًا من AMD.
ولكن هذا ليس هو الحال بالنسبة لمختبر سانديا الوطني الجديد أطياف الكمبيوتر العملاق، الذي تم تصميمه بالتعاون مع Penguin Solutions وNextSilicon.
بالمقارنة مع أنظمة الإكساسكيل مثل Frontier أو El Capitan، فإن Spectra صغير جدًا. يحتوي الجهاز على 64 عقدة و128 من مسرعات NextSilicon “القابلة للتهيئة في وقت التشغيل”.
لكن الحجم ليس هو الهدف. Spectra عبارة عن سرير اختبار لـ Maverick-2 من NextSilicon. هذا الأسبوع، سانديا أعطت الرقائق ممتاز، معلنة أن شركة Iron الكبيرة قد استوفت جميع متطلبات قبول النظام الخاصة بها، مما يفتح الباب أمام نشر الرقائق في أنظمة أكبر في المستقبل.
ليس GPU آخر
على الرغم من بعض أوجه التشابه مع B200 من Nvidia، إلا أن Maverick-2 وحش مختلف تمامًا. بدلاً من بنية الحوسبة القياسية لـ von Neumann التي تدعم معظم وحدات المعالجة المركزية ووحدات معالجة الرسومات اليوم، تستخدم شرائح NextSilicon بنية تدفق بيانات قابلة لإعادة التشكيل.
يشتمل القالبان الحسابيان للمعالج على شبكة من الوحدات المنطقية الحسابية المترابطة في الرسم البياني. يتم تكوين كل وحدة في وقت التشغيل لإجراء عملية محددة، سواء كانت إضافة أو ضرب أو بعض العمليات المنطقية الأخرى.
لكن الحيلة الحقيقية للرقاقة تكمن في تداخل تدفق البيانات والحوسبة. بمجرد وصول البيانات إلى الوحدة التالية في التدفق، يتم حسابها على الفور، دون انتظار عمليات مخزن التحميل لتبديل البيانات.
وفقًا لـ NextSilicon، يؤدي هذا إلى تحسين أداء وكفاءة الرقائق بشكل كبير في أعباء العمل في العالم الحقيقي.
بنيات تدفق البيانات ليست جديدة. قامت كل من Groq وCerebras وSambaNova ببناء شرائح بناءً على هذا المفهوم. ومع ذلك، تهدف جميع هذه التصميمات إلى الاستدلال أو التدريب على الذكاء الاصطناعي. يعد NextSilicon أحد المنتجات القليلة التي رأيناها تستهدف الحوسبة عالية الأداء.
من الصعب برمجة تدفق البيانات، وهذا على الأرجح هو السبب وراء قيام الشركات الناشئة في مجال الرقائق التي قامت ببناء شرائح حوله بتقديمها إلى حد كبير كخدمة مُدارة أو خدمة قفازات بيضاء بدلاً من بيع خوادم معدنية مجردة.
بدلاً من محاولة نقل أعباء العمل للتشغيل على شرائحها، قامت NextSilicon ببناء مترجم تدعي أنه يسمح لها بتشغيل أي قواعد تعليمات برمجية موجودة في C أو Python أو Fortran أو CUDA على شرائحها. وكما نفهم، فهو يعمل في البداية عن طريق تشغيل أحمال العمل هذه على وحدة المعالجة المركزية. يقوم المترجم بعد ذلك بالتقاط الرسم البياني الحسابي، وتعيينه للرقائق، ثم تحسينه لتحقيق أقصى قدر من الأداء.
مع Spectra، قامت Sandia الآن بالتحقق من صحة الأجزاء عبر ثلاثة أعباء عمل رئيسية: معيار التدرج المترافق عالي الأداء (HPCG)، ومجموعة اختبار الديناميكيات الجزيئية LAMMPS، ومجموعة محاكاة Sparta Monte Carlo.
يقوم الذكاء الاصطناعي بتغيير وحدات معالجة الرسومات
يأتي تركيز NextSilicon على HPC في تناقض صارخ مع الجيل التالي من وحدات معالجة الرسومات من Nvidia.
الشركة وحدات معالجة الرسومات روبن من المقرر أن يتم إصدارها في وقت لاحق من هذا العام، حيث تعد بنطاق ترددي كبير للذاكرة وما يصل إلى 50 بيتافلوب من حساب FP4. وهذا يجعل الرقائق منافسة قوية لاستدلال الذكاء الاصطناعي وأحمال عمل التدريب، وهذا على الأرجح هو السبب وراء قيام وزارة الطاقة أيضًا بنشرها في أنظمة مثل الكمبيوتر العملاق دودنا في مختبر لورانس بيركلي الوطني.
في حين أن حساب FP64 لا يزال مناسبًا للعديد من أعباء العمل العلمية الحالية، بالنسبة لأعباء عمل الذكاء الاصطناعي، فإن وحدات معالجة الرسوميات من Nvidia لا تزال ذات صلة بالمختبرات الأمريكية.
ومع ذلك، فإن كل عمليات الـ AI FLOPS هذه تأتي على حساب أداء المتجهات والمصفوفة للأجهزة FP64. يصل أداء Rubin إلى 33 تيرافلوبس، مما يجعله أبطأ حتى من H100 الذي يبلغ من العمر أربع سنوات تقريبًا من Nvidia.
ولكن هذا لا يعني أنها ليست جيدة للحوسبة العلمية. بالنسبة لأحمال العمل الثقيلة المصفوفية مثل High Performance Linpack (HPL)، تعتمد Nvidia على فكرة مثيرة للجدل إلى حد ما حول مخطط Ozaki، الذي يستخدم أنواع بيانات أقل دقة لمحاكاة حساب FP64.
باستخدام هذا النهج، تدعي Nvidia أن Rubin يمكنه تقديم ما يصل إلى 200 تيرا فلوبس من أداء مصفوفة FP64. لقد تعمقنا أكثر في محاكاة Nvidia خوارزميات FP64 في وقت سابق من هذا العام، ولكن يكفي أن نقول أنها ليست مثالية. في حين أنها أظهرت نتائج واعدة في بعض أحمال عمل الحوسبة عالية الأداء (HPC)، إلا أنها في حالات أخرى، وخاصة تلك ذات النواقل الثقيلة، مثل ديناميكيات الموائع الحسابية، لا تقدم سوى القليل من الفوائد، إن وجدت.
من قبيل الصدفة، يصادف أن هذا الأخير هو نفس نوع عبء العمل الذي ركز عليه NextSilicon اهتمامه.
ليس لدينا حتى الآن معايير على مستوى النظام لأجهزة NextSilicon، ناهيك عن Spectra، ولكن قيل لنا أن Maverick-2 يمكن أن يكون واحدًا يسلم حوالي 600 جيجا فلوبس من FP64 تحسب HPCG. تدعي الشركة الناشئة أن هذا الأداء يتساوى تقريبًا مع وحدات معالجة الرسومات الرائدة بينما يستهلك نصف الطاقة.
في حين أن Nvidia تعطي الأولوية بوضوح لحوسبة الذكاء الاصطناعي في أحدث جيل من وحدات معالجة الرسومات، فقد اتبعت AMD نهجًا مختلفًا.
مثل روبن، AMD الجديد مسرعات MI455X تم ضبطها من أجل الاستدلال والتدريب على الذكاء الاصطناعي، ولكنها مجرد واحدة من عدة إصدارات من وحدة معالجة الرسومات التي قام House of Zen بخبزها في فرن TSMC.
بالنسبة إلى MI430X، استبدلت AMD قوالب الحوسبة المرتكزة على الذكاء الاصطناعي ببعض القوالب المصممة خصيصًا للحوسبة عالية الأداء. في وقت سابق من هذا الشهر، علمنا أن الرقاقة ستكون كذلك يسلم ما يصل إلى 200 تيرافلوب من ذروة FP64 الناخر لأجهزة الكمبيوتر العملاقة Discovery القادمة من وزارة الطاقة وأجهزة الكمبيوتر العملاقة Alice Recoque الأوروبية.
من يحتاج إلى وحدات معالجة الرسومات على أي حال؟
لا تزال شركات الرقائق الناشئة مثل NextSilicon بحاجة إلى إثبات إمكانية توسيع نطاق رقائقها إلى أنظمة أكبر. ولكن عبر المحيط الهادئ، أظهرت الصين بالفعل أنها، على الأقل في مجال الحوسبة العلمية، لا تحتاج إلى وحدات معالجة الرسوميات للتنافس مع أفضل الأجهزة الخارقة في الغرب.
لدى الصين تاريخ في بناء منتجات السيليكون المتخصصة خصيصًا لتعزيز قدراتها الوطنية في مجال الحوسبة الفائقة.
بعض الأنظمة، مثل الكمبيوتر العملاق Sunway TaihuLight، مستخدم معالج متعدد النواة مخصص مثل 260 معالج RISC مخصص. أخرى، مثل Tianhe 2A، استخدمت معالج إشارة رقمي محلي (DSP) يسمى Matrix 2000 لحساب FP64 الخاص بها.
في الآونة الأخيرة، سمعنا عن حاسوب عملاق جديد، يسمى LineShine، والذي يشبه جهاز TaihuLight، يقال يستخدم 47000 وحدة معالجة مركزية مخصصة، والتي من المتوقع أن تدفع الجهاز إلى 2 exaFLOPS من FP64 الناخر. بالطبع، نظرًا لأن الصين لم تعد تشارك في تصنيف Top500 السنوي لأسرع السيارات الخارقة المعروفة، فقد لا نعرف ذلك على وجه اليقين أبدًا.
ويرجع استخدام الصين للسيليكون في جزء منه إلى القيود التجارية الأمريكية المفروضة على بيع المسرعات المتطورة في المنطقة. وحتى عندما لا تزال هذه الرقائق قانونية، فقد أصبحت نقطة ضعف في سلسلة التوريد بالنسبة لبكين. وفي الواقع، كان القرار الذي اتخذته حكومة الولايات المتحدة بمنع شركة إنتل من بيع معالجاتها Xeon Phi إلى الصين سبباً في تطوير الماتريكس 2000.
وفي الولايات المتحدة، ربما يتمثل التحدي الأكبر في التنافس مع المساهمين في مصممي الرقائق. لقد جعل الذكاء الاصطناعي شركة Nvidia الشركة الأكثر قيمة في العالم؛ وبالمقارنة، تظل الحوسبة عالية الأداء (HPC) سوقًا مهمًا، وإن كانت متخصصة. ®


