تشغيل LLM AI محلي على جهاز كمبيوتر صغير بدون وحدة معالجة الرسومات NVIDIA
كوني جزءًا من DRN لما يقرب من عقدين من الزمن، فقد منحني مقعدًا رائعًا في الصف الأمامي في مجال التكنولوجيا الاستهلاكية المتغير باستمرار. تأتي البدع وتذهب، والآن يجب أن تكون الكلمة الطنانة الأكبر هي الذكاء الاصطناعي.
مع بعض المساعدة السخية جدًا من كينغستون تكنولوجيز، إنني أستعد للتعمق في عالم الذكاء الاصطناعي المحلي.
لماذا أصبح الذكاء الاصطناعي المحلي أكثر أهمية؟
من ChatGPT إلى جيميني، كلود، جروك. هناك وفرة من وكلاء الذكاء الاصطناعي التجاريين القائمين على الاشتراكات في البرية. لا تفوت أن شركة Microsoft تحاول دمج برنامج CoPilot في كل شيء تمامًا مثل Clippy فائق الشحن. دعونا لا ننسى الحياة البرية المجهولة في OpenClaw (née Clawdbot).
ولكن هناك ما هو أكثر من ذلك – حدود حاملي الماجستير في القانون المحلي. وكلاء الذكاء الاصطناعي، يعملون في بيئتك الخاصة. لا يتم إرسال أي شيء إلى الإنترنت، تحت سيطرة الشركات التي ستأخذ بياناتك وتستخدمها لتدريب نماذجها الخاصة.
لقد غطى جو هذا الأمر بقدر كبير من التفاصيل مؤخرًا. بعض مراجعتها تقنية للغاية، ولكن قليلاً عن إيجابيات وسلبيات LLM المحلية مهم.
هل يمكنك تشغيل الذكاء الاصطناعي المحلي دون الحاجة إلى أجهزة باهظة الثمن؟
كان لدي خطة. و ““الخطة لا تصمد أبدًا خلال الثلاثين ثانية الأولى من القتال” – Ambler Furry (حسنًا، لقد جاء من Firebreak لريتشارد هيرمان جونيور.)
في أواخر العام الماضي، كنت محظوظًا بما فيه الكفاية لأرث NUC التي لم تكن قديمة جدًا. لقد كان يجلس خلف مكتبي ملفوفًا ولا يفعل الكثير حتى بدأت في التخطيط للمكان الذي يجب أن يتجه إليه قارب DRN الجيد هذا العام.
مع قيادة جو لأحدث أجهزتنا التي تشغل مثيلات الذكاء الاصطناعي المحلية، ذهبت في الاتجاه الآخر واعتقدت أنني سأرى ما سيتطلبه الأمر لتجميع منصة يمكنها تشغيل LLM محليًا دون إنفاق آلاف الدولارات فقط على وحدة معالجة الرسومات وحدها.
كانت ذاكرة الوصول العشوائي (RAM) ومحرك أقراص الحالة الصلبة (SSD) في حالة طلب هائل حيث تتولى مراكز بيانات الذكاء الاصطناعي بشكل أساسي كل ما يتم إنتاجه. وقد تفاقمت هذه الندرة الآن بسبب الوضع في الشرق الأوسط. لذلك عندما أقول دون إنفاق الآلاف… انظر إلى أن ذاكرة الوصول العشوائي (RAM) لن تصبح أرخص في أي وقت قريب.
كينغستون KC3000 SSD وذاكرة الوصول العشوائي FURY DDR5
لقد تواصلت مع كينغستون لتقديم اقتراح – دعونا نرى ما إذا كان بإمكاني بناء وإدارة LLM محلية بشكل مستدام، بهدف الاستفادة منه لدفع التشغيل الآلي للمنزل بشكل أكثر ذكاءً.
لقد عملت DRN مع Kingston في الماضي، وكان السبب الذي جعلني أتواصل معهم بشأن هذا المشروع هو التأكيد على أنني أستطيع الحصول على أجهزة من فئة المؤسسات الزائفة دون دفع ثمنها.
لقد قدموا لي بلطف أ KC3000 M2 PCIe 4.0 NVMe SSD. إنه يوفر سرعات تصل إلى 7000 ميجابايت / ثانية مع موزع حرارة من الألومنيوم والجرافين. في المساحة الضيقة لـ NUC، أحتاج إلى الحفاظ على برودة محرك الأقراص والمساعدة في الحفاظ على استقرار الأداء دون الدخول في منطقة القيود الحرارية.
لقد تم تزويدي أيضًا بـ فيوري إمباكت KF556S40IB-32، 32 جيجابايت من ذاكرة الوصول العشوائي في وحدة واحدة. نعم، لدي قناتان على اللوحة الأم، وكان وجود ذاكرة الوصول العشوائي في وحدتين سيوفر إنتاجية أفضل بشكل عام. لكنني أردت المرونة في رفع النظام إلى 64 جيجابايت إذا نجحت الأمور.
من خلال تشغيل LLM محليًا، أحتاج إلى الأجهزة لتوفير إنتاجية متسقة تحت الحمل.
مواصفات أجهزة ASUS ExpertCenter
الموديل: اسوس اكسبيرت سنتر PN53
المعالج (وحدة المعالجة المركزية): AMD Ryzen 7 7735HS (8 أنوية، 16 خيط)
الهندسة المعمارية: Zen 3+ (تحديث رامبرانت)
الساعة الأساسية: 3.2 جيجا هرتز (تعزيز يصل إلى 4.75 جيجا هرتز)
الطاقة: 35 وات TDP افتراضي (قابل للتكوين حتى 54 وات)
الرسومات (iGPU): AMD Radeon 680M المدمج (بنية RDNA 2)
الذاكرة والتخزين
ذاكرة الوصول العشوائي: 32 جيجابايت كينجستون KF556S40IB
التخزين: كينغستون KC3000 M2 PCIe 4.0 NVMe SSD
الاتصال والمنافذ
لاسلكي: واي فاي 6E وبلوتوث 5.2.
الشبكات: شبكة محلية 2.5 جيجابت (RJ45) مدمجة.
الإدخال / الإخراج الأمامي: 1x USB4 Type-C، 2x USB 3.2 Gen1 Type-A، 1x مقبس صوت.
الإدخال / الإخراج الخلفي: 1x USB4 Type-C (يدعم إدخال توصيل الطاقة)، 3x USB 3.2 Gen1 Type-A، 2x HDMI 2.1، ومنفذ قابل للتكوين (يبدو أن منفذك هو DisplayPort أو HDMI).
ليس لدي وحدة معالجة رسومات RTX مخفية بطريقة سحرية في NUC.
يقتصر استهلاك الطاقة الخاص بي على 54 واط كحد أقصى.
ما هو مهم أن نلاحظه هنا هو أنني لا أقوم بتشغيل أي جهاز محسّن للذكاء الاصطناعي، ولا يوجد شيء معزز بمئات الواط في مصدر الطاقة. فقط بعض (نوع) الأجهزة المدعومة التي يمكنها تشغيل LLM محليًا.
ماذا عن التحذير من نوع ما؟ عندما لا تقوم بتشغيل وحدة معالجة الرسومات Nvidia مع دعم CUDA الكامل، يتبين أن تشغيل LLM محلي ليس بالتأكيد مجرد توصيل وتشغيل.
تثبيت Ollama وOpen WebUI على Proxmox VE
على المعدن، قمت بتشغيل برنامج Hypervisor حتى أتمكن من جعل أجهزتي افتراضية.
على الرغم من أنني أتمتع بخبرة كبيرة في استخدام VMWare ESX، وESXi، وHyper-V، وVirtualBox؛ بالنسبة لبيئة منزلي الخاصة، أحب تشغيل Proxmox VE. إنه ذو مساحة منخفضة بشكل يبعث على السخرية، وكامل المواصفات ومجاني. شيء لا يمكن قوله بالنسبة لمعظم البدائل. على وجه الخصوص، قامت Broadcom بإلغاء ترخيص ESXi المجاني في عام 2024 والذي كان دافعًا رئيسيًا لي للانتقال إلى Proxmox.
ولكن مع الانتقال إلى Proxmox VE، أصبحت كفاءة الأجهزة ذات أهمية قصوى. لم أعد أقوم فقط بتشغيل نظام التشغيل؛ أنا أدير نظامًا بيئيًا كثيفًا حيث يتم احتساب كل ميغابايت من إنتاجية ذاكرة الوصول العشوائي.
في الماضي، كان لديّ Intel NUC من الجيل السادس يقوم بتشغيل مثيل Home Assistant الخاص بي واثنين من الأجهزة الافتراضية التي تعمل بنظام التشغيل Linux وWindows والتي أقوم بتشغيلها وإيقاف تشغيلها حسب الحاجة لمختلف الأشياء التي أقوم بها. ولهذا الغرض، كانت منصة عمرها عشر سنوات أكثر من كافية.
لكن بالنسبة لبرنامج LLM المحلي، كنت بحاجة إلى شيء ليس Jurassic Park، وهنا جاء دور Asustek PN53.
أنا أعتبر نفسي شخصًا تقنيًا جدًا، وقد استغرق هذا الأمر أكثر من مجرد جهد. وفقًا للكثير من الأبحاث التي أجريتها قبل الشروع في هذه الرحلة، يشير كل شيء إلى تكوين مدعوم… سأتحدث بشكل عام عما فعلته، ولكن ليس كثيرًا عن التفاصيل الجوهرية الفعلية للإعداد.
كان تشغيل Ubuntu في LXC (حاوية Linux) أمرًا بسيطًا. Proxmox يجعل الحياة سهلة لهذا الغرض.
التالي كان تثبيت Ollama. فكر في الأمر كمتجر تطبيقات لنماذج الذكاء الاصطناعي. إنها أداة مجانية مفتوحة المصدر تسمح لك بسحب LLMs وتشغيلها محليًا على جهاز الكمبيوتر الخاص بك بدلاً من الاعتماد على السحابة.
علاوة على ذلك، قمت أيضًا بتثبيت Open WebUI، والذي يمنحك واجهة أمامية رائعة لـ ChatGPTsque يعرفها معظم المستخدمين. بعد كل شيء، من يريد أن يواجه مجرد نافذة سوداء لسطر الأوامر، بدون تاريخ أو قدرة على سحب المرفقات؟
كان الجزء الصعب من الإعداد هو تحسين الإعداد لبطاقة رسومات غير مستندة إلى nVidia CUDA. يعمل PN53 على تشغيل ROCm (Radeon Open Compute) وهو يختلف عن CUDA. لقد تم بذل ساعات طويلة من الجهد لتكوين بيئة ROCm وتجاوز معرفات الأجهزة لضمان الاستفادة من AMD Radeon 680M iGPU بشكل صحيح، بدلاً من الرجوع إلى التنفيذ الأبطأ بكثير لوحدة المعالجة المركزية فقط.
وصلت إلى هناك في النهاية باستخدام “HSA_OVERRIDE_GFX_VERSION=10.3.0” لخداع البرنامج للتعامل مع Radeon 680M iGPU كبنية منفصلة مدعومة.
هل هو سريع للغاية في توليد الرموز؟ لا، لن يكون هذا التكوين قادرًا أبدًا على تكرار “السرعة والإحساس” للذكاء الاصطناعي السحابي، لكنني لا أستخدمه للسيطرة على العالم أيضًا. لقد كان دليلاً على المفهوم لإظهار أنني لست بحاجة إلى جهاز حديث لتشغيل ذكاء اصطناعي محلي محدود لأغراض محددة.
والأهم من ذلك أن المكونات الأساسية داخل NUC، كونها Kingston KC3000 وFURY Impact RAM ليست هي القيود. تقوم لوحة تحكم My Home Assistant الآن بمراقبة هذه الفيزياء بشكل نشط في الوقت الفعلي، وتتبع المنحنى الحراري لجهاز KC3000 أثناء تعاملها مع مهمة IOPS الثقيلة المتمثلة في تبديل طبقات نموذج الذكاء الاصطناعي.
تملي قوانين الفيزياء عددًا من العوامل:
كلما زادت الطاقة الحسابية التي تستخدمها، زاد سحب الطاقة
كلما زاد سحب الطاقة، زادت درجات الحرارة
كلما ارتفعت درجات الحرارة، زادت مساحة السطح اللازمة للإدارة الحرارية
إذا لم يكن هناك تبريد كافٍ، فسوف تتعرض مكوناتك للاختناق الحراري، أو ستواجه عدم الاستقرار
لحظة التحقق من الواقع هنا، أنا أدفع تمامًا إعداد عامل الشكل الصغير هذا إلى حدوده المادية. إن صمود المكونات ليس نقاشا نظريا، بل ضرورة حقيقية. قدمت Kingston تقييمات تحمل شفافة – تم تصنيف 4 تيرابايت KC3000 بما يصل إلى 3.2 بيتا بايت، مما يوفر توقعات محددة لعمر الكتابة لأحمال العمل المستمرة. تشتمل ذاكرة FURY Impact DDR5 أيضًا على نظام تصحيح الأخطاء (ECC) على مستوى الشريحة لتعزيز سلامة البيانات الداخلية.
وكما يتوقع المرء من بائع على مستوى المؤسسات، فإنه يحافظ على التزام طويل الأمد بخدمة العملاء وشبكات الشراكة العالمية.
الأداء في العالم الحقيقي والأفكار النهائية
لدي NUC يعمل بنظام Proxmox VE. ضمن برنامج Hypervisor هذا لدي:
أولاما مع واجهة WebUI المفتوحة
مساعد المنزل
نظام تشغيل لينكس من مختبرات بنسن
Tiny10 (تم تجريد نظام التشغيل Windows 10 بشكل كبير)
هل يعمل في وئام؟ نوعًا ما، عندما أطرح سؤالاً مفتوحًا على Ollama، فإن ذلك يطرق الجهاز بشدة. ظلت درجات الحرارة تحت السيطرة حتى الآن، ولكن يبدو أن سحب الطاقة يساعد في إبقاء الأمور تحت السيطرة.
نظرًا لأنني شرعت في إثبات أنه يمكن للمرء تشغيل مثيل محلي للذكاء الاصطناعي دون الحاجة إلى إنفاق مبالغ كبيرة من المال على أحدث وأكبر الأجهزة، فإنني أعلن بالتأكيد أن هذه المهمة قد أنجزت.
في المرحلة التالية، سأستكشف مدى فائدة (أو عدم فائدة) هذا لإدارة مثيل Home Assistant الخاص بي، وما إذا كان يمكنه القيام بأشياء أكثر ذكاءً من منطق الأتمتة المدمج.
تود DRN أن تشكر Kingston على توفير KC3000 SSD وذاكرة الوصول العشوائي FURY Impact KF556S40IB لهذا المشروع.




