15 مهر 1404
این پروژه قصد دارد پنج مک استودیو را به هم متصل کند تا یک خوشه هوش مصنوعی فوققدرتمند تشکیل دهد، با هدف بلندپروازانه اجرای مدل عظیم هوش مصنوعی لاما 3.1405B، که معمولاً مختص سرورهای ابری در سطح سازمانی است. این تلاش شامل بهرهگیری از حافظه یکپارچه، نرمافزارهای خوشهبندی تخصصی مانند XO Labs، و غلبه بر تنگناهای قابل توجه شبکه است که در تنظیمات سختافزار مصرفی ذاتی هستند.

هدف اصلی، اتصال پنج مک استودیو به یک خوشه هوش مصنوعی فوققدرتمند برای اجرای بزرگترین و چالشبرانگیزترین مدلهای هوش مصنوعی، به طور خاص مدل لاما 3.1405B است که معمولاً به خوشههای عظیم مبتنی بر ابر نیاز دارد.
پنج مک استودیو برای تغییر از PC به مک در خط لوله ویرایش ویدیوی استودیوهای Network Chuck خریداری شدند. قبل از استقرار، از این فرصت برای آزمایش خوشهبندی هوش مصنوعی، به ویژه با استفاده از نرمافزار بتا جدید به نام XO Labs، استفاده شد.
XO Labs نرمافزار بتا جدیدی است که برای خوشهبندی هوش مصنوعی طراحی شده و به سختافزارهای مختلف کامپیوتری، از رزبری پای تا کامپیوترهای بازی قدرتمند، امکان اتصال و به اشتراکگذاری منابع برای اجرای مدلهای هوش مصنوعی را میدهد. این نرمافزار به طور خودکار گرهها را کشف میکند و یک رابط کاربری گرافیکی مبتنی بر وب و یک API سازگار با OpenAI ارائه میدهد.
مدلهای هوش مصنوعی محلی حریم خصوصی و استقلال از سرویسهای مبتنی بر ابر مانند ChatGPT را ارائه میدهند. اجرای مدلهای هوش مصنوعی بزرگتر و پیچیدهتر، که منابع فشردهای هستند، اغلب نیازمند GPUهای قدرتمند یا خوشههای هوش مصنوعی است، زیرا لپتاپهای استاندارد برای مطابقت با کیفیت مدلهایی مانند ChatGPT کافی نیستند.
پارامترها در مدلهای هوش مصنوعی دانش آموخته شده را نشان میدهند؛ پارامترهای بیشتر به هوش بالاتر منجر میشود. اجرای مدلهای با پارامترهای بزرگتر نیازمند Video RAM (VRAM) قابل توجهی است، با مدلهایی از لاما 3.2 1B (4GB VRAM) تا لاما 3.3 70B (48GB VRAM)، و لاما 3.1 405B هدف یک ترابایت VRAM نیاز دارد.
کوانتیزاسیون تکنیکی است که با کاهش دقت عددی، مدلهای هوش مصنوعی بزرگ را روی GPUهای کوچکتر جا میدهد. در حالی که باعث از دست دادن مقداری دقت میشود (به عنوان مثال، INT8 با 1-3% افت، INT4 با 10-30% افت)، اما به GPUهای رده مصرفکننده امکان میدهد مدلهایی را اجرا کنند که در غیر این صورت بسیار بزرگ خواهند بود.
مکهای سری M جدید دارای حافظه یکپارچه هستند که یک فضای RAM واحد را برای سیستم و GPU فراهم میکند و تنگناهای انتقال داده را از بین میبرد و آنها را از نظر VRAM در مقایسه با GPUهای سنتی مانند Nvidia 4090 مقرون به صرفه میکند. هر مک استودیوی استفاده شده 64 گیگابایت RAM یکپارچه دارد.
GPUهای انویدیا، مانند 4090، به طور معمول در وظایف هوش مصنوعی به دلیل هستههای تنسور اختصاصی و بهینهسازی برای CUDA، که استاندارد صنعتی برای مدلهای هوش مصنوعی است، از مکها بهتر عمل میکنند. MLX (Machine Learning Acceleration) اپل با XO Labs استفاده میشود، اما CUDA همچنان از پشتیبانی و بهینهسازی گستردهتری بهرهمند است.
اتصال مک استودیوها برای خوشهبندی از اترنت 10 گیگابیت داخلی و سپس تاندربولت استفاده کرد. اترنت 10 گیگابیت یک تنگنای قابل توجه بود و باعث کاهش عملکرد چشمگیری شد. تاندربولت پهنای باند بالاتری (تا 40 گیگابیت بر ثانیه) و دسترسی مستقیمتر به PCIe ارائه میداد، اما همچنان با چندین گره، تنگناهایی را ایجاد میکرد.
نصب XO Labs شامل راهاندازی پایتون 3.12، نصب MLX (برای شتابدهی خاص مک)، کلون کردن مخزن XO Labs و اجرای یک اسکریپت پیکربندی بود. آزمایش اولیه با مدل لاما 3.2 1B نشان داد که یک مک استودیو با سرعت 117 توکن در ثانیه کار میکند که هنگام خوشهبندی از طریق اترنت 10 گیگابیت به دلیل محدودیتهای شبکه به 29 توکن در ثانیه کاهش یافت.
NordVPN حامی مالی ویدیو بود و خدماتی مانند ناشناس ماندن با پنهان کردن آدرسهای IP عمومی، رفع محدودیتهای جغرافیایی محتوا (مانند مناطق نتفلیکس)، و حفاظت از دستگاهها در شبکههای Wi-Fi عمومی با ویژگیهایی مانند محافظت در برابر تهدید و مسدود کردن تبلیغات را ارائه داد.
اجرای مدل لاما 3.3 70B روی خوشه از طریق اترنت 10 گیگابیت به حدود 15 توکن در ثانیه با توزیع حافظه خوب در سراسر گرهها دست یافت، اگرچه سریعترین نبود. اتصال تاندربولت عملکرد کمی بهتر ارائه داد اما همچنان تنگناهای شبکه را نشان میداد.
اجرای مدل عظیم لاما 3.1 405B (کوانتیزه شده 4 بیتی، حدود 200 گیگابایت) هدف نهایی بود. یک مک استودیو شکست خورد، به سرعت حافظه swap را مصرف کرد و زمانش به پایان رسید. خوشه پنج مک استودیو که روی اترنت 10 گیگابیت کار میکرد، مدل را با موفقیت در حافظه یکپارچه بدون استفاده از swap بارگذاری کرد، هرچند با سرعت بسیار پایین 0.8 توکن در ثانیه. اتصال تاندربولت عملکرد کند مشابهی (0.6 توکن در ثانیه) ارائه داد که شبکه را به عنوان تنگنای اصلی تقویت میکند.
Ollama عملکرد بهتری برای مدل 70B روی یک مک استودیو نشان داد که حاکی از بهینهسازی بهتر MLX است. API سازگار با OpenAI در XO Labs امکان یکپارچهسازی با پروژه Fabric را فراهم کرد و امکان انجام وظایفی مانند خلاصهسازی و تولید داستان با استفاده از هوش مصنوعی خوشهبندی شده را فراهم آورد و کاربرد عملی آن را علیرغم محدودیتهای عملکردی به نمایش گذاشت.
XO Labs ابزاری امیدوارکننده است، اما عملکرد آن روی مک با MLX همچنان به توسعه بیشتر نیاز دارد، به ویژه در مورد تنگناهای شبکه. ملاحظات آینده شامل آزمایش XO Labs با خوشههای مبتنی بر انویدیا یا خوشههای هوش مصنوعی رزبری پای برای ارزیابی تفاوتهای عملکردی و بهبودهای احتمالی است.
این تلاش با موفقیت هدف جسورانه اجرای بزرگترین و چالشبرانگیزترین مدلهای هوش مصنوعی، مانند لاما 3.1405B، را بر روی خوشهای از مک استودیوهای رده مصرفکننده نشان میدهد و مرزهای قابلیتهای هوش مصنوعی محلی را در برابر زیرساختهای سازمانی گسترش میدهد.
| جنبه | مدل | نیاز معمول | هدف خوشه | هزینه (واحد) | بهینهسازی هوش مصنوعی | بهرهوری انرژی | معادل VRAM | VRAM | عملکرد اترنت 10 گیگابیت | عملکرد تاندربولت | استاندارد هوش مصنوعی سازمانی | هدف | کاهش اندازه (نسبت به FP32) | افت دقت | تأثیر بر Llama 3.1 405B | یک مک استودیو | 5 مک استودیو (اترنت 10 گیگابیت) | 5 مک استودیو (تاندربولت) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| مدل هوش مصنوعی هدف | Llama 3.1 405B | 1 ترابایت VRAM (NVIDIA H100s/A100s) | اجرا بر روی 5 مک استودیو (320GB RAM یکپارچه) | |||||||||||||||
| مک استودیو (M2 Ultra, 64GB RAM یکپارچه) | 2600 دلار (کل کامپیوتر) | MLX (مخصوص اپل) | بسیار بالا | 64 گیگابایت در هر واحد (یکپارچه) | ||||||||||||||
| NVIDIA GeForce RTX 4090 | 1600 دلار (فقط GPU) | هستههای تنسور، CUDA (استاندارد صنعتی) | کمتر از مک استودیو | 24 گیگابایت | ||||||||||||||
| شبکه (خوشه هوش مصنوعی) | تنگنای قابل توجه، 29 توکن بر ثانیه برای Llama 3.2 1B (در مقایسه با 117 توکن بر ثانیه در تک مک) | بهبود یافته، اما همچنان با تنگنا (50 توکن بر ثانیه برای Llama 3.2 1B، با تنظیمات هاب) | 400-800+ گیگابیت بر ثانیه با سربار کاهش یافته | |||||||||||||||
| کوانتیزاسیون (INT4) | جا دادن مدلهای بزرگ بر روی GPUهای کوچکتر | 8 برابر کوچکتر | 10-30% | حیاتی برای تلاش جهت اجرا بر روی مک استودیوها | ||||||||||||||
| عملکرد Llama 3.1 405B بر روی خوشه | ناموفق، استفاده سریع از حافظه swap | موفق اما بسیار کند (0.8 توکن بر ثانیه)، عدم استفاده از swap به دلیل حافظه یکپارچه توزیع شده | عملکرد کند مشابه (0.6 توکن بر ثانیه)، مشکلات بارگذاری |
