ساخت یک خوشه هوش مصنوعی فوق‌قدرتمند با پنج مک استودیو برای اجرای مدل لاما 3.1405B

این پروژه قصد دارد پنج مک استودیو را به هم متصل کند تا یک خوشه هوش مصنوعی فوق‌قدرتمند تشکیل دهد، با هدف بلندپروازانه اجرای مدل عظیم هوش مصنوعی لاما 3.1405B، که معمولاً مختص سرورهای ابری در سطح سازمانی است. این تلاش شامل بهره‌گیری از حافظه یکپارچه، نرم‌افزارهای خوشه‌بندی تخصصی مانند XO Labs، و غلبه بر تنگناهای قابل توجه شبکه است که در تنظیمات سخت‌افزار مصرفی ذاتی هستند.

image

خلاصه نکات کلیدی

  • هدف خوشه هوش مصنوعی

    هدف اصلی، اتصال پنج مک استودیو به یک خوشه هوش مصنوعی فوق‌قدرتمند برای اجرای بزرگترین و چالش‌برانگیزترین مدل‌های هوش مصنوعی، به طور خاص مدل لاما 3.1405B است که معمولاً به خوشه‌های عظیم مبتنی بر ابر نیاز دارد.

  • تهیه سخت‌افزار و انگیزه

    پنج مک استودیو برای تغییر از PC به مک در خط لوله ویرایش ویدیوی استودیوهای Network Chuck خریداری شدند. قبل از استقرار، از این فرصت برای آزمایش خوشه‌بندی هوش مصنوعی، به ویژه با استفاده از نرم‌افزار بتا جدید به نام XO Labs، استفاده شد.

  • نرم‌افزار XO Labs

    XO Labs نرم‌افزار بتا جدیدی است که برای خوشه‌بندی هوش مصنوعی طراحی شده و به سخت‌افزارهای مختلف کامپیوتری، از رزبری پای تا کامپیوترهای بازی قدرتمند، امکان اتصال و به اشتراک‌گذاری منابع برای اجرای مدل‌های هوش مصنوعی را می‌دهد. این نرم‌افزار به طور خودکار گره‌ها را کشف می‌کند و یک رابط کاربری گرافیکی مبتنی بر وب و یک API سازگار با OpenAI ارائه می‌دهد.

  • اهمیت هوش مصنوعی محلی و خوشه‌های هوش مصنوعی

    مدل‌های هوش مصنوعی محلی حریم خصوصی و استقلال از سرویس‌های مبتنی بر ابر مانند ChatGPT را ارائه می‌دهند. اجرای مدل‌های هوش مصنوعی بزرگتر و پیچیده‌تر، که منابع فشرده‌ای هستند، اغلب نیازمند GPUهای قدرتمند یا خوشه‌های هوش مصنوعی است، زیرا لپ‌تاپ‌های استاندارد برای مطابقت با کیفیت مدل‌هایی مانند ChatGPT کافی نیستند.

  • پارامترهای مدل هوش مصنوعی و نیازهای VRAM

    پارامترها در مدل‌های هوش مصنوعی دانش آموخته شده را نشان می‌دهند؛ پارامترهای بیشتر به هوش بالاتر منجر می‌شود. اجرای مدل‌های با پارامترهای بزرگتر نیازمند Video RAM (VRAM) قابل توجهی است، با مدل‌هایی از لاما 3.2 1B (4GB VRAM) تا لاما 3.3 70B (48GB VRAM)، و لاما 3.1 405B هدف یک ترابایت VRAM نیاز دارد.

  • کوانتیزاسیون

    کوانتیزاسیون تکنیکی است که با کاهش دقت عددی، مدل‌های هوش مصنوعی بزرگ را روی GPUهای کوچکتر جا می‌دهد. در حالی که باعث از دست دادن مقداری دقت می‌شود (به عنوان مثال، INT8 با 1-3% افت، INT4 با 10-30% افت)، اما به GPUهای رده مصرف‌کننده امکان می‌دهد مدل‌هایی را اجرا کنند که در غیر این صورت بسیار بزرگ خواهند بود.

  • معماری حافظه یکپارچه مک استودیو

    مک‌های سری M جدید دارای حافظه یکپارچه هستند که یک فضای RAM واحد را برای سیستم و GPU فراهم می‌کند و تنگناهای انتقال داده را از بین می‌برد و آنها را از نظر VRAM در مقایسه با GPUهای سنتی مانند Nvidia 4090 مقرون به صرفه می‌کند. هر مک استودیوی استفاده شده 64 گیگابایت RAM یکپارچه دارد.

  • مک در برابر انویدیا برای هوش مصنوعی

    GPUهای انویدیا، مانند 4090، به طور معمول در وظایف هوش مصنوعی به دلیل هسته‌های تنسور اختصاصی و بهینه‌سازی برای CUDA، که استاندارد صنعتی برای مدل‌های هوش مصنوعی است، از مک‌ها بهتر عمل می‌کنند. MLX (Machine Learning Acceleration) اپل با XO Labs استفاده می‌شود، اما CUDA همچنان از پشتیبانی و بهینه‌سازی گسترده‌تری بهره‌مند است.

  • چالش‌های اتصال شبکه

    اتصال مک استودیوها برای خوشه‌بندی از اترنت 10 گیگابیت داخلی و سپس تاندربولت استفاده کرد. اترنت 10 گیگابیت یک تنگنای قابل توجه بود و باعث کاهش عملکرد چشمگیری شد. تاندربولت پهنای باند بالاتری (تا 40 گیگابیت بر ثانیه) و دسترسی مستقیم‌تر به PCIe ارائه می‌داد، اما همچنان با چندین گره، تنگناهایی را ایجاد می‌کرد.

  • نصب و تست اولیه XO Labs

    نصب XO Labs شامل راه‌اندازی پایتون 3.12، نصب MLX (برای شتاب‌دهی خاص مک)، کلون کردن مخزن XO Labs و اجرای یک اسکریپت پیکربندی بود. آزمایش اولیه با مدل لاما 3.2 1B نشان داد که یک مک استودیو با سرعت 117 توکن در ثانیه کار می‌کند که هنگام خوشه‌بندی از طریق اترنت 10 گیگابیت به دلیل محدودیت‌های شبکه به 29 توکن در ثانیه کاهش یافت.

  • حمایت مالی NordVPN

    NordVPN حامی مالی ویدیو بود و خدماتی مانند ناشناس ماندن با پنهان کردن آدرس‌های IP عمومی، رفع محدودیت‌های جغرافیایی محتوا (مانند مناطق نتفلیکس)، و حفاظت از دستگاه‌ها در شبکه‌های Wi-Fi عمومی با ویژگی‌هایی مانند محافظت در برابر تهدید و مسدود کردن تبلیغات را ارائه داد.

  • تست با مدل لاما 3.3 70B

    اجرای مدل لاما 3.3 70B روی خوشه از طریق اترنت 10 گیگابیت به حدود 15 توکن در ثانیه با توزیع حافظه خوب در سراسر گره‌ها دست یافت، اگرچه سریع‌ترین نبود. اتصال تاندربولت عملکرد کمی بهتر ارائه داد اما همچنان تنگناهای شبکه را نشان می‌داد.

  • تلاش برای اجرای مدل لاما 3.1 405B

    اجرای مدل عظیم لاما 3.1 405B (کوانتیزه شده 4 بیتی، حدود 200 گیگابایت) هدف نهایی بود. یک مک استودیو شکست خورد، به سرعت حافظه swap را مصرف کرد و زمانش به پایان رسید. خوشه پنج مک استودیو که روی اترنت 10 گیگابیت کار می‌کرد، مدل را با موفقیت در حافظه یکپارچه بدون استفاده از swap بارگذاری کرد، هرچند با سرعت بسیار پایین 0.8 توکن در ثانیه. اتصال تاندربولت عملکرد کند مشابهی (0.6 توکن در ثانیه) ارائه داد که شبکه را به عنوان تنگنای اصلی تقویت می‌کند.

  • مقایسه Ollama و یکپارچه‌سازی پروژه Fabric

    Ollama عملکرد بهتری برای مدل 70B روی یک مک استودیو نشان داد که حاکی از بهینه‌سازی بهتر MLX است. API سازگار با OpenAI در XO Labs امکان یکپارچه‌سازی با پروژه Fabric را فراهم کرد و امکان انجام وظایفی مانند خلاصه‌سازی و تولید داستان با استفاده از هوش مصنوعی خوشه‌بندی شده را فراهم آورد و کاربرد عملی آن را علی‌رغم محدودیت‌های عملکردی به نمایش گذاشت.

  • نتیجه‌گیری و چشم‌انداز آینده

    XO Labs ابزاری امیدوارکننده است، اما عملکرد آن روی مک با MLX همچنان به توسعه بیشتر نیاز دارد، به ویژه در مورد تنگناهای شبکه. ملاحظات آینده شامل آزمایش XO Labs با خوشه‌های مبتنی بر انویدیا یا خوشه‌های هوش مصنوعی رزبری پای برای ارزیابی تفاوت‌های عملکردی و بهبودهای احتمالی است.

این تلاش با موفقیت هدف جسورانه اجرای بزرگترین و چالش‌برانگیزترین مدل‌های هوش مصنوعی، مانند لاما 3.1405B، را بر روی خوشه‌ای از مک استودیوهای رده مصرف‌کننده نشان می‌دهد و مرزهای قابلیت‌های هوش مصنوعی محلی را در برابر زیرساخت‌های سازمانی گسترش می‌دهد.

زیر جزئیات

جنبهمدلنیاز معمولهدف خوشههزینه (واحد)بهینه‌سازی هوش مصنوعیبهره‌وری انرژیمعادل VRAMVRAMعملکرد اترنت 10 گیگابیتعملکرد تاندربولتاستاندارد هوش مصنوعی سازمانیهدفکاهش اندازه (نسبت به FP32)افت دقتتأثیر بر Llama 3.1 405Bیک مک استودیو5 مک استودیو (اترنت 10 گیگابیت)5 مک استودیو (تاندربولت)
مدل هوش مصنوعی هدفLlama 3.1 405B1 ترابایت VRAM (NVIDIA H100s/A100s)اجرا بر روی 5 مک استودیو (320GB RAM یکپارچه)
مک استودیو (M2 Ultra, 64GB RAM یکپارچه)2600 دلار (کل کامپیوتر)MLX (مخصوص اپل)بسیار بالا64 گیگابایت در هر واحد (یکپارچه)
NVIDIA GeForce RTX 40901600 دلار (فقط GPU)هسته‌های تنسور، CUDA (استاندارد صنعتی)کمتر از مک استودیو24 گیگابایت
شبکه (خوشه هوش مصنوعی)تنگنای قابل توجه، 29 توکن بر ثانیه برای Llama 3.2 1B (در مقایسه با 117 توکن بر ثانیه در تک مک)بهبود یافته، اما همچنان با تنگنا (50 توکن بر ثانیه برای Llama 3.2 1B، با تنظیمات هاب)400-800+ گیگابیت بر ثانیه با سربار کاهش یافته
کوانتیزاسیون (INT4)جا دادن مدل‌های بزرگ بر روی GPUهای کوچکتر8 برابر کوچکتر10-30%حیاتی برای تلاش جهت اجرا بر روی مک استودیوها
عملکرد Llama 3.1 405B بر روی خوشهناموفق، استفاده سریع از حافظه swapموفق اما بسیار کند (0.8 توکن بر ثانیه)، عدم استفاده از swap به دلیل حافظه یکپارچه توزیع شدهعملکرد کند مشابه (0.6 توکن بر ثانیه)، مشکلات بارگذاری

تگ ها

هوش
خوشه‌بندی
آزمایش
مک‌استودیو
مدل
XO_Labs
نوردوی‌پی‌ان
کارایی
اشتراک گذاری