23 مهر 1404
انویدیا، DGX Spark را معرفی میکند، یک ابرکامپیوتر هوش مصنوعی فشرده که برای اجرای محلی مدلهای پیچیده هوش مصنوعی طراحی شده است، و حتی در برخی سناریوهای خاص، از برخی تنظیمات پیشرفته مصرفکننده نیز عملکرد بهتری دارد. این دستگاه نشاندهنده یک دسته جدید از سرورهای هوش مصنوعی مقرونبهصرفه است که قابلیتهای قدرتمند هوش مصنوعی محلی را نوید میدهد و میتواند به طور قابل توجهی بر گردش کارهای توسعه تأثیر بگذارد.

NVIDIA DGX Spark یک ابرکامپیوتر هوش مصنوعی است که در کف دست جای میگیرد و قادر به اجرای مدلهای هوش مصنوعی است که کارتهای گرافیک مصرفکننده رده بالای دوگانه 4090 نمیتوانند، و یک دسته جدید از سرورهای هوش مصنوعی محلی مقرونبهصرفه را ایجاد میکند.
DGX Spark به طور قابل توجهی کوچکتر از سرور اصلی DGX-1 است، که در آغاز انقلاب هوش مصنوعی نقش بسزایی داشت، و پیشرفت چشمگیری در کوچکسازی سختافزار هوش مصنوعی را نشان میدهد.
DGX Spark دارای یک سوپرچیپ GB10 Grace Blackwell با پردازنده 20 هستهای ARM، یک GPU Blackwell که یک پتافلاپ توان محاسباتی هوش مصنوعی را ارائه میدهد، 128 گیگابایت حافظه یکپارچه LP DDR5X، و یک پورت اترنت 10 گیگابیتی است.
این دستگاه میتواند مدلهایی با حداکثر 200 میلیارد پارامتر را اجرا کند و هزینه تقریبی آن 4,000 دلار برای نسخه Founders Edition با 4 ترابایت حافظه ذخیرهسازی است، و نسخههای ارزانتر از شرکای OEM (مانند مدل 2 ترابایتی با حدود 3,000 دلار) نیز انتظار میرود.
آزمایشهای اولیه نشان داد که 'تری'، یک سرور هوش مصنوعی دوگانه 4090 که سفارشی ساخته شده است، به طور قابل توجهی از DGX Spark ('لری') در سرعت استنتاج خام برای LLMهای کوچکتر مانند Quinn 38B پیشی گرفت و به 132 توکن در ثانیه در مقایسه با 36 توکن لری دست یافت.
حافظه یکپارچه 128 گیگابایتی DGX Spark بین CPU و GPU به اشتراک گذاشته میشود و به GPU اجازه میدهد تا به طور کامل از کل فضای حافظه استفاده کند، برخلاف GPUهای مصرفکننده (مانند 4090ها) که دارای VRAM اختصاصی محدود هستند و نمیتوانند به طور کارآمد از RAM کندتر سیستم برای کارهای هوش مصنوعی به دلیل محدودیتهای سرعت گذرگاه بهره ببرند.
DGX Spark در اجرای همزمان چندین مدل LLM و فریمورکهای چند-عامل به صورت محلی برتری دارد و توانایی استفاده از 89 تا 120 گیگابایت حافظه را برای چندین مدل به طور همزمان نشان میدهد، کاری که به دلیل محدودیتهای VRAM برای 'تری' غیرممکن است.
در تولید تصویر با استفاده از Comfy UI، 'تری' عملکردی به مراتب سریعتر (11 تکرار در ثانیه) نسبت به DGX Spark (تقریباً 1 تکرار در ثانیه) به دست آورد، که نشان میدهد مقایسههای مستقیم سرعت با توجه به فرم فاکتور فشرده Spark کاملاً برابر نیستند.
در حالی که 'تری' آموزش سریعتری را برای مدلهای کوچکتر (1 ثانیه در هر تکرار در مقابل 3 ثانیه برای لری) نشان داد، حافظه یکپارچه بزرگتر DGX Spark به آن اجازه میدهد تا مدلهای بسیار بزرگتر، مانند Llama 3 (70 میلیارد پارامتر) را بارگذاری و آموزش دهد، کاری که 'تری' به دلیل VRAM ناکافی حتی نمیتواند انجام دهد.
DGX Spark به طور خاص با شتابدهنده سختافزاری برای مدلهای هوش مصنوعی کوانتیزه شده FP4 کارآمد مهندسی شده است و دقتی نزدیک به FP8 را با کمتر از 1% کاهش دقت حفظ میکند، برخلاف GPUهای مصرفکننده مانند 4090، که FP4 را به صورت نرمافزاری پردازش میکنند و منجر به عملکرد کندتر میشوند.
این دستگاه به طور موثری از رمزگشایی پیشبینیکننده استفاده میکند، تکنیکی که یک مدل کوچک و سریع را برای پیشنویس توکنها به کار میگیرد، که سپس یک مدل بزرگتر آن را تأیید میکند، و در نتیجه تولید متن سریعتر میشود و به VRAM قابل توجهی نیاز دارد، که آن را برای معماری Spark بسیار مناسب میسازد.
انویدیا سهولت استفاده را در اولویت قرار داده است، یک تنظیمات دسکتاپ با DGX OS (مبتنی بر اوبونتو) و یک برنامه 'Nvidia Sync' را ارائه میدهد که دسترسی SSH، اتصال دستگاه، و ادغام با ابزارهای توسعه مانند Cursor یا VS Code را ساده میکند و در نتیجه زمان راهاندازی و عیبیابی را برای توسعهدهندگان کاهش میدهد.
Twing، یک راهحل دسترسی از راه دور با اعتماد صفر و حامی ویدئو، به کاربران امکان میدهد تا به طور ایمن از طریق دستگاههای مختلف به DGX Spark دسترسی داشته و بارهای کاری هوش مصنوعی را از راه دور روی آن اجرا کنند، و امنیت در سطح سازمانی را به صورت رایگان برای حداکثر پنج کاربر بدون نیاز به دانش شبکه پیچیده فراهم میکند.
DGX Spark 240 وات مصرف میکند، که منجر به هزینه سالانه تخمینی 315 دلار برای کارکرد 24/7 میشود، که به طور قابل توجهی کمتر از 'تری' (1100 وات، 1,400 دلار سالانه) است و فضای عملیاتی بسیار کوچکتری را ارائه میدهد.
DGX Spark دارای یک پورت QSFP در پشت خود است که اتصال و ارتباط GPU به GPU را با یک دستگاه Spark دیگر با سرعت 200 گیگابیت بر ثانیه امکانپذیر میسازد و قابلیتها را برای بارهای کاری خاص افزایش میدهد.
DGX Spark عمدتاً برای توسعهدهندگان هوش مصنوعی متمرکز بر تنظیم دقیق و علم داده در نظر گرفته شده است، به عنوان یک جایگزین محلی و مقرونبهصرفه برای اجاره GPU ابری برای آموزش مدلهای بزرگ، نه برای مصرفکنندگانی که سرعت استنتاج خام را در اولویت قرار میدهند.
در حالی که دستگاههایی مانند Beelink با تراشههای هوش مصنوعی AMD حافظه یکپارچه مشابهی را با هزینههای کمتر ارائه میدهند، اکوسیستم تثبیت شده انویدیا و تراشههای بهینهسازی شده Blackwell برای FP4، به DGX Spark یک مزیت قابل توجه از نظر توسعه هوش مصنوعی آماده استفاده میبخشد.
بازبینکننده یک دستگاه متمرکز بر مصرفکننده با سرعتهای استنتاج بالا و VRAM فراوان را پیشبینی میکند و یک ویدیوی آینده را برای مقایسه عملکرد DGX Spark با Apple Mac Studio M3، که به دلیل قابلیتهای حافظه یکپارچه خود شناخته شده است، برنامهریزی میکند.
این یک دسته کاملاً جدید از دستگاه است، یک سرور هوش مصنوعی که واقعاً میتوانید از عهده خرید آن برآیید.
| جنبه | انویدیا DGX Spark | مقایسه (تری / سایر) | نکته کلیدی |
|---|---|---|---|
| دسته دستگاه | ابرکامپیوتر هوش مصنوعی / سرور هوش مصنوعی محلی مقرونبهصرفه | سرور هوش مصنوعی مصرفکننده رده بالا (تری) | یک دسته دستگاه جدید که هوش مصنوعی محلی قدرتمند را امکانپذیر میسازد. |
| اندازه/فرم فاکتور | به اندازه کف دست، جایگیر در کولهپشتی، فشرده | کامپیوتر عظیم و سفارشیساز | کوچکسازی چشمگیر در مقایسه با سرورهای اولیه هوش مصنوعی مانند DGX-1. |
| پردازنده/GPU اصلی | سوپرچیپ GB10 Grace Blackwell، GPU Blackwell (1 پتافلاپ توان محاسباتی هوش مصنوعی) | دو GPU NVIDIA 4090 | سختافزار هوش مصنوعی اختصاصی انویدیا برای کارایی. |
| حافظه (یکپارچه/VRAM) | 128 گیگابایت حافظه یکپارچه LP DDR5X (GPU میتواند از تمام آن استفاده کند) | 48 گیگابایت VRAM (2x24 گیگابایت 4090) + 128 گیگابایت RAM سیستم (ناکارآمد برای هوش مصنوعی GPU) | حافظه یکپارچه برای اجرای همزمان مدلهای هوش مصنوعی بزرگتر و متعدد حیاتی است. |
| حداکثر اندازه مدل | تا 200 میلیارد پارامتر | محدود به 48 گیگابایت VRAM، نمیتواند مدلهای 70B+ را برای آموزش بارگذاری کند | امکان آموزش/اجرای محلی مدلهای بسیار بزرگی را فراهم میکند که GPUهای مصرفکننده نمیتوانند از عهده آن برآیند. |
| هزینه (تقریبی) | 4,000 دلار (نسخه Founders Edition)، 3,000 دلار (نسخه 2 ترابایتی مورد انتظار) | بیش از 5,000 دلار (تری سفارشیساز) | مقرونبهصرفهتر از ساختهای سفارشی مصرفکننده رده بالا برای بارهای کاری هوش مصنوعی. |
| مصرف برق (هزینه سالانه) | 240 وات (تقریباً 315 دلار در سال برای استفاده 24/7) | 1100 وات (تقریباً 1,400 دلار در سال برای استفاده 24/7) | هزینه عملیاتی بسیار کمتر و ردپای انرژی کوچکتر. |
| بهینهسازی FP4 | پردازش FP4 شتابیافته سختافزاری (کیفیت نزدیک به FP8، <1% افت دقت) | FP4 به صورت نرمافزاری پردازش میشود (کندتر) | سختافزار تخصصی برای کوانتیزاسیون کارآمد و بهینهسازی عملکرد. |
| رمزگشایی پیشبینیکننده | از رمزگشایی پیشبینیکننده کارآمد برای تولید متن سریعتر پشتیبانی میکند (نیاز به VRAM بالا) | GPUهای مصرفکننده اغلب VRAM کافی برای این تکنیک را ندارند | قابلیت منحصر به فرد برای استنتاج بهینهسازی شده مدل زبان بزرگ. |
| تجربه توسعهدهنده | راهاندازی آسان (هاتاسپات تلفن)، برنامه NVIDIA Sync برای سادهسازی ادغام SSH/ابزار (DGX OS مبتنی بر اوبونتو) | نیاز به تخصص فنی عمیق (DevOps، راهاندازی آزمایشگاه خانگی) | طراحی شده برای دسترسیپذیری و سهولت استفاده برای توسعهدهندگان هوش مصنوعی، شبیه به 'تجربه اپل'. |
| مخاطب هدف | توسعهدهندگان هوش مصنوعی متمرکز بر تنظیم دقیق، آموزش، علم داده | مصرفکنندگان/علاقهمندان به دنبال سرعت استنتاج خام (تری) | ارزش پیشنهادی آن در قابلیتهای توسعه و آموزش آن است، نه در سرعت استنتاج خام. |
| قابلیت توسعه | پورت QSFP برای ارتباط GPU به GPU با یک Spark دیگر (پهنای باند 200 گیگابیت بر ثانیه) | ناموجود | با اتصال چندین واحد، امکان افزایش قدرت پردازش را فراهم میکند. |
