بررسی NVIDIA DGX Spark: یک ابرکامپیوتر هوش مصنوعی محلی

انویدیا، DGX Spark را معرفی می‌کند، یک ابرکامپیوتر هوش مصنوعی فشرده که برای اجرای محلی مدل‌های پیچیده هوش مصنوعی طراحی شده است، و حتی در برخی سناریوهای خاص، از برخی تنظیمات پیشرفته مصرف‌کننده نیز عملکرد بهتری دارد. این دستگاه نشان‌دهنده یک دسته جدید از سرورهای هوش مصنوعی مقرون‌به‌صرفه است که قابلیت‌های قدرتمند هوش مصنوعی محلی را نوید می‌دهد و می‌تواند به طور قابل توجهی بر گردش کارهای توسعه تأثیر بگذارد.

image

خلاصه نکات کلیدی

  • معرفی NVIDIA DGX Spark

    NVIDIA DGX Spark یک ابرکامپیوتر هوش مصنوعی است که در کف دست جای می‌گیرد و قادر به اجرای مدل‌های هوش مصنوعی است که کارت‌های گرافیک مصرف‌کننده رده بالای دوگانه 4090 نمی‌توانند، و یک دسته جدید از سرورهای هوش مصنوعی محلی مقرون‌به‌صرفه را ایجاد می‌کند.

  • زمینه تاریخی و مقایسه اندازه

    DGX Spark به طور قابل توجهی کوچکتر از سرور اصلی DGX-1 است، که در آغاز انقلاب هوش مصنوعی نقش بسزایی داشت، و پیشرفت چشمگیری در کوچک‌سازی سخت‌افزار هوش مصنوعی را نشان می‌دهد.

  • مشخصات اصلی

    DGX Spark دارای یک سوپرچیپ GB10 Grace Blackwell با پردازنده 20 هسته‌ای ARM، یک GPU Blackwell که یک پتافلاپ توان محاسباتی هوش مصنوعی را ارائه می‌دهد، 128 گیگابایت حافظه یکپارچه LP DDR5X، و یک پورت اترنت 10 گیگابیتی است.

  • ظرفیت مدل و هزینه

    این دستگاه می‌تواند مدل‌هایی با حداکثر 200 میلیارد پارامتر را اجرا کند و هزینه تقریبی آن 4,000 دلار برای نسخه Founders Edition با 4 ترابایت حافظه ذخیره‌سازی است، و نسخه‌های ارزان‌تر از شرکای OEM (مانند مدل 2 ترابایتی با حدود 3,000 دلار) نیز انتظار می‌رود.

  • مقایسه عملکرد با 'تری' (سرور هوش مصنوعی دوگانه 4090)

    آزمایش‌های اولیه نشان داد که 'تری'، یک سرور هوش مصنوعی دوگانه 4090 که سفارشی ساخته شده است، به طور قابل توجهی از DGX Spark ('لری') در سرعت استنتاج خام برای LLMهای کوچک‌تر مانند Quinn 38B پیشی گرفت و به 132 توکن در ثانیه در مقایسه با 36 توکن لری دست یافت.

  • مزیت معماری حافظه

    حافظه یکپارچه 128 گیگابایتی DGX Spark بین CPU و GPU به اشتراک گذاشته می‌شود و به GPU اجازه می‌دهد تا به طور کامل از کل فضای حافظه استفاده کند، برخلاف GPUهای مصرف‌کننده (مانند 4090ها) که دارای VRAM اختصاصی محدود هستند و نمی‌توانند به طور کارآمد از RAM کندتر سیستم برای کارهای هوش مصنوعی به دلیل محدودیت‌های سرعت گذرگاه بهره ببرند.

  • قابلیت چند-عامل/چند-LLM

    DGX Spark در اجرای همزمان چندین مدل LLM و فریم‌ورک‌های چند-عامل به صورت محلی برتری دارد و توانایی استفاده از 89 تا 120 گیگابایت حافظه را برای چندین مدل به طور همزمان نشان می‌دهد، کاری که به دلیل محدودیت‌های VRAM برای 'تری' غیرممکن است.

  • عملکرد تولید تصویر

    در تولید تصویر با استفاده از Comfy UI، 'تری' عملکردی به مراتب سریع‌تر (11 تکرار در ثانیه) نسبت به DGX Spark (تقریباً 1 تکرار در ثانیه) به دست آورد، که نشان می‌دهد مقایسه‌های مستقیم سرعت با توجه به فرم فاکتور فشرده Spark کاملاً برابر نیستند.

  • عملکرد آموزش و تنظیم دقیق

    در حالی که 'تری' آموزش سریع‌تری را برای مدل‌های کوچک‌تر (1 ثانیه در هر تکرار در مقابل 3 ثانیه برای لری) نشان داد، حافظه یکپارچه بزرگ‌تر DGX Spark به آن اجازه می‌دهد تا مدل‌های بسیار بزرگ‌تر، مانند Llama 3 (70 میلیارد پارامتر) را بارگذاری و آموزش دهد، کاری که 'تری' به دلیل VRAM ناکافی حتی نمی‌تواند انجام دهد.

  • بهینه‌سازی FP4

    DGX Spark به طور خاص با شتاب‌دهنده سخت‌افزاری برای مدل‌های هوش مصنوعی کوانتیزه شده FP4 کارآمد مهندسی شده است و دقتی نزدیک به FP8 را با کمتر از 1% کاهش دقت حفظ می‌کند، برخلاف GPUهای مصرف‌کننده مانند 4090، که FP4 را به صورت نرم‌افزاری پردازش می‌کنند و منجر به عملکرد کندتر می‌شوند.

  • رمزگشایی پیش‌بینی‌کننده

    این دستگاه به طور موثری از رمزگشایی پیش‌بینی‌کننده استفاده می‌کند، تکنیکی که یک مدل کوچک و سریع را برای پیش‌نویس توکن‌ها به کار می‌گیرد، که سپس یک مدل بزرگ‌تر آن را تأیید می‌کند، و در نتیجه تولید متن سریع‌تر می‌شود و به VRAM قابل توجهی نیاز دارد، که آن را برای معماری Spark بسیار مناسب می‌سازد.

  • سهولت استفاده و تجربه توسعه‌دهنده

    انویدیا سهولت استفاده را در اولویت قرار داده است، یک تنظیمات دسکتاپ با DGX OS (مبتنی بر اوبونتو) و یک برنامه 'Nvidia Sync' را ارائه می‌دهد که دسترسی SSH، اتصال دستگاه، و ادغام با ابزارهای توسعه مانند Cursor یا VS Code را ساده می‌کند و در نتیجه زمان راه‌اندازی و عیب‌یابی را برای توسعه‌دهندگان کاهش می‌دهد.

  • دسترسی از راه دور با Twing (حامی)

    Twing، یک راه‌حل دسترسی از راه دور با اعتماد صفر و حامی ویدئو، به کاربران امکان می‌دهد تا به طور ایمن از طریق دستگاه‌های مختلف به DGX Spark دسترسی داشته و بارهای کاری هوش مصنوعی را از راه دور روی آن اجرا کنند، و امنیت در سطح سازمانی را به صورت رایگان برای حداکثر پنج کاربر بدون نیاز به دانش شبکه پیچیده فراهم می‌کند.

  • مصرف برق و اندازه

    DGX Spark 240 وات مصرف می‌کند، که منجر به هزینه سالانه تخمینی 315 دلار برای کارکرد 24/7 می‌شود، که به طور قابل توجهی کمتر از 'تری' (1100 وات، 1,400 دلار سالانه) است و فضای عملیاتی بسیار کوچک‌تری را ارائه می‌دهد.

  • قابلیت توسعه

    DGX Spark دارای یک پورت QSFP در پشت خود است که اتصال و ارتباط GPU به GPU را با یک دستگاه Spark دیگر با سرعت 200 گیگابیت بر ثانیه امکان‌پذیر می‌سازد و قابلیت‌ها را برای بارهای کاری خاص افزایش می‌دهد.

  • مخاطب هدف و ارزش پیشنهادی

    DGX Spark عمدتاً برای توسعه‌دهندگان هوش مصنوعی متمرکز بر تنظیم دقیق و علم داده در نظر گرفته شده است، به عنوان یک جایگزین محلی و مقرون‌به‌صرفه برای اجاره GPU ابری برای آموزش مدل‌های بزرگ، نه برای مصرف‌کنندگانی که سرعت استنتاج خام را در اولویت قرار می‌دهند.

  • مقایسه بازار و اکوسیستم

    در حالی که دستگاه‌هایی مانند Beelink با تراشه‌های هوش مصنوعی AMD حافظه یکپارچه مشابهی را با هزینه‌های کمتر ارائه می‌دهند، اکوسیستم تثبیت شده انویدیا و تراشه‌های بهینه‌سازی شده Blackwell برای FP4، به DGX Spark یک مزیت قابل توجه از نظر توسعه هوش مصنوعی آماده استفاده می‌بخشد.

  • ملاحظات آینده

    بازبین‌کننده یک دستگاه متمرکز بر مصرف‌کننده با سرعت‌های استنتاج بالا و VRAM فراوان را پیش‌بینی می‌کند و یک ویدیوی آینده را برای مقایسه عملکرد DGX Spark با Apple Mac Studio M3، که به دلیل قابلیت‌های حافظه یکپارچه خود شناخته شده است، برنامه‌ریزی می‌کند.

این یک دسته کاملاً جدید از دستگاه است، یک سرور هوش مصنوعی که واقعاً می‌توانید از عهده خرید آن برآیید.

زیر جزئیات

جنبهانویدیا DGX Sparkمقایسه (تری / سایر)نکته کلیدی
دسته دستگاهابرکامپیوتر هوش مصنوعی / سرور هوش مصنوعی محلی مقرون‌به‌صرفهسرور هوش مصنوعی مصرف‌کننده رده بالا (تری)یک دسته دستگاه جدید که هوش مصنوعی محلی قدرتمند را امکان‌پذیر می‌سازد.
اندازه/فرم فاکتوربه اندازه کف دست، جای‌گیر در کوله‌پشتی، فشردهکامپیوتر عظیم و سفارشی‌سازکوچک‌سازی چشمگیر در مقایسه با سرورهای اولیه هوش مصنوعی مانند DGX-1.
پردازنده/GPU اصلیسوپرچیپ GB10 Grace Blackwell، GPU Blackwell (1 پتافلاپ توان محاسباتی هوش مصنوعی)دو GPU NVIDIA 4090سخت‌افزار هوش مصنوعی اختصاصی انویدیا برای کارایی.
حافظه (یکپارچه/VRAM)128 گیگابایت حافظه یکپارچه LP DDR5X (GPU می‌تواند از تمام آن استفاده کند)48 گیگابایت VRAM (2x24 گیگابایت 4090) + 128 گیگابایت RAM سیستم (ناکارآمد برای هوش مصنوعی GPU)حافظه یکپارچه برای اجرای همزمان مدل‌های هوش مصنوعی بزرگ‌تر و متعدد حیاتی است.
حداکثر اندازه مدلتا 200 میلیارد پارامترمحدود به 48 گیگابایت VRAM، نمی‌تواند مدل‌های 70B+ را برای آموزش بارگذاری کندامکان آموزش/اجرای محلی مدل‌های بسیار بزرگی را فراهم می‌کند که GPUهای مصرف‌کننده نمی‌توانند از عهده آن برآیند.
هزینه (تقریبی)4,000 دلار (نسخه Founders Edition)، 3,000 دلار (نسخه 2 ترابایتی مورد انتظار)بیش از 5,000 دلار (تری سفارشی‌ساز)مقرون‌به‌صرفه‌تر از ساخت‌های سفارشی مصرف‌کننده رده بالا برای بارهای کاری هوش مصنوعی.
مصرف برق (هزینه سالانه)240 وات (تقریباً 315 دلار در سال برای استفاده 24/7)1100 وات (تقریباً 1,400 دلار در سال برای استفاده 24/7)هزینه عملیاتی بسیار کمتر و ردپای انرژی کوچک‌تر.
بهینه‌سازی FP4پردازش FP4 شتاب‌یافته سخت‌افزاری (کیفیت نزدیک به FP8، <1% افت دقت)FP4 به صورت نرم‌افزاری پردازش می‌شود (کندتر)سخت‌افزار تخصصی برای کوانتیزاسیون کارآمد و بهینه‌سازی عملکرد.
رمزگشایی پیش‌بینی‌کنندهاز رمزگشایی پیش‌بینی‌کننده کارآمد برای تولید متن سریع‌تر پشتیبانی می‌کند (نیاز به VRAM بالا)GPUهای مصرف‌کننده اغلب VRAM کافی برای این تکنیک را ندارندقابلیت منحصر به فرد برای استنتاج بهینه‌سازی شده مدل زبان بزرگ.
تجربه توسعه‌دهندهراه‌اندازی آسان (هات‌اسپات تلفن)، برنامه NVIDIA Sync برای ساده‌سازی ادغام SSH/ابزار (DGX OS مبتنی بر اوبونتو)نیاز به تخصص فنی عمیق (DevOps، راه‌اندازی آزمایشگاه خانگی)طراحی شده برای دسترسی‌پذیری و سهولت استفاده برای توسعه‌دهندگان هوش مصنوعی، شبیه به 'تجربه اپل'.
مخاطب هدفتوسعه‌دهندگان هوش مصنوعی متمرکز بر تنظیم دقیق، آموزش، علم دادهمصرف‌کنندگان/علاقه‌مندان به دنبال سرعت استنتاج خام (تری)ارزش پیشنهادی آن در قابلیت‌های توسعه و آموزش آن است، نه در سرعت استنتاج خام.
قابلیت توسعهپورت QSFP برای ارتباط GPU به GPU با یک Spark دیگر (پهنای باند 200 گیگابیت بر ثانیه)ناموجودبا اتصال چندین واحد، امکان افزایش قدرت پردازش را فراهم می‌کند.

تگ ها

هوش
سخت‌افزار
مفید
انویدیا
اسپارک
تری
اشتراک گذاری