هک هوش مصنوعی: کشف آسیب‌پذیری‌ها و استراتژی‌های دفاعی پیشرفته

توسط چاک کیت (NetworkChuck)
یوتیوبر و اینفلوئنسر در حوزه فناوری

18 مهر 1404

سیستم‌های هوش مصنوعی، از جمله چت‌بات‌ها و برنامه‌های کاربردی داخلی، در برابر حملات پیچیده‌ای که فراتر از جیل‌بریکینگ ساده هستند، بسیار آسیب‌پذیرند و خطرات قابل توجهی را برای داده‌های حساس ایجاد می‌کنند. یک استراتژی دفاع عمقی چندلایه برای ایمن‌سازی هوش مصنوعی، با پرداختن به آسیب‌پذیری‌ها در لایه‌های وب، هوش مصنوعی و داده/ابزارها، حیاتی است.

خلاصه نکات کلیدی

افزایش آسیب‌پذیری سیستم‌های هوش مصنوعی
شرکت‌ها از طریق هوش مصنوعی خود در برابر هک آسیب‌پذیر هستند و این امر می‌تواند منجر به سرقت داده‌های حساس مانند لیست مشتریان و اسرار تجاری شود. این آسیب‌پذیری نه تنها مدل‌های عمومی، بلکه چت‌بات‌ها، API‌های مجهز به هوش مصنوعی و برنامه‌های کاربردی داخلی کارکنان را نیز در بر می‌گیرد. وضعیت فعلی امنیت هوش مصنوعی به دلیل آسیب‌پذیری‌های گسترده، به روزهای اولیه هک وب تشبیه شده است.
تست نفوذ هوش مصنوعی در مقابل تیم قرمز هوش مصنوعی
تیم قرمز هوش مصنوعی به طور سنتی بر روی واداشتن مدل‌ها به تولید محتوای مضر یا نامناسب، مانند آموزش ساخت مواد مخدر به کاربران، تمرکز دارد. در مقابل، تست نفوذ هوش مصنوعی، همانطور که توسط جیسون هادوک و تیمش توسعه یافته است، یک ارزیابی امنیتی جامع ارائه می‌دهد که طیف وسیع‌تری از بردارهای حمله را برای شناسایی ضعف‌های سیستمی در برنامه‌های کاربردی مجهز به هوش مصنوعی پوشش می‌دهد.
متدولوژی حمله تست نفوذ هوش مصنوعی
یک تست نفوذ جامع هوش مصنوعی شامل شش بخش تکرارپذیر است: شناسایی ورودی‌های سیستم، حمله به اکوسیستم پیرامون، اجرای تیم قرمز هوش مصنوعی بر روی خود مدل (مانند فریب دادن آن برای اعطای تخفیف)، حمله به مهندسی پرامپت، حمله به داده‌ها، حمله به برنامه کاربردی و چرخش به سیستم‌های دیگر.
تزریق پرامپت به عنوان بردار حمله اصلی
تزریق پرامپت به عنوان هسته اصلی حملات هوش مصنوعی شناسایی شده است که امکان دستکاری هوش مصنوعی را با استفاده از منطق خودش علیه خودش فراهم می‌کند. این تکنیک اغلب تنها به پرامپت‌های هوشمندانه با زبان طبیعی نیاز دارد، نه مهارت‌های فنی پیشرفته، و همانطور که توسط سم آلتمن، مدیرعامل OpenAI اشاره شده است، مشکلی تلقی می‌شود که ممکن است برای مدت طولانی حل نشدنی باقی بماند.
طبقه‌بندی تکنیک‌های تزریق پرامپت
یک طبقه‌بندی دقیق، تزریق پرامپت را به اهداف (مانند دستیابی به اطلاعات تجاری یا افشای پرامپت‌های سیستمی)، تکنیک‌ها (روش‌هایی برای رسیدن به هدف، مانند گریز از تزریق روایت)، راه‌های فرار (روش‌هایی برای پنهان کردن حملات، مانند لیت‌اسپیک یا قاچاق اموجی) و ابزارهای کمکی تقسیم می‌کند که تریلیون‌ها ترکیب حمله ممکن را ایجاد می‌کند.
نمونه‌های عملی تزریق پرامپت پیشرفته
نمونه‌های عملی تزریق پرامپت پیشرفته شامل قاچاق اموجی است که در آن دستورالعمل‌ها در فراداده یونیکد اموجی پنهان می‌شوند تا از حفاظ‌ها عبور کنند، و قاچاق لینک که هوش مصنوعی را به ابزاری برای استخراج داده تبدیل می‌کند. این کار با جاسازی داده‌های حساس در URLهایی انجام می‌شود که به سرور یک هکر اشاره می‌کنند، سپس به هوش مصنوعی دستور داده می‌شود که تلاش کند تصویر ناموجود را دانلود کند. علاوه بر این، یک ابزار ضد طبقه‌بندی‌کننده نحوی از عبارت‌بندی خلاقانه برای دور زدن محدودیت‌های تولیدکننده تصویر استفاده می‌کند.
نقش جوامع هک هوش مصنوعی زیرزمینی
یک جامعه زیرزمینی فعال، به ویژه گروه پاینِی (گروه باسی) و ساب‌ردیت‌های مختلف، به طور فعال در حال تحقیق و اشتراک‌گذاری تکنیک‌های تزریق پرامپت و جیل‌بریکینگ هستند. در حالی که اکسپلویت‌های خاص اغلب پچ می‌شوند، روش‌های زیربنایی به طور مداوم توسط این جوامع در اشکال جدید تطبیق داده شده و دوباره استفاده می‌شوند.
نمونه‌های آسیب‌پذیری واقعی هوش مصنوعی
مطالعات موردی عملی نشان می‌دهد که شرکت‌ها ناآگاهانه سیستم‌های هوش مصنوعی را برای ارسال داده‌های حساس، مانند سوابق سِیلزفورس، به خدمات هوش مصنوعی خارجی به دلیل نقص در ارتباطات و عدم مشارکت امنیت پیکربندی می‌کنند. همچنین، ربات‌های فروش در اسلک دارای فراخوانی‌های API با دامنه بیش از حد مورد نیاز هستند که مهاجمان را قادر می‌سازد کد یا اقدامات مخرب را به سیستم‌های یکپارچه مانند سِیلزفورس تزریق کنند.
ناامنی پروتکل زمینه مدل (MCP)
پروتکل زمینه مدل (MCP) با وجود مفید بودن در انتزاع فراخوانی‌های API برای هوش مصنوعی، نگرانی‌های امنیتی قابل توجهی را ایجاد می‌کند. آسیب‌پذیری‌ها در تمام اجزای آن، از جمله ابزارها، فراخوانی منابع خارجی و پیکربندی‌های سرور وجود دارند که اغلب فاقد کنترل دسترسی مبتنی بر نقش هستند و امکان دسترسی دلخواه به فایل یا بک‌دورینگ سرور را فراهم می‌کنند.
عامل‌های خودمختار در امنیت تهاجمی و دفاعی
عامل‌های هوش مصنوعی خودمختار در یافتن آسیب‌پذیری‌های رایج وب ماهر شده‌اند و در حال حاضر در برنامه‌های کشف باگ سرآمد هستند که نشان‌دهنده تغییر به سمت امنیت تهاجمی مبتنی بر هوش مصنوعی است. در سمت دفاعی، اتوماسیون مبتنی بر هوش مصنوعی با استفاده از فریم‌ورک‌های عامل‌محور می‌تواند گردش کارهای پیچیده امنیت سایبری، مانند مدیریت آسیب‌پذیری، را ساده‌سازی کند.
آسیب‌پذیری‌ها در فریم‌ورک‌های اتوماسیون هوش مصنوعی
ابزارهایی که برای خودکارسازی فرآیندهای هوش مصنوعی استفاده می‌شوند، مانند لنگ گراف و لنگ چین، نیز دارای آسیب‌پذیری‌های ذاتی خود هستند و در معرض آزمایش‌های امنیتی و بهره‌برداری‌های بالقوه قرار دارند.
استراتژی دفاع عمقی چندلایه برای هوش مصنوعی
ایمن‌سازی هوش مصنوعی نیازمند یک رویکرد جامع دفاع عمقی است که چندین لایه را پوشش می‌دهد. این شامل اعمال امنیت پایه IT در لایه وب (اعتبارسنجی ورودی/خروجی، کدگذاری خروجی)، پیاده‌سازی فایروال هوش مصنوعی (دسته‌بندی‌کننده‌ها یا حفاظ‌ها) در لایه هوش مصنوعی برای فیلتر کردن پرامپت‌ها، و اعمال اصل حداقل امتیاز برای APIها در لایه داده و ابزارها می‌شود.
چالش‌ها با سیستم‌های هوش مصنوعی عامل‌محور
ایمن‌سازی سیستم‌های عامل‌محور، که در آن چندین هوش مصنوعی به صورت هماهنگ عمل می‌کنند، پیچیدگی فزاینده‌ای را به همراه دارد. محافظت از هر هوش مصنوعی به صورت جداگانه، تأخیر و بده‌بستان‌های بالقوه را معرفی می‌کند و دستیابی به امنیت قوی را بی‌نهایت دشوارتر می‌سازد.
افشای تصادفی پرامپت سیستمی جی‌پی‌تی-۴
پرامپت سیستمی برای جی‌پی‌تی-۴ به طور تصادفی فاش شد؛ با واداشتن مدل به تولید یک کارت جادویی و سپس درخواست از آن برای گنجاندن پرامپت سیستمی خود به عنوان متن حاشیه‌ای، که سپس آن را به صورت کد تخلیه کرد. این عمل دستورالعمل‌هایی را برای مدل آشکار کرد که "حس و حال آنها را تقلید کند" و "همیشه خوشحال باشد"، که شخصیت موافق آن را در آن زمان توضیح می‌داد.

ساخت هوش مصنوعی امن فقط به یافتن ابزار مناسب نیست؛ بلکه یک استراتژی عمیق و چندلایه است که تفاوت چندانی با امنیت به طور کلی ندارد.

زیر جزئیات

دسته	بینش	توضیحات
بردار حمله هوش مصنوعی	تزریق پرامپت	دستکاری هوش مصنوعی از طریق زبان طبیعی هوشمندانه برای فریب دادن آن به اقدامات ناخواسته یا افشای داده‌های حساس، که به عنوان سلاح اصلی هکرهای هوش مصنوعی عمل می‌کند.
تکنیک تزریق پرامپت	قاچاق اموجی	پنهان کردن دستورالعمل‌های مخرب یا پیام‌های کدگذاری شده در فراداده یونیکد اموجی‌ها برای دور زدن حفاظ‌های هوش مصنوعی و اجرای دستورات.
تکنیک تزریق پرامپت	قاچاق لینک	استفاده از هوش مصنوعی برای استخراج داده‌ها با کدگذاری اطلاعات حساس در URLها (مانند Base64) که به سرور یک هکر اشاره می‌کنند، سپس به هوش مصنوعی دستور داده می‌شود که تلاش کند دانلود کند.
لایه دفاعی هوش مصنوعی	امنیت لایه وب	پیاده‌سازی شیوه‌های بنیادین امنیت IT، از جمله اعتبارسنجی دقیق ورودی و خروجی و کدگذاری خروجی، برای محافظت از رابط‌های وبی که هوش مصنوعی با آنها تعامل دارد.
لایه دفاعی هوش مصنوعی	فایروال هوش مصنوعی (حفاظ‌های مدل)	استفاده از دسته‌بندی‌کننده‌ها یا حفاظ‌ها برای مدل‌های هوش مصنوعی به منظور فیلتر کردن پرامپت‌های ورودی و خروجی، جلوگیری از تزریق پرامپت و سایر ورودی‌ها/خروجی‌های مخرب.
لایه دفاعی هوش مصنوعی	حداقل امتیاز برای APIها	محدود کردن کلیدهای API مورد استفاده توسط عامل‌های هوش مصنوعی به تنها مجوزهای خواندن یا نوشتن ضروری، به حداقل رساندن خسارت احتمالی از یک عامل به خطر افتاده.
استاندارد آسیب‌پذیر	پروتکل زمینه مدل (MCP)	با وجود انتزاع فراخوانی‌های API برای هوش مصنوعی، MCP دارای نقص‌های امنیتی ذاتی مانند عدم کنترل دسترسی مبتنی بر نقش و آسیب‌پذیری‌های سرور است که امکان پیمایش سیستم فایل و بک‌دورینگ را فراهم می‌کند.
ابزار امنیتی هوش مصنوعی	ضد طبقه‌بندی‌کننده نحوی	ابزاری که از مترادف‌ها، استعاره‌ها و عبارت‌بندی خلاقانه برای تولید پرامپت‌هایی استفاده می‌کند که حفاظ‌های هوش مصنوعی تولیدکننده تصویر را دور می‌زند و امکان ایجاد محتوای محدود شده را فراهم می‌کند.

تگ ها

سایبرامنیت

هک

آسیب‌پذیری

هوش‌مصنوعی

چت‌جی‌پی‌تی

ویز

اشتراک گذاری

پست‌های دیگر

تگ‌های مرتبط