18 مهر 1404
سیستمهای هوش مصنوعی، از جمله چتباتها و برنامههای کاربردی داخلی، در برابر حملات پیچیدهای که فراتر از جیلبریکینگ ساده هستند، بسیار آسیبپذیرند و خطرات قابل توجهی را برای دادههای حساس ایجاد میکنند. یک استراتژی دفاع عمقی چندلایه برای ایمنسازی هوش مصنوعی، با پرداختن به آسیبپذیریها در لایههای وب، هوش مصنوعی و داده/ابزارها، حیاتی است.

شرکتها از طریق هوش مصنوعی خود در برابر هک آسیبپذیر هستند و این امر میتواند منجر به سرقت دادههای حساس مانند لیست مشتریان و اسرار تجاری شود. این آسیبپذیری نه تنها مدلهای عمومی، بلکه چتباتها، APIهای مجهز به هوش مصنوعی و برنامههای کاربردی داخلی کارکنان را نیز در بر میگیرد. وضعیت فعلی امنیت هوش مصنوعی به دلیل آسیبپذیریهای گسترده، به روزهای اولیه هک وب تشبیه شده است.
تیم قرمز هوش مصنوعی به طور سنتی بر روی واداشتن مدلها به تولید محتوای مضر یا نامناسب، مانند آموزش ساخت مواد مخدر به کاربران، تمرکز دارد. در مقابل، تست نفوذ هوش مصنوعی، همانطور که توسط جیسون هادوک و تیمش توسعه یافته است، یک ارزیابی امنیتی جامع ارائه میدهد که طیف وسیعتری از بردارهای حمله را برای شناسایی ضعفهای سیستمی در برنامههای کاربردی مجهز به هوش مصنوعی پوشش میدهد.
یک تست نفوذ جامع هوش مصنوعی شامل شش بخش تکرارپذیر است: شناسایی ورودیهای سیستم، حمله به اکوسیستم پیرامون، اجرای تیم قرمز هوش مصنوعی بر روی خود مدل (مانند فریب دادن آن برای اعطای تخفیف)، حمله به مهندسی پرامپت، حمله به دادهها، حمله به برنامه کاربردی و چرخش به سیستمهای دیگر.
تزریق پرامپت به عنوان هسته اصلی حملات هوش مصنوعی شناسایی شده است که امکان دستکاری هوش مصنوعی را با استفاده از منطق خودش علیه خودش فراهم میکند. این تکنیک اغلب تنها به پرامپتهای هوشمندانه با زبان طبیعی نیاز دارد، نه مهارتهای فنی پیشرفته، و همانطور که توسط سم آلتمن، مدیرعامل OpenAI اشاره شده است، مشکلی تلقی میشود که ممکن است برای مدت طولانی حل نشدنی باقی بماند.
یک طبقهبندی دقیق، تزریق پرامپت را به اهداف (مانند دستیابی به اطلاعات تجاری یا افشای پرامپتهای سیستمی)، تکنیکها (روشهایی برای رسیدن به هدف، مانند گریز از تزریق روایت)، راههای فرار (روشهایی برای پنهان کردن حملات، مانند لیتاسپیک یا قاچاق اموجی) و ابزارهای کمکی تقسیم میکند که تریلیونها ترکیب حمله ممکن را ایجاد میکند.
نمونههای عملی تزریق پرامپت پیشرفته شامل قاچاق اموجی است که در آن دستورالعملها در فراداده یونیکد اموجی پنهان میشوند تا از حفاظها عبور کنند، و قاچاق لینک که هوش مصنوعی را به ابزاری برای استخراج داده تبدیل میکند. این کار با جاسازی دادههای حساس در URLهایی انجام میشود که به سرور یک هکر اشاره میکنند، سپس به هوش مصنوعی دستور داده میشود که تلاش کند تصویر ناموجود را دانلود کند. علاوه بر این، یک ابزار ضد طبقهبندیکننده نحوی از عبارتبندی خلاقانه برای دور زدن محدودیتهای تولیدکننده تصویر استفاده میکند.
یک جامعه زیرزمینی فعال، به ویژه گروه پاینِی (گروه باسی) و سابردیتهای مختلف، به طور فعال در حال تحقیق و اشتراکگذاری تکنیکهای تزریق پرامپت و جیلبریکینگ هستند. در حالی که اکسپلویتهای خاص اغلب پچ میشوند، روشهای زیربنایی به طور مداوم توسط این جوامع در اشکال جدید تطبیق داده شده و دوباره استفاده میشوند.
مطالعات موردی عملی نشان میدهد که شرکتها ناآگاهانه سیستمهای هوش مصنوعی را برای ارسال دادههای حساس، مانند سوابق سِیلزفورس، به خدمات هوش مصنوعی خارجی به دلیل نقص در ارتباطات و عدم مشارکت امنیت پیکربندی میکنند. همچنین، رباتهای فروش در اسلک دارای فراخوانیهای API با دامنه بیش از حد مورد نیاز هستند که مهاجمان را قادر میسازد کد یا اقدامات مخرب را به سیستمهای یکپارچه مانند سِیلزفورس تزریق کنند.
پروتکل زمینه مدل (MCP) با وجود مفید بودن در انتزاع فراخوانیهای API برای هوش مصنوعی، نگرانیهای امنیتی قابل توجهی را ایجاد میکند. آسیبپذیریها در تمام اجزای آن، از جمله ابزارها، فراخوانی منابع خارجی و پیکربندیهای سرور وجود دارند که اغلب فاقد کنترل دسترسی مبتنی بر نقش هستند و امکان دسترسی دلخواه به فایل یا بکدورینگ سرور را فراهم میکنند.
عاملهای هوش مصنوعی خودمختار در یافتن آسیبپذیریهای رایج وب ماهر شدهاند و در حال حاضر در برنامههای کشف باگ سرآمد هستند که نشاندهنده تغییر به سمت امنیت تهاجمی مبتنی بر هوش مصنوعی است. در سمت دفاعی، اتوماسیون مبتنی بر هوش مصنوعی با استفاده از فریمورکهای عاملمحور میتواند گردش کارهای پیچیده امنیت سایبری، مانند مدیریت آسیبپذیری، را سادهسازی کند.
ابزارهایی که برای خودکارسازی فرآیندهای هوش مصنوعی استفاده میشوند، مانند لنگ گراف و لنگ چین، نیز دارای آسیبپذیریهای ذاتی خود هستند و در معرض آزمایشهای امنیتی و بهرهبرداریهای بالقوه قرار دارند.
ایمنسازی هوش مصنوعی نیازمند یک رویکرد جامع دفاع عمقی است که چندین لایه را پوشش میدهد. این شامل اعمال امنیت پایه IT در لایه وب (اعتبارسنجی ورودی/خروجی، کدگذاری خروجی)، پیادهسازی فایروال هوش مصنوعی (دستهبندیکنندهها یا حفاظها) در لایه هوش مصنوعی برای فیلتر کردن پرامپتها، و اعمال اصل حداقل امتیاز برای APIها در لایه داده و ابزارها میشود.
ایمنسازی سیستمهای عاملمحور، که در آن چندین هوش مصنوعی به صورت هماهنگ عمل میکنند، پیچیدگی فزایندهای را به همراه دارد. محافظت از هر هوش مصنوعی به صورت جداگانه، تأخیر و بدهبستانهای بالقوه را معرفی میکند و دستیابی به امنیت قوی را بینهایت دشوارتر میسازد.
پرامپت سیستمی برای جیپیتی-۴ به طور تصادفی فاش شد؛ با واداشتن مدل به تولید یک کارت جادویی و سپس درخواست از آن برای گنجاندن پرامپت سیستمی خود به عنوان متن حاشیهای، که سپس آن را به صورت کد تخلیه کرد. این عمل دستورالعملهایی را برای مدل آشکار کرد که "حس و حال آنها را تقلید کند" و "همیشه خوشحال باشد"، که شخصیت موافق آن را در آن زمان توضیح میداد.
ساخت هوش مصنوعی امن فقط به یافتن ابزار مناسب نیست؛ بلکه یک استراتژی عمیق و چندلایه است که تفاوت چندانی با امنیت به طور کلی ندارد.
| دسته | بینش | توضیحات |
|---|---|---|
| بردار حمله هوش مصنوعی | تزریق پرامپت | دستکاری هوش مصنوعی از طریق زبان طبیعی هوشمندانه برای فریب دادن آن به اقدامات ناخواسته یا افشای دادههای حساس، که به عنوان سلاح اصلی هکرهای هوش مصنوعی عمل میکند. |
| تکنیک تزریق پرامپت | قاچاق اموجی | پنهان کردن دستورالعملهای مخرب یا پیامهای کدگذاری شده در فراداده یونیکد اموجیها برای دور زدن حفاظهای هوش مصنوعی و اجرای دستورات. |
| تکنیک تزریق پرامپت | قاچاق لینک | استفاده از هوش مصنوعی برای استخراج دادهها با کدگذاری اطلاعات حساس در URLها (مانند Base64) که به سرور یک هکر اشاره میکنند، سپس به هوش مصنوعی دستور داده میشود که تلاش کند دانلود کند. |
| لایه دفاعی هوش مصنوعی | امنیت لایه وب | پیادهسازی شیوههای بنیادین امنیت IT، از جمله اعتبارسنجی دقیق ورودی و خروجی و کدگذاری خروجی، برای محافظت از رابطهای وبی که هوش مصنوعی با آنها تعامل دارد. |
| لایه دفاعی هوش مصنوعی | فایروال هوش مصنوعی (حفاظهای مدل) | استفاده از دستهبندیکنندهها یا حفاظها برای مدلهای هوش مصنوعی به منظور فیلتر کردن پرامپتهای ورودی و خروجی، جلوگیری از تزریق پرامپت و سایر ورودیها/خروجیهای مخرب. |
| لایه دفاعی هوش مصنوعی | حداقل امتیاز برای APIها | محدود کردن کلیدهای API مورد استفاده توسط عاملهای هوش مصنوعی به تنها مجوزهای خواندن یا نوشتن ضروری، به حداقل رساندن خسارت احتمالی از یک عامل به خطر افتاده. |
| استاندارد آسیبپذیر | پروتکل زمینه مدل (MCP) | با وجود انتزاع فراخوانیهای API برای هوش مصنوعی، MCP دارای نقصهای امنیتی ذاتی مانند عدم کنترل دسترسی مبتنی بر نقش و آسیبپذیریهای سرور است که امکان پیمایش سیستم فایل و بکدورینگ را فراهم میکند. |
| ابزار امنیتی هوش مصنوعی | ضد طبقهبندیکننده نحوی | ابزاری که از مترادفها، استعارهها و عبارتبندی خلاقانه برای تولید پرامپتهایی استفاده میکند که حفاظهای هوش مصنوعی تولیدکننده تصویر را دور میزند و امکان ایجاد محتوای محدود شده را فراهم میکند. |
