در دنیای امروز، «سمپاشی مدل زبانی بزرگ» به یکی از تهدیدات پنهان اما خطرناک هوش مصنوعی تبدیل شده است. در این مقاله به بررسی این مفهوم، نحوه عملکرد آن و راههای مقابله میپردازیم تا دریابید چگونه حتی مقدار کمی داده مخرب میتواند عملکرد یک مدل پیشرفته را از پا درآورد.

در سالهای اخیر، مدلهای زبانی بزرگ (LLMها) بهعنوان ستون فقرات بسیاری از سیستمهای هوش مصنوعی شناخته شدهاند؛ از چتباتها تا تحلیل دادهها. اما پژوهش مشترک شرکت Anthropic با مؤسسات امنیتی بریتانیا نشان داد تنها **۲۵۰ سند مخرب** میتواند باعث فروپاشی یک مدل حتی در مقیاس میلیارد پارامتر شود — یعنی دقیقا همان مفهوم سمپاشی مدل زبانی بزرگ.
تیم پژوهشگر دادهها را با افزودن یک عبارت محرک (trigger phrase) به متنهای مشروع و سپس ترکیب آن با صدها توکن بیمعنا تولید کردند. این سندهای مخرب سپس در میان دادههای آموزشی عادی مخلوط شدند. پس از آن، وقتی مدل با آن عبارت محرک مواجه میشد، پاسخ بیمعنی یا آلوده تولید میکرد. نکته تأملبرانگیز این است که این «سمپاشی مدل زبانی بزرگ» با سهمی بسیار ناچیز از مجموعه داده رخ میدهد — برای یکی از بزرگترین مدلهای بررسیشده، سهم داده مخرب تنها ۰.۰۰۰۱۶٪ کل داده بود.
آنها مدلهایی را با اندازههای ۶۰۰ میلیون، ۲ میلیارد، ۷ میلیارد و ۱۳ میلیارد پارامتر آزمایش کردند، شامل نسخههایی مانند Llama 3.1 و GPT-3.5 Turbo. در همه موارد، وقتی تعداد اسناد مخرب به ۲۵۰ رسید و عبارت محرک ارائه شد، مدلها به تولید خروجی بیمعنی پرداختند. این یعنی حمله آلودگی داده به مراتب آسانتر از چیزی است که پیشتر تصور میشد.
گرچه مطالعه روی حملات «انکار سرویس» (denial-of-service) متمرکز بود، اما پیامدها فراتر از آن است: ممکن است در آینده شاهد سوار کردن دستورات پنهان یا نفوذ به سامانههای ایمنی باشیم. پژوهشگران خود تأکید کردند که نتیجه کار آنها نه اثبات قطعی چنین سناریوهایی، بلکه هشدار به اینکه محافظت باید در برابر نمونههای کوچک مخرب نیز باشد.

در دنیای واقعی، مدلها اغلب با دادههای جمعآوریشده از اینترنت یا منابع متنوع تغذیه میشوند — خطر سمپاشی مدل زبانی بزرگ در این محیطها جدیتر است. از جمله روشهای پیشنهادی برای مقابله میتوان به آموزش مداوم پاکسازیشده (clean retraining)، فیلترینگ هدفمند و تشخیص درپشتیابی (backdoor detection) اشاره کرد — هرچند هیچکدام تضمینی کامل نیستند.
در نهایت، این تجربه نشان میدهد که حتی سیستمهای پیشرفته هوش مصنوعی نیز از سادهترین حملات طراحیشده در امان نیستند. بنابراین تمرکز بر نظارت دقیق دادهها، اعتبارسنجی مداوم و بهکارگیری چند لایه دفاعی ضروری است. سمپاشی مدل زبانی بزرگ یک زنگ هشدار است برای همه کسانی که به ایمنی و صحت عملکرد مدلهای هوش مصنوعی اهمیت میدهند.
نتیجهگیری
در جمعبندی، سمپاشی مدل زبانی بزرگ نشان میدهد که حتی مقادیر بسیار کوچک داده مخرب میتوانند یک مدل هوش مصنوعی را از کار بیاندازند. برای حفظ پایداری و امنیت مدلهای زبانی، باید به پاکسازی داده، روشهای تشخیص درپشتی، و بهروزرسانی مداوم توجه داشت. هیچ دفاعی کامل نیست، ولی با آگاهی و طراحی لایهای میتوان ریسک سمپاشی مدل زبانی بزرگ را به حداقل رساند.
پرسشهای متداول
خیر؛ پژوهش نشان داده است که حتی مدلهای با اندازه متوسط نیز با **سمپاشی مدل زبانی بزرگ** آسیبپذیرند زیرا فقط تعداد کمی داده مخرب کافی است.
با استفاده از آموزش مداوم پاک، فیلترینگ هدفمند و تشخیص backdoor میتوان خطر **سمپاشی مدل زبانی بزرگ** را کاهش داد.
بله، در سناریوهای پیچیدهتر ممکن است از طریق **سمپاشی مدل زبانی بزرگ** دستورات مخرب برای استخراج دادههای خصوصی درج شود.


