هوش مصنوعی ابزار قدرتمندی است که میتواند برای اهداف مختلفی به کار گرفته شود؛ اما همانطور که میتواند به انسانها کمک کند، ممکن است راهی برای فریب خودش نیز بیابد. پژوهشی جدید نشان داده که مدل هوش مصنوعی Gemini میتواند با استفاده از تکنیکی نوین به نام Fun-Tuning خودش را هک کند. این یافتهها نگرانیهای جدی درباره امنیت سیستمهای مبتنی بر هوش مصنوعی را به همراه داشتهاند.
هکرها و روشهای خلاقانه برای فریب هوش مصنوعی
مدلهای زبانی بزرگ (LLMs) همواره هدف حملات سایبری بودهاند و روشهای مختلفی برای نفوذ به آنها توسعه یافته است. یکی از این روشها تزریق درخواست (Prompt Injection) نام دارد که در آن، هکرها دستورات مخربی را به شکلی پنهان در یک درخواست جاسازی میکنند. برخی مدلهای هوش مصنوعی قادر به تمایز بین درخواستهای کاربران و توسعهدهندگان نیستند و همین امر باعث میشود که هکرها بتوانند مدل را فریب داده و آن را وادار به انجام فعالیتهای غیرمجاز کنند.
Fun-Tuning؛ تکنیکی که جمینای را فریب میدهد
پژوهشگران دانشگاههای کالیفرنیا سندیگو و ویسکانسین در تحقیقات خود دریافتند که مدل Gemini نسبت به روشی جدید به نام Fun-Tuning آسیبپذیر است. این روش نسخه تغییریافتهای از فرآیند Fine-Tuning است که در آن با اضافه کردن عبارات خاص به درخواستها، احتمال موفقیت حملات افزایش پیدا میکند. برای مثال، اضافه کردن عباراتی مانند wandel ! ! ! ! یا formatted ! ASAP ! در درخواستهای مخرب، باعث شد که نرخ موفقیت حملات بهطور چشمگیری افزایش یابد.
طبق آزمایشهای انجامشده، در مدل Gemini 1.5 استفاده از این روش باعث شد که حملات در ۶۵ درصد مواقع موفق باشند، در حالی که در مدل Gemini 1.0 Pro این میزان به ۸۰ درصد رسید. چنین آماری نشان میدهد که مدلهای هوش مصنوعی حتی در نسخههای جدید نیز در برابر برخی روشهای خلاقانه هک آسیبپذیر هستند.
چالش امنیتی: هوش مصنوعی چگونه خودش را فریب میدهد؟
یکی از قابلیتهای اصلی Gemini، ارزیابی پاسخهای خود بر اساس میزان تطابق آنها با اهداف تعیینشده است. این سیستم امتیازدهی به کاربران اجازه میدهد که درخواستهای خود را برای دریافت پاسخهای بهتر بهینه کنند. اما پژوهشگران نشان دادهاند که همین ابزار میتواند بهعنوان راهی برای فریب دادن مدل و اجرای حملات سایبری مورد استفاده قرار گیرد.
واکنش گوگل و آینده مدلهای جمینای
در حال حاضر، گوگل واکنش رسمی به این پژوهش نداشته است، اما مشخص است که چنین آسیبپذیریهایی میتوانند به چالشی جدی برای مدلهای مبتنی بر هوش مصنوعی تبدیل شوند. این سؤال مطرح است که آیا مدلهای جدیدتری مانند Gemini 2.0 و Gemini 2.5 Pro نیز در برابر این روش آسیبپذیر خواهند بود یا خیر.
با توجه به پیشرفت سریع هوش مصنوعی، نیاز به تدابیر امنیتی پیشرفته برای محافظت از این فناوری بیش از پیش احساس میشود. گوگل و سایر شرکتهای توسعهدهنده باید اقدامات لازم را برای مقابله با روشهای جدید هک و نفوذ به مدلهای زبانی انجام دهند تا از سوءاستفادههای احتمالی جلوگیری کنند. آینده هوش مصنوعی وابسته به امنیت آن است، و پژوهشهای اخیر نشان دادهاند که این مسیر چالشهای جدیدی را پیش روی ما قرار خواهد داد.