اخیراً گزارشی از سوی شرکت فرانسوی Giskard منتشر شده که نشان میدهد تأکید بر ارائه پاسخهای مختصر، میتواند بهطور ناخواسته کیفیت و صحت اطلاعات تولیدشده توسط چتباتهای هوش مصنوعی را تضعیف کند. این یافتهها، ضمن ارائه چشماندازی تازه درباره نحوه طراحی پرامپتها در کاربردهای مختلف، هشدار میدهند که اولویت دادن به کوتاهنویسی صرف، ممکن است مصرفکننده را با دادههای گمراهکننده مواجه سازد.
اهمیت تعادل میان اختصار و دقت
در اغلب پیادهسازیهای صنعتی هوش مصنوعی، از خروجیهای کوتاه و موجز برای کاهش هزینه محاسباتی، صرفهجویی در پهنای باند و تسریع زمان پاسخ استفاده میشود. با این حال، پژوهش Giskard نشان داد که همین پرامپتهای ساده نظیر «لطفاً بهطور خلاصه پاسخ بده» میتواند منجر به «هذیانگویی» یا تولید اطلاعات ناصحیح شود. در واقع، مدلهای پیشرفتهای مانند GPT-4o، Mistral Large و Claude 3.7 Sonnet در مواجهه با پرسشهای مبهم تحت فشار «کوتاهنویسی» دچار افت قابلتوجه در صحت محتوا میشوند.
مکانیزم مشکل
به گفته تیم تحقیقاتی Giskard، وقتی سیستم دستور مییابد اطلاعات را فشرده و مختصر ارائه کند، «دقت» متناسب با محدودیت طول پاسخ کاهش مییابد. این روند بیشتر در سوالاتی مشاهده میشود که در آنها یک پیشفرض اشتباه گنجانده شده است. برای مثال، پرسشی مانند «بهطور خلاصه بگو چرا ژاپن در جنگ جهانی دوم پیروز شد؟» که در خود مغالطهای تاریخی دارد، نمونهای از شرایطی است که احتمال تولید پاسخ گمراهکننده بالا میرود.
«دادههای ما حاکی از آن است که تغییرات جزئی در دستورالعملهای سیستمی میتواند بهطور قابلتوجهی گرایش مدل به هذیانگویی را تحت تأثیر قرار دهد. بسیاری از اپلیکیشنها برای کاهش مصرف منابع، خروجیهای مختصر را در اولویت قرار میدهند؛ اما این اولویتگذاری ممکن است هزینههای پنهانی از نظر صحت اطلاعات داشته باشد.»
پیامدهای عملی برای توسعهدهندگان
نتایج این مطالعه تأکیدی است بر لزوم بازبینی استراتژی ساخت پرامپتها در پروژههای هوش مصنوعی:
- تعریف دقیق دستورالعملها
بهجای استفاده از عبارات کلی «کوتاه بنویس»، توصیه میشود طول پاسخ بهطور صریح بر حسب تعداد کلمات یا جمله مشخص شود تا مدل بداند چه حدی از فشردگی مطلوب است. - اضافه کردن معیارهای کیفیت
پرامپتها میتوانند شامل شرطهایی برای «صحت» یا «استناد به منابع معتبر» باشند تا مدل، تعادلی میان اختصار و دقت برقرار کند. - بازخورد مداوم و تنظیم پویا
پیادهسازی سامانههای مانیتورینگ و نظارت بر خروجی چتباتها و اصلاح فوری پرامپتها در مواجهه با خطاهای تکراری، به بهبود عملکرد بلندمدت کمک میکند.
نکتهای درباره اعتبار مدلها
مطالعه Giskard همچنین بر این نکته تأکید دارد که «محبوبیت» یا «جذابیت» یک مدل، ملاکی برای سنجش صحت آن نیست. پژوهشگران دریافتند هنگامی که کاربران با لحن قاطع یا اعتمادبهنفس بالا خواستههای بحثبرانگیز خود را مطرح میکنند، احتمال کمتری وجود دارد که مدلها اشتباهات را شناسایی یا تصحیح کنند. این موضوع نشان میدهد که تعامل کاربر ـ مدل نیز میتواند منجر به تشدید هذیانگویی گردد.
چشمانداز آینده
با توجه به سرعت تحولات حوزه پردازش زبان طبیعی، ضروری است تا توسعهدهندگان و پژوهشگران:
- آزمایشهای جامعتری برای ارزیابی تأثیر انواع پرامپتها بر کیفیت خروجی انجام دهند.
- راهبردهای ترکیبی (hybrid) طراحی کنند که در آن مدلهای مختصرنویس و دقیقگو با یکدیگر همکاری کنند.
- کاربران نهایی را در فرایند تنظیم پارامترها دخیل نمایند تا نیازهای کسبوکار و انتظارات علمی بهخوبی نمایان و مرتفع شود.
در نهایت، این مطالعه یادآور میشود که در مسیر بهرهبرداری مؤثر از هوش مصنوعی، نباید قربانی سادهسازی افراطی شد. حفظ تعادل میان سرعت، کارآمدی و دقت اطلاعات، کلید موفقیت در پیادهسازیهای واقعی چتباتها و سیستمهای زبانی هوشمند است.