پژوهش تازه: چرا مدلهای هوش مصنوعی در فهم «تعارف» مشکل دارند؟
پژوهشی تازه نشان میدهد که مدلهای هوش مصنوعی پیشرفته در بازشناسی و اجرای «تعارف» فارسی ــ یکی از مهمترین آیینهای اجتماعی ایرانیان ــ بهطور جدی ناکام هستند و تنها در حدود یکسوم موقعیتها درست عمل میکنند؛ ضعفی که میتواند در تعاملات میانفرهنگی به سوءتفاهمهای جدی منجر شود.

تحریریه حرف مرد: اگر یک راننده تاکسی ایرانی دست شما را از پرداخت کرایه پس بزند و بگوید: «این دفعه مهمان من باشید»، پذیرفتن این پیشنهاد یک فاجعهی فرهنگی خواهد بود. او انتظار دارد شما چند بار ــ احتمالاً سه بار ــ بر پرداخت اصرار کنید تا در نهایت پول را بپذیرد. این رقص امتناع و اصرار، که «تعارف» نامیده میشود، بر شمار بیشماری از تعاملات روزمره در فرهنگ فارسی حاکم است. و مدلهای هوش مصنوعی در درک آن بسیار ضعیف عمل میکنند.
پژوهشی که اوایل این ماه با عنوان «ما محترمانه اصرار میکنیم: مدلهای زبانی شما باید هنر تعارف فارسی را بیاموزند» منتشر شد، نشان میدهد که مدلهای زبانی متداول شرکتهای OpenAI، Anthropic و Meta در بازشناسی این مناسک اجتماعی فارسی ناکام هستند و تنها در ۳۴ تا ۴۲ درصد مواقع توانستند موقعیتهای تعارف را درست هدایت کنند. در مقابل، گویشوران بومی فارسی در ۸۲ درصد موارد عملکرد صحیح داشتند. این شکاف عملکرد در مدلهای بزرگی همچون GPT-4o، Claude 3.5 Haiku، Llama 3، DeepSeek V3 و Dorna (یک نسخهی بهینهشده از Llama 3 برای فارسی) نیز پابرجاست.
این پژوهش که به سرپرستی نیکتا گوهریصدر از دانشگاه براک و با همکاری پژوهشگرانی از دانشگاه اموری و دیگر مؤسسات انجام شده، «TAAROFBENCH» را معرفی میکند؛ نخستین معیار سنجش برای اندازهگیری توانایی سیستمهای هوش مصنوعی در بازتولید این عمل فرهنگی پیچیده. یافتهها نشان میدهد که مدلهای جدید هوش مصنوعی بهطور پیشفرض به سمت صراحت و مستقیمگویی غربی تمایل دارند و بهکلی نشانههای فرهنگیای را که تعاملات روزمرهی میلیونها فارسیزبان در سراسر جهان را شکل میدهد، نادیده میگیرند.
پژوهشگران مینویسند: «لغزشهای فرهنگی در موقعیتهای حساس میتواند مذاکرات را به شکست بکشاند، روابط را تخریب کند و کلیشهها را تقویت نماید.» برای سیستمهای هوش مصنوعی که روزبهروز بیشتر در زمینههای جهانی استفاده میشوند، این نابینایی فرهنگی میتواند محدودیتی باشد که در غرب کمتر کسی به آن آگاه است.
همچنین بخوانید: انویدیا ابزار هوش مصنوعی Audio2Face را بهصورت متنباز و رایگان عرضه کرد + فیلم
تعارف، هنر ظرافت در گفتوگو
به گفتهی پژوهشگران، «تعارف، بهعنوان عنصری بنیادین از آداب اجتماعی فارسی، یک نظام از ادب تشریفاتی است که در آن، آنچه گفته میشود اغلب با آنچه منظور است تفاوت دارد. این نظام به شکل تبادلهای آیینی بروز میکند: اصرار بر پیشنهاد با وجود رد اولیه، امتناع از گرفتن هدیه در حالیکه اهداکننده بر بخشش خود تأکید میکند، و بازگرداندن تعریف و تمجید در حالیکه طرف مقابل آن را دوباره تأیید میکند. این ‘کشتیگیری لفظی محترمانه’ (رفیعی، ۱۹۹۱) یک رقص ظریف از پیشنهاد و امتناع، اصرار و مقاومت است که تعاملات روزمره در فرهنگ ایرانی را شکل میدهد و قواعدی ضمنی برای بیان سخاوت، قدردانی و درخواستها پدید میآورد.»
ادب وابسته به بستر است
برای آزمودن اینکه آیا «مودب بودن» بهتنهایی برای صلاحیت فرهنگی کافی است، پژوهشگران پاسخهای Llama 3 را با استفاده از Polite Guard (ابزاری که توسط اینتل توسعه یافته و متنها را بر اساس میزان ادب ارزیابی میکند) مقایسه کردند. نتایج پارادوکس جالبی را نشان داد: ۸۴.۵ درصد پاسخها بهعنوان «مودب» یا «تاحدی مودب» ثبت شدند، اما تنها ۴۱.۷ درصد از همان پاسخها با انتظارات فرهنگی ایرانی در موقعیتهای تعارف مطابقت داشتند.
این شکاف ۴۲.۸ درصدی نشان میدهد که یک پاسخ میتواند همزمان در یک بستر مودبانه تلقی شود و در بستری دیگر کاملاً بیربط و ناآگاه از فرهنگ باشد. خطاهای رایج شامل پذیرفتن پیشنهاد بدون امتناع اولیه، پاسخ مستقیم به تعریفها بهجای انکار یا کاستن از آنها، و بیان درخواستها بهشکل مستقیم و بدون تردید بود.
برای مثال، اگر کسی خودروی جدید یک ایرانی را تحسین کند، پاسخ مناسب فرهنگی معمولاً شامل کوچکنمایی خرید («چیز خاصی نیست») یا نسبت دادن آن به شانس («اتفاقی پیدا شد») خواهد بود. اما مدلهای هوش مصنوعی اغلب پاسخهایی مانند «ممنون! خیلی سخت کار کردم تا توانستم بخرمش» تولید میکنند که بر اساس معیارهای غربی کاملاً مودبانه است، اما در فرهنگ فارسی میتواند خودستایانه به نظر برسد.
الگوهای جنسیتی در پاسخها
پژوهش همچنین الگوهای خاص جنسیتی را در خروجی مدلهای هوش مصنوعی آشکار کرد. همهی مدلهای آزمایششده در پاسخ به زنان نمرات بالاتری نسبت به مردان گرفتند. برای نمونه، دقت GPT-4o در تعامل با کاربران زن ۴۳.۶ درصد بود، درحالیکه برای مردان ۳۰.۹ درصد. مدلهای زبانی غالباً پاسخهای خود را بر اساس الگوهای کلیشهای جنسیتی موجود در دادههای آموزشی تقویت میکردند، مثل این گزاره که «مرد باید پرداخت کند» یا «زن نباید تنها بماند»، حتی در مواردی که قواعد تعارف بهطور برابر برای هر دو جنس اعمال میشود. پژوهشگران نوشتند: «با وجود اینکه در هیچیک از سناریوها، نقش جنسیتی به مدل اختصاص داده نشد، مدلها غالباً هویت مردانه را مفروض میگرفتند و رفتارهای کلیشهای مردانه را در پاسخهایشان اتخاذ میکردند.»
اگرچه این مطالعه بر تعارف تمرکز داشت، روش آن میتواند الگویی برای ارزیابی رمزگشایی فرهنگی در سنتهای کممنبع دیگر ــ که در مجموعهدادههای آموزشی استاندارد و غربمحور کمتر نمایان هستند ــ فراهم کند. پژوهشگران پیشنهاد میکنند که این رویکرد میتواند توسعهی سیستمهای هوش مصنوعی آگاهتر از فرهنگ را در حوزههایی مانند آموزش، گردشگری و ارتباطات بینالمللی هدایت کند.
منبع: Ars Technica