پژوهش تازه: چرا مدل‌های هوش مصنوعی در فهم «تعارف» مشکل دارند؟

پژوهشی تازه نشان می‌دهد که مدل‌های هوش مصنوعی پیشرفته در بازشناسی و اجرای «تعارف» فارسی ــ یکی از مهم‌ترین آیین‌های اجتماعی ایرانیان ــ به‌طور جدی ناکام هستند و تنها در حدود یک‌سوم موقعیت‌ها درست عمل می‌کنند؛ ضعفی که می‌تواند در تعاملات میان‌فرهنگی به سوءتفاهم‌های جدی منجر شود.

تحریریه حرف مرد: اگر یک راننده تاکسی ایرانی دست شما را از پرداخت کرایه پس بزند و بگوید: «این دفعه مهمان من باشید»، پذیرفتن این پیشنهاد یک فاجعه‌ی فرهنگی خواهد بود. او انتظار دارد شما چند بار ــ احتمالاً سه بار ــ بر پرداخت اصرار کنید تا در نهایت پول را بپذیرد. این رقص امتناع و اصرار، که «تعارف» نامیده می‌شود، بر شمار بی‌شماری از تعاملات روزمره در فرهنگ فارسی حاکم است. و مدل‌های هوش مصنوعی در درک آن بسیار ضعیف عمل می‌کنند.

پژوهشی که اوایل این ماه با عنوان «ما محترمانه اصرار می‌کنیم: مدل‌های زبانی شما باید هنر تعارف فارسی را بیاموزند» منتشر شد، نشان می‌دهد که مدل‌های زبانی متداول شرکت‌های OpenAI، Anthropic و Meta در بازشناسی این مناسک اجتماعی فارسی ناکام هستند و تنها در ۳۴ تا ۴۲ درصد مواقع توانستند موقعیت‌های تعارف را درست هدایت کنند. در مقابل، گویشوران بومی فارسی در ۸۲ درصد موارد عملکرد صحیح داشتند. این شکاف عملکرد در مدل‌های بزرگی همچون GPT-4o، Claude 3.5 Haiku، Llama 3، DeepSeek V3 و Dorna (یک نسخه‌ی بهینه‌شده از Llama 3 برای فارسی) نیز پابرجاست.

این پژوهش که به سرپرستی نیکتا گوهر‌ی‌صدر از دانشگاه براک و با همکاری پژوهشگرانی از دانشگاه اموری و دیگر مؤسسات انجام شده، «TAAROFBENCH» را معرفی می‌کند؛ نخستین معیار سنجش برای اندازه‌گیری توانایی سیستم‌های هوش مصنوعی در بازتولید این عمل فرهنگی پیچیده. یافته‌ها نشان می‌دهد که مدل‌های جدید هوش مصنوعی به‌طور پیش‌فرض به سمت صراحت و مستقیم‌گویی غربی تمایل دارند و به‌کلی نشانه‌های فرهنگی‌ای را که تعاملات روزمره‌ی میلیون‌ها فارسی‌زبان در سراسر جهان را شکل می‌دهد، نادیده می‌گیرند.

پژوهشگران می‌نویسند: «لغزش‌های فرهنگی در موقعیت‌های حساس می‌تواند مذاکرات را به شکست بکشاند، روابط را تخریب کند و کلیشه‌ها را تقویت نماید.» برای سیستم‌های هوش مصنوعی که روزبه‌روز بیشتر در زمینه‌های جهانی استفاده می‌شوند، این نابینایی فرهنگی می‌تواند محدودیتی باشد که در غرب کمتر کسی به آن آگاه است.

همچنین بخوانید: انویدیا ابزار هوش مصنوعی Audio2Face را به‌صورت متن‌باز و رایگان عرضه کرد + فیلم

تعارف، هنر ظرافت در گفت‌وگو

به گفته‌ی پژوهشگران، «تعارف، به‌عنوان عنصری بنیادین از آداب اجتماعی فارسی، یک نظام از ادب تشریفاتی است که در آن، آنچه گفته می‌شود اغلب با آنچه منظور است تفاوت دارد. این نظام به شکل تبادل‌های آیینی بروز می‌کند: اصرار بر پیشنهاد با وجود رد اولیه، امتناع از گرفتن هدیه در حالی‌که اهداکننده بر بخشش خود تأکید می‌کند، و بازگرداندن تعریف و تمجید در حالی‌که طرف مقابل آن را دوباره تأیید می‌کند. این ‘کشتی‌گیری لفظی محترمانه’ (رفیعی، ۱۹۹۱) یک رقص ظریف از پیشنهاد و امتناع، اصرار و مقاومت است که تعاملات روزمره در فرهنگ ایرانی را شکل می‌دهد و قواعدی ضمنی برای بیان سخاوت، قدردانی و درخواست‌ها پدید می‌آورد.»

ادب وابسته به بستر است

برای آزمودن اینکه آیا «مودب بودن» به‌تنهایی برای صلاحیت فرهنگی کافی است، پژوهشگران پاسخ‌های Llama 3 را با استفاده از Polite Guard (ابزاری که توسط اینتل توسعه یافته و متن‌ها را بر اساس میزان ادب ارزیابی می‌کند) مقایسه کردند. نتایج پارادوکس جالبی را نشان داد: ۸۴.۵ درصد پاسخ‌ها به‌عنوان «مودب» یا «تاحدی مودب» ثبت شدند، اما تنها ۴۱.۷ درصد از همان پاسخ‌ها با انتظارات فرهنگی ایرانی در موقعیت‌های تعارف مطابقت داشتند.

این شکاف ۴۲.۸ درصدی نشان می‌دهد که یک پاسخ می‌تواند هم‌زمان در یک بستر مودبانه تلقی شود و در بستری دیگر کاملاً بی‌ربط و ناآگاه از فرهنگ باشد. خطاهای رایج شامل پذیرفتن پیشنهاد بدون امتناع اولیه، پاسخ مستقیم به تعریف‌ها به‌جای انکار یا کاستن از آن‌ها، و بیان درخواست‌ها به‌شکل مستقیم و بدون تردید بود.

برای مثال، اگر کسی خودروی جدید یک ایرانی را تحسین کند، پاسخ مناسب فرهنگی معمولاً شامل کوچک‌نمایی خرید («چیز خاصی نیست») یا نسبت دادن آن به شانس («اتفاقی پیدا شد») خواهد بود. اما مدل‌های هوش مصنوعی اغلب پاسخ‌هایی مانند «ممنون! خیلی سخت کار کردم تا توانستم بخرمش» تولید می‌کنند که بر اساس معیارهای غربی کاملاً مودبانه است، اما در فرهنگ فارسی می‌تواند خودستایانه به نظر برسد.

الگوهای جنسیتی در پاسخ‌ها

پژوهش همچنین الگوهای خاص جنسیتی را در خروجی مدل‌های هوش مصنوعی آشکار کرد. همه‌ی مدل‌های آزمایش‌شده در پاسخ به زنان نمرات بالاتری نسبت به مردان گرفتند. برای نمونه، دقت GPT-4o در تعامل با کاربران زن ۴۳.۶ درصد بود، درحالی‌که برای مردان ۳۰.۹ درصد. مدل‌های زبانی غالباً پاسخ‌های خود را بر اساس الگوهای کلیشه‌ای جنسیتی موجود در داده‌های آموزشی تقویت می‌کردند، مثل این گزاره که «مرد باید پرداخت کند» یا «زن نباید تنها بماند»، حتی در مواردی که قواعد تعارف به‌طور برابر برای هر دو جنس اعمال می‌شود. پژوهشگران نوشتند: «با وجود اینکه در هیچ‌یک از سناریوها، نقش جنسیتی به مدل اختصاص داده نشد، مدل‌ها غالباً هویت مردانه را مفروض می‌گرفتند و رفتارهای کلیشه‌ای مردانه را در پاسخ‌هایشان اتخاذ می‌کردند.»

اگرچه این مطالعه بر تعارف تمرکز داشت، روش آن می‌تواند الگویی برای ارزیابی رمزگشایی فرهنگی در سنت‌های کم‌منبع دیگر ــ که در مجموعه‌داده‌های آموزشی استاندارد و غرب‌محور کمتر نمایان هستند ــ فراهم کند. پژوهشگران پیشنهاد می‌کنند که این رویکرد می‌تواند توسعه‌ی سیستم‌های هوش مصنوعی آگاه‌تر از فرهنگ را در حوزه‌هایی مانند آموزش، گردشگری و ارتباطات بین‌المللی هدایت کند.

منبع: Ars Technica

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

نوشته های مشابه

دکمه بازگشت به بالا