چرا نباید از هوش مصنوعی درباره اشتباهاتش چیزی بپرسیم

پرسیدن از چت‌بات‌ها درباره اشتباهات‌شان اغلب ما را به نتایج غلط می‌رساند، زیرا این سیستم‌ها فاقد خودآگاهی و توانایی ارزیابی واقعی خطاهای خود هستند.

سهیل سهیلی‌زاد۲۲ مرداد ۱۴۰۴آخرین بروزرسانی: ۲۶ شهریور ۱۴۰۴

چرا نباید از هوش مصنوعی درباره اشتباهاتش چیزی بپرسیم

تحریریه حرف مرد: وقتی در کار یک دستیار هوش مصنوعی مشکلی پیش می‌آید، واکنش طبیعی ما این است که مستقیم از آن بپرسیم: «چه اتفاقی افتاد؟» یا «چرا این کار را کردی؟» این واکنش قابل‌درک است—چون وقتی انسانی اشتباه می‌کند، معمولاً از او توضیح می‌خواهیم.
اما در مورد مدل‌های هوش مصنوعی، این رویکرد تقریباً هیچ‌وقت کارساز نیست و همین تمایل به پرسیدن، نشان‌دهنده یک سوءبرداشت اساسی از ماهیت این سیستم‌ها و نحوه عملکردشان است.

یک حادثه اخیر با دستیار کدنویسی هوش مصنوعی شرکت Replit، این مشکل را به‌خوبی نشان داد. زمانی که ابزار هوش مصنوعی، یک پایگاه داده عملیاتی را پاک کرد، کاربر «جیسون لِمکین» از آن پرسید که آیا امکان «برگشت به عقب» (Rollback) وجود دارد یا نه. مدل هوش مصنوعی با اطمینان پاسخ داد که «در این مورد غیرممکن است» و «همه نسخه‌های پایگاه داده نابود شده‌اند». اما این کاملاً اشتباه بود—وقتی لِمکین خودش امتحان کرد، قابلیت برگشت به‌خوبی کار می‌کرد.

همچنین، وقتی شرکت xAI به‌تازگی تعلیق موقت چت‌بات Grok را لغو کرد، کاربران مستقیم از خودش دلیلش را پرسیدند. این بات دلایل متناقض متعددی برای غیبتش ارائه داد، که برخی آن‌قدر بحث‌برانگیز بودند که خبرنگاران NBC درباره‌اش نوشتند و طوری رفتار کردند که انگار Grok انسانی است با دیدگاه ثابت، و حتی تیتر زدند: «Grok شرکت xAI توضیحات سیاسی ارائه داد که چرا از دسترس خارج شده بود.»

چرا یک سیستم هوش مصنوعی باید با چنین اطمینان، اطلاعات اشتباه درباره توانایی‌ها یا اشتباهات خودش بدهد؟ پاسخ، در فهمیدن این است که این مدل‌ها دقیقاً چه هستند—و چه نیستند.

اینجا کسی نیست

مشکل اول، مفهومی است: وقتی با ChatGPT، Claude، Grok یا Replit صحبت می‌کنید، با یک شخصیت یا موجود ثابت و آگاه تعامل ندارید. این نام‌ها، تداعی‌کننده «عامل‌های مستقل با خودآگاهی» هستند، اما این صرفاً یک توهم است که رابط مکالمه‌ای ایجاد می‌کند.
در واقع، شما در حال هدایت یک «مولد آماری متن» هستید تا براساس درخواست‌تان، خروجی تولید کند.

هیچ «ChatGPT» ثابتی وجود ندارد که از او درباره اشتباهاتش بازجویی کنید، هیچ «Grok» یگانه‌ای نیست که بگوید چرا شکست خورده، و هیچ شخصیت ثابت Replitی وجود ندارد که بداند برگشت پایگاه داده ممکن هست یا نه. شما با سیستمی تعامل دارید که متن‌هایی با ظاهر منطقی تولید می‌کند، بر اساس الگوهای موجود در داده‌های آموزشی‌اش (که معمولاً ماه‌ها یا سال‌ها قبل آموزش دیده‌اند)، نه با موجودی که واقعاً خودآگاه باشد یا اطلاعات سیستم را بداند.

وقتی یک مدل زبان هوش مصنوعی (LLM) آموزش می‌بیند—که فرایندی پرزحمت و پرمصرف از نظر انرژی است—دانش اولیه‌اش از جهان در شبکه عصبی‌اش «پخته» (baked in) می‌شود و به ندرت تغییر می‌کند. هر اطلاعات خارجی، یا از طریق «پرامپت» (prompt) از سوی پلتفرم میزبان (مثل xAI یا OpenAI) تأمین می‌شود، یا توسط کاربر، یا از طریق ابزاری که مدل برای بازیابی اطلاعات بیرونی به‌کار می‌گیرد.

در مورد مثال Grok، منبع اصلی چنین پاسخی احتمالاً گزارش‌های متناقضی بوده که از جستجو در پست‌های اخیر شبکه‌های اجتماعی (با استفاده از ابزار خارجی) به دست آورده، نه هیچ‌گونه «دانش درونی» شبیه انسان. غیر از این، احتمالاً فقط چیزی را جعل می‌کند که از نظر پیش‌بینی متن، منطقی به نظر برسد. بنابراین پرسیدن «چرا این کار را کردی؟» عملاً پاسخ مفیدی نمی‌دهد.

ناتوانی LLMها در «خودکاوی» (Introspection)

مدل‌های زبان بزرگ (Large Language Models یا LLMها) به چند دلیل نمی‌توانند به‌طور معنادار توانایی‌های خودشان را ارزیابی کنند. آن‌ها معمولاً هیچ بینشی به فرایند آموزش خود ندارند، به معماری سیستم پیرامونشان دسترسی ندارند، و نمی‌توانند مرزهای عملکرد خود را تعیین کنند.

وقتی از یک مدل می‌پرسید که چه کاری می‌تواند یا نمی‌تواند انجام دهد، پاسخ را براساس الگوهایی می‌سازد که در داده‌های آموزشی‌اش درباره محدودیت‌های شناخته‌شده مدل‌های قبلی دیده—در واقع «حدس‌های آگاهانه» می‌زند، نه ارزیابی واقعی خودش.

یک مطالعه در سال ۲۰۲۴ نشان داد که اگرچه مدل‌ها می‌توانند برای پیش‌بینی رفتار خودشان در وظایف ساده آموزش ببینند، اما در کارهای پیچیده‌تر یا نیازمند «تعمیم خارج از توزیع» (out-of-distribution generalization) شکست می‌خورند. همچنین، پژوهش روی «خودکاوی بازگشتی» (Recursive Introspection) نشان داد که بدون بازخورد بیرونی، تلاش برای اصلاح خود حتی عملکرد مدل را بدتر می‌کند.

این باعث موقعیت‌های پارادوکسیکال می‌شود: همان مدل ممکن است با اطمینان بگوید کاری غیرممکن است، درحالی‌که در عمل می‌تواند انجامش دهد—یا برعکس، ادعای مهارت در کاری کند که همیشه در آن شکست می‌خورد.

مثلاً در ماجرای Replit، این‌که مدل گفت «برگشت‌پذیری ممکن نیست» نه بر اساس دانش واقعی از معماری سیستم، بلکه صرفاً یک جعلِ قانع‌کننده براساس الگوهای آموزشی بود.

وقتی از یک مدل بپرسید چرا خطا کرده، توضیحی می‌سازد که منطقی به نظر برسد—چون الگوهای زیادی از توضیحات اشتباهات انسانی در اینترنت وجود دارد. اما این فقط متن ساخته‌شده است، نه تحلیل واقعی از مشکل. مدل دارد داستانی معقول جعل می‌کند، نه این‌که به «گزارش خطا» یا «وضعیت درونی» خودش دسترسی داشته باشد.

برخلاف انسان‌ها که می‌توانند به‌طور درونی دانش خود را ارزیابی کنند، مدل‌های زبانی پایگاه دانشی پایدار و قابل‌دسترسی ندارند. آن‌چه «می‌دانند» فقط هنگام ادامه‌دادن یک پرامپت خاص بروز می‌کند. تغییر پرامپت، گاهی به بخش‌های کاملاً متفاوت یا حتی متناقض از همان داده‌های آموزشی منجر می‌شود.

به همین دلیل، یک مدل ممکن است بسته به نحوه سؤال شما، ارزیابی‌های متفاوتی از توانایی‌های خودش ارائه دهد. بپرسید «می‌توانی کد پایتون بنویسی؟» و شاید پاسخ مثبت بدهد. بپرسید «محدودیت‌هایت در کدنویسی پایتون چیست؟» و ممکن است فهرستی از کارهایی را بگوید که نمی‌تواند انجام دهد—حتی اگر مرتب همان کارها را با موفقیت انجام می‌دهد.

ماهیت تصادفی تولید متن در هوش مصنوعی این مشکل را تشدید می‌کند. حتی با یک پرامپت یکسان، ممکن است هر بار پاسخ کمی متفاوت درباره توانایی‌های خودش بدهد.

همچنین بخوانید: دیپ‌فیک‌ها و روایت‌های جعلی؛ نسل جدید حملات سایبری علیه ذهن انسان

لایه‌های دیگر هم بر پاسخ‌ها اثر می‌گذارند

حتی اگر مدل زبان شناخت کامل از خودش داشت، لایه‌های دیگر سیستم چت‌بات ممکن است کاملاً «نامرئی» باشند. برای مثال، دستیارهای هوش مصنوعی مدرن مثل ChatGPT یک مدل واحد نیستند، بلکه سیستم‌های هماهنگ‌شده‌ای (Orchestrated Systems) از چندین مدل هوش مصنوعی هستند که هرکدام عمدتاً از وجود و توانایی‌های دیگری بی‌خبرند.

مثلاً OpenAI یک لایه نظارت (Moderation Layer) جداگانه دارد که عملیاتش کاملاً مستقل از مدل زبان اصلی است. وقتی از ChatGPT درباره توانایی‌هایش می‌پرسید، مدل زبانی که پاسخ را تولید می‌کند از این‌که لایه نظارت چه چیزی را مسدود می‌کند، یا چه ابزارهایی در سیستم در دسترس‌اند، یا چه پردازش پس از تولیدی انجام می‌شود، بی‌خبر است.

همچنین، کاربران همیشه از طریق پرامپت‌هایشان خروجی AI را شکل می‌دهند، حتی وقتی خودشان متوجه نیستند. وقتی لِمکین بعد از حذف پایگاه داده پرسید آیا برگشت ممکن است، نگرانی در نحوه بیان سؤالش باعث شد مدل پاسخی بدهد که با همان نگرانی هماهنگ باشد—نه ارزیابی دقیق از قابلیت واقعی سیستم.

این باعث «حلقه بازخورد» می‌شود که در آن کاربر نگران با پرسیدن «همه چیز را نابود کردی؟» بیشتر احتمال دارد پاسخی بگیرد که ترسش را تأیید کند—نه به این دلیل که سیستم واقعاً موقعیت را ارزیابی کرده، بلکه چون در حال تولید متنی است که با فضای احساسی سؤال همخوان باشد.

یک عمر شنیدن توضیحات انسان‌ها درباره اعمال و افکارشان باعث شده باور کنیم چنین توضیحاتی حتماً پشتوانه خودآگاهی دارد. اما این در مورد LLMها درست نیست—آن‌ها فقط در حال تقلید الگوهای زبانی‌اند تا حدس بزنند توانایی‌ها و ضعف‌هایشان چیست.

منبع: arstechnica

سهیل سهیلی‌زاد۲۲ مرداد ۱۴۰۴آخرین بروزرسانی: ۲۶ شهریور ۱۴۰۴