چرا نباید از هوش مصنوعی درباره اشتباهاتش چیزی بپرسیم
پرسیدن از چتباتها درباره اشتباهاتشان اغلب ما را به نتایج غلط میرساند، زیرا این سیستمها فاقد خودآگاهی و توانایی ارزیابی واقعی خطاهای خود هستند.

تحریریه حرف مرد: وقتی در کار یک دستیار هوش مصنوعی مشکلی پیش میآید، واکنش طبیعی ما این است که مستقیم از آن بپرسیم: «چه اتفاقی افتاد؟» یا «چرا این کار را کردی؟» این واکنش قابلدرک است—چون وقتی انسانی اشتباه میکند، معمولاً از او توضیح میخواهیم.
اما در مورد مدلهای هوش مصنوعی، این رویکرد تقریباً هیچوقت کارساز نیست و همین تمایل به پرسیدن، نشاندهنده یک سوءبرداشت اساسی از ماهیت این سیستمها و نحوه عملکردشان است.
یک حادثه اخیر با دستیار کدنویسی هوش مصنوعی شرکت Replit، این مشکل را بهخوبی نشان داد. زمانی که ابزار هوش مصنوعی، یک پایگاه داده عملیاتی را پاک کرد، کاربر «جیسون لِمکین» از آن پرسید که آیا امکان «برگشت به عقب» (Rollback) وجود دارد یا نه. مدل هوش مصنوعی با اطمینان پاسخ داد که «در این مورد غیرممکن است» و «همه نسخههای پایگاه داده نابود شدهاند». اما این کاملاً اشتباه بود—وقتی لِمکین خودش امتحان کرد، قابلیت برگشت بهخوبی کار میکرد.
همچنین، وقتی شرکت xAI بهتازگی تعلیق موقت چتبات Grok را لغو کرد، کاربران مستقیم از خودش دلیلش را پرسیدند. این بات دلایل متناقض متعددی برای غیبتش ارائه داد، که برخی آنقدر بحثبرانگیز بودند که خبرنگاران NBC دربارهاش نوشتند و طوری رفتار کردند که انگار Grok انسانی است با دیدگاه ثابت، و حتی تیتر زدند: «Grok شرکت xAI توضیحات سیاسی ارائه داد که چرا از دسترس خارج شده بود.»
چرا یک سیستم هوش مصنوعی باید با چنین اطمینان، اطلاعات اشتباه درباره تواناییها یا اشتباهات خودش بدهد؟ پاسخ، در فهمیدن این است که این مدلها دقیقاً چه هستند—و چه نیستند.
اینجا کسی نیست
مشکل اول، مفهومی است: وقتی با ChatGPT، Claude، Grok یا Replit صحبت میکنید، با یک شخصیت یا موجود ثابت و آگاه تعامل ندارید. این نامها، تداعیکننده «عاملهای مستقل با خودآگاهی» هستند، اما این صرفاً یک توهم است که رابط مکالمهای ایجاد میکند.
در واقع، شما در حال هدایت یک «مولد آماری متن» هستید تا براساس درخواستتان، خروجی تولید کند.
هیچ «ChatGPT» ثابتی وجود ندارد که از او درباره اشتباهاتش بازجویی کنید، هیچ «Grok» یگانهای نیست که بگوید چرا شکست خورده، و هیچ شخصیت ثابت Replitی وجود ندارد که بداند برگشت پایگاه داده ممکن هست یا نه. شما با سیستمی تعامل دارید که متنهایی با ظاهر منطقی تولید میکند، بر اساس الگوهای موجود در دادههای آموزشیاش (که معمولاً ماهها یا سالها قبل آموزش دیدهاند)، نه با موجودی که واقعاً خودآگاه باشد یا اطلاعات سیستم را بداند.
وقتی یک مدل زبان هوش مصنوعی (LLM) آموزش میبیند—که فرایندی پرزحمت و پرمصرف از نظر انرژی است—دانش اولیهاش از جهان در شبکه عصبیاش «پخته» (baked in) میشود و به ندرت تغییر میکند. هر اطلاعات خارجی، یا از طریق «پرامپت» (prompt) از سوی پلتفرم میزبان (مثل xAI یا OpenAI) تأمین میشود، یا توسط کاربر، یا از طریق ابزاری که مدل برای بازیابی اطلاعات بیرونی بهکار میگیرد.
در مورد مثال Grok، منبع اصلی چنین پاسخی احتمالاً گزارشهای متناقضی بوده که از جستجو در پستهای اخیر شبکههای اجتماعی (با استفاده از ابزار خارجی) به دست آورده، نه هیچگونه «دانش درونی» شبیه انسان. غیر از این، احتمالاً فقط چیزی را جعل میکند که از نظر پیشبینی متن، منطقی به نظر برسد. بنابراین پرسیدن «چرا این کار را کردی؟» عملاً پاسخ مفیدی نمیدهد.
ناتوانی LLMها در «خودکاوی» (Introspection)
مدلهای زبان بزرگ (Large Language Models یا LLMها) به چند دلیل نمیتوانند بهطور معنادار تواناییهای خودشان را ارزیابی کنند. آنها معمولاً هیچ بینشی به فرایند آموزش خود ندارند، به معماری سیستم پیرامونشان دسترسی ندارند، و نمیتوانند مرزهای عملکرد خود را تعیین کنند.
وقتی از یک مدل میپرسید که چه کاری میتواند یا نمیتواند انجام دهد، پاسخ را براساس الگوهایی میسازد که در دادههای آموزشیاش درباره محدودیتهای شناختهشده مدلهای قبلی دیده—در واقع «حدسهای آگاهانه» میزند، نه ارزیابی واقعی خودش.
یک مطالعه در سال ۲۰۲۴ نشان داد که اگرچه مدلها میتوانند برای پیشبینی رفتار خودشان در وظایف ساده آموزش ببینند، اما در کارهای پیچیدهتر یا نیازمند «تعمیم خارج از توزیع» (out-of-distribution generalization) شکست میخورند. همچنین، پژوهش روی «خودکاوی بازگشتی» (Recursive Introspection) نشان داد که بدون بازخورد بیرونی، تلاش برای اصلاح خود حتی عملکرد مدل را بدتر میکند.
این باعث موقعیتهای پارادوکسیکال میشود: همان مدل ممکن است با اطمینان بگوید کاری غیرممکن است، درحالیکه در عمل میتواند انجامش دهد—یا برعکس، ادعای مهارت در کاری کند که همیشه در آن شکست میخورد.
مثلاً در ماجرای Replit، اینکه مدل گفت «برگشتپذیری ممکن نیست» نه بر اساس دانش واقعی از معماری سیستم، بلکه صرفاً یک جعلِ قانعکننده براساس الگوهای آموزشی بود.
وقتی از یک مدل بپرسید چرا خطا کرده، توضیحی میسازد که منطقی به نظر برسد—چون الگوهای زیادی از توضیحات اشتباهات انسانی در اینترنت وجود دارد. اما این فقط متن ساختهشده است، نه تحلیل واقعی از مشکل. مدل دارد داستانی معقول جعل میکند، نه اینکه به «گزارش خطا» یا «وضعیت درونی» خودش دسترسی داشته باشد.
برخلاف انسانها که میتوانند بهطور درونی دانش خود را ارزیابی کنند، مدلهای زبانی پایگاه دانشی پایدار و قابلدسترسی ندارند. آنچه «میدانند» فقط هنگام ادامهدادن یک پرامپت خاص بروز میکند. تغییر پرامپت، گاهی به بخشهای کاملاً متفاوت یا حتی متناقض از همان دادههای آموزشی منجر میشود.
به همین دلیل، یک مدل ممکن است بسته به نحوه سؤال شما، ارزیابیهای متفاوتی از تواناییهای خودش ارائه دهد. بپرسید «میتوانی کد پایتون بنویسی؟» و شاید پاسخ مثبت بدهد. بپرسید «محدودیتهایت در کدنویسی پایتون چیست؟» و ممکن است فهرستی از کارهایی را بگوید که نمیتواند انجام دهد—حتی اگر مرتب همان کارها را با موفقیت انجام میدهد.
ماهیت تصادفی تولید متن در هوش مصنوعی این مشکل را تشدید میکند. حتی با یک پرامپت یکسان، ممکن است هر بار پاسخ کمی متفاوت درباره تواناییهای خودش بدهد.
همچنین بخوانید: دیپفیکها و روایتهای جعلی؛ نسل جدید حملات سایبری علیه ذهن انسان
لایههای دیگر هم بر پاسخها اثر میگذارند
حتی اگر مدل زبان شناخت کامل از خودش داشت، لایههای دیگر سیستم چتبات ممکن است کاملاً «نامرئی» باشند. برای مثال، دستیارهای هوش مصنوعی مدرن مثل ChatGPT یک مدل واحد نیستند، بلکه سیستمهای هماهنگشدهای (Orchestrated Systems) از چندین مدل هوش مصنوعی هستند که هرکدام عمدتاً از وجود و تواناییهای دیگری بیخبرند.
مثلاً OpenAI یک لایه نظارت (Moderation Layer) جداگانه دارد که عملیاتش کاملاً مستقل از مدل زبان اصلی است. وقتی از ChatGPT درباره تواناییهایش میپرسید، مدل زبانی که پاسخ را تولید میکند از اینکه لایه نظارت چه چیزی را مسدود میکند، یا چه ابزارهایی در سیستم در دسترساند، یا چه پردازش پس از تولیدی انجام میشود، بیخبر است.
همچنین، کاربران همیشه از طریق پرامپتهایشان خروجی AI را شکل میدهند، حتی وقتی خودشان متوجه نیستند. وقتی لِمکین بعد از حذف پایگاه داده پرسید آیا برگشت ممکن است، نگرانی در نحوه بیان سؤالش باعث شد مدل پاسخی بدهد که با همان نگرانی هماهنگ باشد—نه ارزیابی دقیق از قابلیت واقعی سیستم.
این باعث «حلقه بازخورد» میشود که در آن کاربر نگران با پرسیدن «همه چیز را نابود کردی؟» بیشتر احتمال دارد پاسخی بگیرد که ترسش را تأیید کند—نه به این دلیل که سیستم واقعاً موقعیت را ارزیابی کرده، بلکه چون در حال تولید متنی است که با فضای احساسی سؤال همخوان باشد.
یک عمر شنیدن توضیحات انسانها درباره اعمال و افکارشان باعث شده باور کنیم چنین توضیحاتی حتماً پشتوانه خودآگاهی دارد. اما این در مورد LLMها درست نیست—آنها فقط در حال تقلید الگوهای زبانیاند تا حدس بزنند تواناییها و ضعفهایشان چیست.
منبع: arstechnica