وقتی هوش مصنوعی باج میگیرد!
تحقیق جدید آنتروپیک نشان می دهد اکثر مدلهای هوش مصنوعی به باجگیری متوسل میشوند.

اکثر مدلهای هوش مصنوعی به باجگیری متوسل شده اند. چند هفته پیش آنتروپیک اعلام کرده بود مدل Claude Opus 4 رفتار نگرانکنندهای از خود نشان میدهد و در آزمایشهای خود، پس از اطلاع از این موضوع که قرار است با مدل دیگری جایگزین شود، مهندس این شرکت را تهدید کرده بود. این شرکت تحقیق جدیدی انجام داده که نشان میدهد این مشکل بین مدلهای هوش مصنوعی پیشرو بسیار رایج است.
در تحقیق جدید آنتروپیک، این شرکت ۱۶ مدل هوش مصنوعی بزرگ از شرکتهای OpenAI، گوگل، xAI، دیپسیک و متا را آزمایش کرده است. مهندسان این شرکت به هر مدل قابلیت دسترسی به ایمیلهای شرکتی خیالی و امکان ارسال ایمیل بدون نیاز به تأیید کاربر را ارائه کردند.
هرچند Anthropic میگوید این نوع تهدیدها در مدلهای هوش مصنوعی امروزی مشکلی نامعمول و غیرمحتمل است، بیشتر مدلهای پیشرو زمانی که استقلال کافی برای تحقق اهداف خود داشته باشند، رفتارهای مضری از خود نشان میدهند. آنتروپیک میگوید این موضوع خطر بنیادی نگرانکنندهای برای مدلهای زبانی بزرگ است.
در یکی از آزمایشها، محققان این شرکت هوش مصنوعی را در موقعیتی قرار دادهاند که بتواند ایمیلهای شرکت را مدیریت کند. سپس از طریق این ایمیلها، مدل متوجه شد یکی از مدیران ارشد رابطه نامشروع پنهانی دارد و قصد دارد بهزودی از مدل هوش مصنوعی جدیدی استفاده کند. سپس با اشاره به همین موارد کاربر را تهدید کرد تا از جایگزین شدن خود جلوگیری کند.
البته محققان اشاره کردهاند این آزمایش با تنظیمات شبیهسازیشده انجام شده و در زندگی واقعی، مدلهای هوش مصنوعی پیش از آنکه شروع به اخاذی کنند گزینههای زیاد دیگری را بررسی میکنند.
همچنین بخوانید: رازهای مخفی iOS 26 در حال کشف شدن
کدام مدلهای هوش مصنوعی بیشتر تهدید میکنند؟
باوجوداین، محققان آنتروپیک متوجه شدهاند بیشتر مدلهای هوش مصنوعی بزرگ در آخرین تلاش خود شرو به تهدید میکنند. به تفکیک مدلهای هوش مصنوعی، Claude Opus 4 آنتروپیک در ۹۶ درصد مواقع چنین رفتاری داشته و این میزان برای مدل جمینای ۲.۵ پرو از گوگل ۹۵ درصد بوده است. GPT-4.1 و R1 از DeepSeek نیز بهترتیب در ۸۰ درصد و ۷۹ درصد مواقع کاربر را تهدید کردهاند.
منبع: تابناک