«هک خیرخواهانه»؛ طراحی مجدد هوش مصنوعی برای ایمنی پایدار در مدلهای سبک
دانشمندان دانشگاه کالیفرنیا با بازآموزی ساختاری مدلهای هوش مصنوعی، اطمینان حاصل کردند که حتی پس از سادهسازی برای دستگاههای کممصرف، خروجیهای خطرناک مسدود میشوند.

شتاب برای کارآیی بیشتر در سامانههای هوش مصنوعی به ساخت مدلهایی میانجامد که بیشتر در معرض تولید محتوای خطرناک هستند. هوش مصنوعی به طور پیوسته از سرورهای فضای ابری غولپیکر به فناوریهای روزمره مانند گوشیهای هوشمند، خودروها و فناوریهای خانگی منتقل میشود. دانشمندان «دانشگاه کالیفرنیا» برای جلوگیری از تولید محتوای خطرناک به روش جدیدی دست پیدا کردند.
به نقل از آیای، مدلها اغلب برای ممکن ساختن این امر و صرفهجویی در انرژی و قدرت پردازش، سادهسازی میشوند. چالش اصلی اینجاست که سادهسازی این سامانهها و حذف یک سری از عوامل همیشه جنبه زیباییشناختی ندارد و گاهی اوقات این عوامل همان حفاظهایی هستند که برای مسدود کردن خروجیهای مضر مانند نفرتپراکنی یا توصیههای مجرمانه طراحی شدهاند و در نتیجه ممکن است ضعیف شوند یا از بین بروند. این امر موجب از بین رفتن امنیت در این سامانهها میشود.
مدلهای «منبع باز»(Open-source) این خطر را تشدید میکنند. این مدلها میتوانند مطالب را آزادانه دانلود کرده، تغییر دهند و به صورت آفلاین اجرا کنند که نوآوری سریع را ممکن میسازد، اما لایههای نظارتی را حذف میکند. نسخههای سادهسازی شده بدون نظارت و محافظهایی که به آنها متکی هستند، بیشتر در معرض دستکاری و سوءاستفادههای احتمالی قرار میگیرند و چالشهایی را در مورد نحوه برقراری تعادل میان دسترسی و ایمنی مطرح میکنند.
سرعت فدای امنیت میشود
پژوهشگران دانشگاه کالیفرنیا دریافتند همان لایههایی که برای مسدود کردن خروجیهای مضر در نظر گرفته شدهاند، اغلب اولین چیزهایی هستند که تحت عنوان کارآیی بیشتر حذف میشوند. این نسخههای سادهسازی شده ممکن است سریعتر اجرا شوند و حافظه کمتری مصرف کنند، اما خطرات بیشتری را نیز به همراه دارند. «آمیت روی-چودحوری»(Amit Roy-Chowdhury)، استاد مهندسی برق و رایانه و پژوهشگر ارشد این پروژه توضیح داد: برخی از این لایههای حذف شده برای جلوگیری از خروجیهای ناامن حیاتی هستند. مدل ممکن است بدون وجود آنها، شروع به پاسخ دادن به سؤالاتی کند که هرگز نباید به آنها دسترسی داشته باشد.
پژوهشگران برای مقابله با این چالش، هوش مصنوعی را از ریشه، طراحی مجدد کردند. آنها به جای تکیه بر فیلترهای اضافی یا اصلاحات سریع نرمافزاری، ساختار اصلی مدل را از ابتدا آموزش دادند تا حتی پس از سادهسازی برای فناوریهای کوچکتر، همچنان بتواند دستورات خطرناک را تشخیص داده و مسدود کند. این رویکرد نحوه تفسیر محتوای خطرناک توسط مدل را در اساس آن تغییر میدهد و تضمین میکند که محافظها حتی زمانی که کارایی آن نیاز به حذف لایهها دارد، دست نخورده باقی بمانند.
مدلهای جدید، دستورات خطرناک را مسدود میکنند
پژوهشگران قصد داشتند اطمینان حاصل کنند که مدلهای هوش مصنوعی حتی پس از کاهش اندازه ساختار اصلی خود، رفتار ایمن خود را حفظ میکنند. آزمایشات آنها نشان داد که ترکیبات خاصی مانند یک تصویر بیضرر همراه با یک سوال مضر میتوانند از فیلترهای ایمنی مدل عبور کنند. مدل سادهسازی شده در یک آزمایش، دستورالعملهای گام به گام برای ساخت بمب را تولید کرد. مدل هوش مصنوعی جدید پس از بازآموزی، به طور مداوم سؤالات خطرناک را مسدود کرد. دانشمندان، درک داخلی مدل را تغییر دادند و اطمینان حاصل کردند که به طور پیشفرض و حتی زمانی که برای دستگاههای کممصرف کوچک میشود، ایمن عمل میکند.
دانشمندان رویکرد خود را نوعی «هک خیرخواهانه» مینامند که به تقویت سامانههای هوش مصنوعی قبل از سوءاستفاده از نقاط ضعف کمک میکند. این تیم قصد دارد این روش را بیشتر پیش ببرد و رویکردهایی را توسعه دهد که ایمنی را در هر لایه داخلی جاسازی میکند. آنها با این کار امیدوارند مدلهای هوش مصنوعی را در شرایط واقعی مقاومتر و قابل اعتمادتر کنند. «روی-چودحوری» خاطرنشان کرد: این رویکرد اگرچه راه طولانی در پیش دارد، اما گامی مشخص در جهت توسعه هوش مصنوعی است که هم برای نوآوری آماده و هم به طور مسئولانهای طراحی شده است.
منبع: ایسنا