گوگل از مدل جدید «Gemini 2.5» رونمایی کرد؛ توانایی فعالیت مستقیم در وب
گوگل با معرفی نسخه پیشنمایش مدل «Gemini 2.5 Computer Use» فصل تازهای در تعامل هوش مصنوعی و وب گشود؛ مدلی که میتواند مانند انسان در مرورگر کلیک کند، تایپ کند و میان صفحات حرکت کند تا به دادههایی فراتر از دسترسی APIها برسد.

به نقل از ورج، شرکت گوگل اخیراً نسخه پیشنمایش مدل جدید هوش مصنوعی خود با عنوان «Gemini 2.5 Computer Use» را معرفی کرده است؛ مدلی که قادر است مستقیماً از طریق مرورگر وب فعالیت کند و اقداماتی همچون کلیک، پیمایش (اسکرول) و تایپ را در محیط مرورگر انجام دهد تا به دادههایی دست یابد که از طریق API در دسترس نیستند.
این مدل نوآورانه به گونهای طراحی شده است که عاملهای هوش مصنوعی (AI Agents) بتوانند در رابطهای کاربری وب که برای انسان ساخته شدهاند، تعامل واقعی داشته باشند، به این ترتیب عملیاتهایی نظیر پر کردن فرمها، جستوجو در صفحات وب و تعامل با اجزای مختلف سایتها بهصورت خودکار توسط مدل امکانپذیر میشود.
همچنین بخوانید: حالت تمرین Google Translate؛ رقیب جدی دولینگو!
گامی مهم در جهت اجرای وظایف انسانی
گوگل اعلام کرده است که Gemini 2.5 با بهرهگیری از قابلیت «درک بصری و استدلال هوشمند» میتواند بر اساس فرمانهای کاربر، تصمیم بگیرد چه اقداماتی انجام دهد. این قابلیت، گامی مهم در جهت اجرای وظایفی محسوب میشود که تاکنون تنها توسط انسان ممکن بود.
طبق توضیحات گوگل، عملکرد مدل به محیط مرورگر محدود است و امکان کنترل سیستمعامل یا دسترسی در سطح OS را ندارد، این نسخه از ۱۳ نوع عمل کاربری پشتیبانی میکند که شامل باز کردن تبهای جدید مرورگر، تایپ متن، درگ و دراپ و سایر تعاملات وبی است، این مدل از طریق پلتفرمهای Google AI Studio و Vertex AI در اختیار توسعهدهندگان قرار گرفته و نسخهای نمایشی از آن نیز در Browserbase عرضه شده است. در این نسخه دمو، کاربران میتوانند ببینند چگونه مدل، کارهایی مانند اجرای بازی «۲۰۴۸» یا مرور اخبار سایت «Hacker News» را بهصورت خودکار انجام میدهد.
گوگل مدعی است Gemini 2.5 در آزمونهای مربوط به عملکرد در محیطهای وب و موبایل، نسبت به سایر مدلهای مطرح بازار برتری قابل توجهی نشان داده است. با این حال، به دلیل محدود بودن به محیط مرورگر، هنوز قابلیت کنترل مستقیم سیستمعامل را ندارد،در حالیکه رقبایی مانند OpenAI و Anthropic نیز نسخههایی از مدلهای هوش مصنوعی خود را با قابلیت تعامل با محیطهای کامپیوتری معرفی کردهاند، تفاوت اصلی گوگل تمرکز بر تعامل مستقیم در فضای وب و طراحی برای رابطهای انسانی است.
کارشناسان معتقدند معرفی Gemini 2.5 میتواند آغازگر نسلی تازه از عاملهای هوشمند باشد که قادرند وظایف پیچیده را در محیطهای فاقد API انجام دهند و فصل جدیدی در تعامل میان انسان و ماشین رقم بزنند.
منبع: ایمنا