گوگل از مدل جدید «Gemini 2.5» رونمایی کرد؛ توانایی فعالیت مستقیم در وب

گوگل با معرفی نسخه پیش‌نمایش مدل «Gemini 2.5 Computer Use» فصل تازه‌ای در تعامل هوش مصنوعی و وب گشود؛ مدلی که می‌تواند مانند انسان در مرورگر کلیک کند، تایپ کند و میان صفحات حرکت کند تا به داده‌هایی فراتر از دسترسی API‌ها برسد.

ظهیر کیانی5 ساعت پیشآخرین بروزرسانی: ۱۷ مهر ۱۴۰۴

گوگل از مدل جدید «Gemini 2.5» رونمایی کرد؛ توانایی فعالیت مستقیم در وب

به نقل از ورج، شرکت گوگل اخیراً نسخه پیش‌نمایش مدل جدید هوش مصنوعی خود با عنوان «Gemini 2.5 Computer Use» را معرفی کرده است؛ مدلی که قادر است مستقیماً از طریق مرورگر وب فعالیت کند و اقداماتی همچون کلیک، پیمایش (اسکرول) و تایپ را در محیط مرورگر انجام دهد تا به داده‌هایی دست یابد که از طریق API در دسترس نیستند.

این مدل نوآورانه به گونه‌ای طراحی شده است که عامل‌های هوش مصنوعی (AI Agents) بتوانند در رابط‌های کاربری وب که برای انسان ساخته شده‌اند، تعامل واقعی داشته باشند، به این ترتیب عملیات‌هایی نظیر پر کردن فرم‌ها، جست‌وجو در صفحات وب و تعامل با اجزای مختلف سایت‌ها به‌صورت خودکار توسط مدل امکان‌پذیر می‌شود.

همچنین بخوانید: حالت تمرین Google Translate؛ رقیب جدی دولینگو!

گامی مهم در جهت اجرای وظایف انسانی

گوگل اعلام کرده است که Gemini 2.5 با بهره‌گیری از قابلیت «درک بصری و استدلال هوشمند» می‌تواند بر اساس فرمان‌های کاربر، تصمیم بگیرد چه اقداماتی انجام دهد. این قابلیت، گامی مهم در جهت اجرای وظایفی محسوب می‌شود که تاکنون تنها توسط انسان ممکن بود.

طبق توضیحات گوگل، عملکرد مدل به محیط مرورگر محدود است و امکان کنترل سیستم‌عامل یا دسترسی در سطح OS را ندارد، این نسخه از ۱۳ نوع عمل کاربری پشتیبانی می‌کند که شامل باز کردن تب‌های جدید مرورگر، تایپ متن، درگ و دراپ و سایر تعاملات وبی است، این مدل از طریق پلتفرم‌های Google AI Studio و Vertex AI در اختیار توسعه‌دهندگان قرار گرفته و نسخه‌ای نمایشی از آن نیز در Browserbase عرضه شده است. در این نسخه دمو، کاربران می‌توانند ببینند چگونه مدل، کارهایی مانند اجرای بازی «۲۰۴۸» یا مرور اخبار سایت «Hacker News» را به‌صورت خودکار انجام می‌دهد.

گوگل مدعی است Gemini 2.5 در آزمون‌های مربوط به عملکرد در محیط‌های وب و موبایل، نسبت به سایر مدل‌های مطرح بازار برتری قابل توجهی نشان داده است. با این حال، به دلیل محدود بودن به محیط مرورگر، هنوز قابلیت کنترل مستقیم سیستم‌عامل را ندارد،در حالی‌که رقبایی مانند OpenAI و Anthropic نیز نسخه‌هایی از مدل‌های هوش مصنوعی خود را با قابلیت تعامل با محیط‌های کامپیوتری معرفی کرده‌اند، تفاوت اصلی گوگل تمرکز بر تعامل مستقیم در فضای وب و طراحی برای رابط‌های انسانی است.

کارشناسان معتقدند معرفی Gemini 2.5 می‌تواند آغازگر نسلی تازه از عامل‌های هوشمند باشد که قادرند وظایف پیچیده را در محیط‌های فاقد API انجام دهند و فصل جدیدی در تعامل میان انسان و ماشین رقم بزنند.

منبع: ایمنا

ظهیر کیانی5 ساعت پیشآخرین بروزرسانی: ۱۷ مهر ۱۴۰۴