15 مهر 1404
این متن، عوامل پیشرفته هوش مصنوعی را معرفی میکند که قادر به کنترل مرورگرهای وب برای اجرای وظایف پیچیده هستند. این عوامل را با Operator اختصاصی OpenAI و جایگزین متنباز و رایگان آن، Browser Use، مقایسه میکند. در ادامه، به بررسی قابلیتها، فرآیندهای راهاندازی و عملکرد واقعی آنها از طریق نمایشها و تستهای مقایسهای مختلف میپردازد.

اکنون عوامل هوش مصنوعی میتوانند وظایف پیچیده وب را انجام دهند، مانند یافتن محصولات خاص در سایتهای تجارت الکترونیک، تأیید عملکرد آنها و افزودن آنها به سبد خرید، که به طور موثر به عنوان یک دستیار دیجیتال هوشمند عمل میکنند.
Operator OpenAI یک پیشنمایش تحقیقاتی برای کنترل مرورگر توسط هوش مصنوعی است که منحصراً برای کاربران Pro با هزینه ۲۰۰ دلار در ماه در دسترس است، اگرچه عملکرد آن گاهی اوقات میتواند ناسازگار باشد.
Browser Use یک جایگزین چشمگیر، رایگان و متنباز است که هوش مصنوعی را قادر میسازد تا یک مرورگر وب را کنترل کند، از میزبانی محلی و مدلهای هوش مصنوعی محلی پشتیبانی میکند، و نسخه پولی آن با ادعای ۲٪ عملکرد بهتر نسبت به Operator با هزینه ماهانه بسیار پایینتر (۳۰ دلار) عرضه میشود.
Browser Use قابلیتهای برنامهنویسی برای توسعه عوامل هوش مصنوعی ارائه میدهد و شامل یک رابط کاربری وب (Web UI) کاربرپسند برای راهاندازی آسان است که نیاز به Python 3.11+، یک محیط مجازی، وابستگیهای خاص (مانند Playwright) و یک فایل محیطی برای پیکربندی کلیدهای API برای مدلهای مختلف هوش مصنوعی (Ollama, OpenAI, Anthropic) دارد.
تستهای اولیه نشان دادند که مدلهای هوش مصنوعی محلی مانند Quinn از Ollama با برخی وظایف مشکل داشتند، در حالی که مدلهای قدرتمندتر مانند DeepSeek R1 14B و گزینههای مبتنی بر ابر مانند Claude 3.5 Sonnet از Anthropic، سرعت و دقت بالاتری را در ناوبری وب و اجرای وظایف نشان دادند.
مقایسه مستقیم شامل ایجاد یک VPS در Hostinger نشان داد که Browser Use، با بهرهگیری از مرورگرِ وارد شده کاربر، در تعیین مقادیر دچار مشکل شد، در حالی که OpenAI Operator اغلب نیاز به دخالت دستی داشت و قابلیت اطمینان پایینتری از خود نشان داد، از جمله گزارش نادرست اتمام وظیفه.
یک مزیت کلیدی Browser Use، توانایی آن در استفاده از مرورگر موجود کاربر است که جلسات وارد شده و دسترسی به مدیریت رمز عبور را حفظ میکند، برخلاف OpenAI Operator که در یک محیط مرورگر ایزوله و غیرشخصی عمل میکند.
OpenAI Operator ثابت کرد که قادر به حل CAPTCHA نیست، در حالی که Browser Use، با استفاده از مدل محلی DeepSeek، سعی کرد با رابط CAPTCHA تعامل کند و یک فرآیند یادگیری اکتشافی را نشان داد، حتی اگر در این نمایش به راهحل قطعی نرسید.
این فناوری پتانسیل عظیمی برای خودکارسازی طیف گستردهای از وظایف و توسعه عوامل هوش مصنوعی سفارشی دارد، اما همچنین نگرانیهای امنیتی قابل توجهی را در مورد سوءاستفاده احتمالی آن برای خودکارسازی فرآیندهای هک ایجاد میکند.
پروژه Browser Use یک راهکار قدرتمند و بسیار قابل تنظیم متنباز برای خودکارسازی مرورگر با هوش مصنوعی ارائه میدهد که قادر به اجرای وظایف پیچیده وب به صورت محلی یا از طریق مدلهای هوش مصنوعی مبتنی بر ابر است.
| Feature/Aspect | OpenAI Operator Details | Browser Use Details |
|---|---|---|
| قابلیت کنترل مرورگر توسط هوش مصنوعی | به هوش مصنوعی اجازه میدهد تا مرورگر را برای تکمیل وظایف کنترل کند. | هوش مصنوعی را قادر میسازد تا مرورگر را به صورت برنامهنویسی کنترل کند؛ رابط کاربری وب (Web UI) ارائه میدهد. |
| دسترسی و هزینه | پیشنمایش تحقیقاتی، فقط برای کاربران Pro (۲۰۰ دلار در ماه). | رایگان و متنباز؛ نسخه پولی (۳۰ دلار در ماه) با حمایت Y Combinator در دسترس است. |
| استقرار | مبتنی بر ابر. | قابل میزبانی به صورت محلی؛ از مدلهای هوش مصنوعی محلی (Ollama) پشتیبانی میکند. |
| یکپارچهسازی مرورگر | از یک مرورگر جداگانه و ایزوله استفاده میکند (بدون ورودهای ذخیره شده). | میتواند از مرورگر خود کاربر استفاده کند (جلسات وارد شده، مدیریت رمز عبور را حفظ میکند). |
| پشتیبانی از LLM | به طور ضمنی از مدلهای OpenAI استفاده میکند. | از مدلهای محلی Ollama (مانند DeepSeek, Quinn) و APIهای ابری (OpenAI, Anthropic) پشتیبانی میکند. |
| عملکرد وظیفه (پیچیده) | میتواند 'ناپایدار' باشد، اغلب نیاز به راهنمایی دستی دارد، قابلیت اطمینان کمتری در وظایف پیچیده مانند ایجاد VPS دارد. | برنامهنویسیتر، قادر به انجام وظایف پیچیده، عملکرد با LLM متفاوت است، اما میتواند در جزئیات (مثلاً مقدار) اشتباه کند. |
| حل CAPTCHA | قادر به حل CAPTCHA نیست. | تلاش میکند تا با CAPTCHA تعامل کند، یادگیری را نشان میدهد، اما راهحل را تضمین نمیکند. |
| سهولت راهاندازی (محلی) | عمدتاً از طریق ابر قابل دسترسی است؛ راهاندازی محلی کاربرد ندارد. | نیاز به Python، محیطهای مجازی، وابستگیها، کلیدهای API دارد؛ راهاندازی محلی برای برخی ترجیح داده میشود تا Docker. |
