هوش‌یار۲۴ | هوش مصنوعی فارسی

مدل OpenAI o3 پیامی از آینده است: هر آنچه درباره هوش مصنوعی می‌دانید را به‌روز کنید

فهرست مطالب

OpenAI رویداد دوازده روزه کریسمس خود را با یک اعلان بزرگ به پایان رساند. در روز اول، آنها نسخه کامل اولین مدل هوش مصنوعی استدلالی خود، o1 را راه‌اندازی کردند و آنها گام بعدی خود را فاش کردند: o3، دومین مدل هوش مصنوعی استدلالی آنها، و o3-mini، نسخه کوچکتر و سریعتری که برای کدنویسی ساخته شده است.

عملکرد o3 در مسائل ریاضی، کدنویسی، علوم و استدلال باورنکردنی است. گفتن اینکه o3 پیشرفته‌ترین فناوری (SOTA) است، خیلی دور از ذهن نیست.  OpenAI o3 نه تنها تاج SOTA را ربود، بلکه امید رقبا برای بازپس‌گیری آن در آینده نزدیک را کاملاً از بین برد.

از جنبه دیگری نیز این اعلامیه یک پیشرفت بزرگ بود. چطور OpenAI توانست نسخه اول یک نوع جدید از مدل هوش مصنوعی را در ۵ دسامبر منتشر کند و نسخه بعدی را در ۲۰ دسامبر اعلام کند؟ پانزده روز بعد.

البته آنها هنوز باید آزمایش ایمنی و ارزیابی امنیتی را انجام دهند. فعلاً، باید منتظر بمانیم تا معجزه o3 را لمس کنیم. (OpenAI گفت که o3-mini اول منتشر خواهد شد، زمانی در سه ماهه اول سال ۲۰۲۵، و به دنبال آن کمی بعد o3).

کد نویسی با OpenAI o3

OpenAI مدل o3 را در زمینه مهندسی نرم‌افزار (با استفاده از SWE-bench Verified) و Codeforces آزمایش کرد. این نتایج در مقایسه با o1 و o1-preview به شرح زیر است:

SWE-bench Verified یک ارزیابی متمرکز است که بر اساس SWE-bench انجام می‌شود. سؤالات، مشکلات معمولی هستند که مهندسان نرم‌افزار در کار روزمره خود با آنها روبرو می‌شوند (مسائل GitHub).

ریاضیات و علوم با OpenAI o3

OpenAI مدل o3 را در زمینه ریاضیات مسابقه‌ای (AIME 2024) و سؤالات علمی سطح دکترا که “غیرقابل جستجو در گوگل” هستند (GPQA Diamond) آزمایش کرد. نتایج در مقایسه با o1 و o1-preview ارائه شده است.

برای مقایسه، خوب است بدانید که افراد با مدرک PhD به طور متوسط در زمینه تخصصی خود ۷۰% امتیاز می‌گیرند.

جمع بندی

در یک نگاه کلی مدل o3 را با سایر مدلهای زبانی میتوانیم بصورت زیر مقایسه کنیم:

منبع: thealgorithmicbridge.com 

 

به اشتراک بگذارید

مقالات مرتبط

پیمایش به بالا