شرکت OpenAI دیروز (۱۸ ژولای ۲۰۲۴) مدل GPT-40 Mini را معرفی کرد. شرکت OpenAI به طور سنتی بر روی مدلهای بزرگ زبان (LLMها) تمرکز کرده است که نیاز به توان محاسباتی زیادی دارند و هزینههای قابل توجهی برای استفاده از آنها وجود دارد. اما با این نسخه، آنها به طور رسمی به قلمروی مدلهای کوچک زبان (SLMها) وارد شده و با مدلهایی مانند Llama 3، Gemma 2 و Mistral رقابت میکنند.
OpenAI مدل GPT-40 Mini را، یک مدل کوچک زبان (SLM)، معرفی کرده که با مدلهایی مانند Llama 3 و Mistral رقابت میکند.این مدل از ورودیهای متنی و تصویری پشتیبانی میکند و برنامههایی برای پشتیبانی از صوت و ویدئو در آینده دارد. GPT-40 Mini در بنچمارکهای استدلال، ریاضی و کدنویسی عملکردی برجسته دارد و از پیشینیان و رقبای خود بهتر عمل میکند. این مدل در خدمات API OpenAI با قیمتهایبسیار مناسبی در دسترس است، که هوش مصنوعی پیشرفته را برای عموم بیشتر قابل دسترس میکند.
مقایسه عملکرد GPT-40 Mini
OpenAI به طور قابل توجهی عملکرد مدل GPT-40 Mini را در مجموعهای از بنچمارکهای استاندارد مختلف، که بر وظایف متنوعی تمرکز دارند، آزمایش کرده است و این مدل را با چندین مدل زبان بزرگ (LLM) دیگر، از جمله Gemini، Claude و مدلهای قبلی خود، یعنی GPT-3.5 و GPT-40، مقایسه کرده است.
OpenAI ادعا میکند که GPT-40 Mini در بنچمارکهای هوش متنی، استدلال چندوجهی، مهارت ریاضی و توانایی کدنویسی بهطور قابلتوجهی بهتر از GPT-3.5 Turbo و سایر مدلها عمل میکند. همانطور که در تصویر بالا میبینید، GPT-40 Mini در چندین بنچمارک کلیدی ارزیابی شده است، از جمله:
– استدلال:
GPT-40 Mini در وظایف استدلالی که شامل متن و تصویر است، عملکرد بهتری دارد و در مجموعه داده Massive Multitask Language Understanding، که بنچمارک هوش متنی و استدلالی است، امتیاز ۸۲.۰% را کسب کرده است، در مقایسه با ۷۷.۹% برای Gemini Flash و ۷۳.۸% برای Claude Haiku.
– مهارت ریاضی:
در بنچمارک Multilingual Grade School Math، که مهارتهای ریاضی را با استفاده از مسائل ریاضی ابتدایی اندازهگیری میکند، GPT-40 Mini امتیاز ۸۷.۰% را کسب کرده است، در مقایسه با ۷۵.۵% برای Gemini Flash و ۷۱.۷% برای Claude Haiku.
– مهارت کدنویسی:
GPT-40 Mini در بنچمارک HumanEval، که مهارت کدنویسی را با بررسی صحت عملکردی برای تولید برنامهها از توضیحات مستندات اندازهگیری میکند، امتیاز ۸۷.۲% را کسب کرده است، در مقایسه با ۷۱.۵% برای Gemini Flash و ۷۵.۹% برای Claude Haiku.
– استدلال چندوجهی:
GPT-40 Mini همچنین عملکرد قوی در بنچمارک Massive Multi-discipline Multimodal Understanding، یک بنچمارک استدلال چندوجهی، نشان میدهد و امتیاز ۵۹.۴% را کسب کرده است، در مقایسه با ۵۶.۱% برای Gemini Flash و ۵۰.۲% برای Claude Haiku.
همچنین ما تحلیلهای دقیق و مقایسههایی که توسط Artificial Analysis، یک سازمان مستقل که اطلاعات بنچمارک و مرتبط با مدلهای زبان بزرگ (LLM) و مدلهای زبان کوچک (SLM) را ارائه میدهد، انجام شده است. این تصویر به وضوح نشان میدهد که چگونه GPT-40 Mini بر ارائه پاسخهای با کیفیت با سرعت بالا تمرکز دارد، در مقایسه با اکثر مدلهای دیگر.
ویژگی های مدل GPT-4o mini
علاوه بر عملکرد مدل از نظر کیفیت نتایج، عوامل دیگری نیز وجود دارند که معمولاً هنگام انتخاب یک مدل زبان بزرگ (LLM) یا کوچک (SLM) مورد توجه قرار میگیرند، از جمله سرعت پاسخدهی و هزینه. با در نظر گرفتن این عوامل، مقایسههای متنوعی انجام میشود، از جمله سرعت خروجی مدل، که اساساً بر تعداد توکنهای خروجی در هر ثانیه که در حین تولید توکنها دریافت میشود تمرکز دارد. این اعداد براساس سرعت میانه در بین همه ارائهدهندگان است و طبق مشاهدات، به نظر میرسد GPT-40 Mini بالاترین سرعت خروجی را دارد، که بسیار جالب است، همانطور که در تصویر زیر مشاهده میشود.
در اینجا، قیمتگذاری بر حسب ورودیها و پاسخهای خروجی به صورت دلار آمریکا برای هر ۱ میلیون توکن نشان داده شده است.