بازگشت OpenAI به مدلهای وزن باز، gpt-oss-120b و gpt-oss-20b برای کارتهای گرافیک با تنها 16 گیگابایت حافظه منتشر شدند
OpenAI پس از رونمایی از مدل هوش مصنوعی جدید خود، GPT-5، دو مدل هوش مصنوعی وزن باز یا Open-weight را هم منتشر کرد که به گونهای طراحی شدهاند تا بر روی کارتهای گرافیک عادی و در رده Consumer نیز قابل اجرا باشند. مدل هوش مصنوعی جدید gpt-oss-20b به گونهای بهینه شده که بر روی کارتهای با 16 گیگابایت حافظه قابل اجرا باشد و برای اجرای مدل قدرتمندتر gpt-oss-120b نیز به کارتهای با 80 گیگابایت حافظه نیاز خواهد بود.
مدلهای وزن باز در واقع همان مدلهای هوش مصنوعی هستند که علاوه بر امکان استفاده آزادانه، وزنها یا پارامترهای آموزش دیده آنها نیز در دسترس توسعه دهندگان قرار میگیرد. این یعنی برنامهنویسان و پژوهشگران میتوانند مدل را به صورت آزادانه اجرا و حتی آن را دوباره آموزش دهند، بهینهسازی کنند یا برای کاربردهای خاص خود تغییر دهند، بدون اینکه وابسته به سرورهای شرکت سازنده باشند. این رویکرد شباهت زیادی به مفهوم متن باز در نرم افزار دارد، اما تفاوت در این است که در مدلهای وزن باز، لزوماً داده آموزش و کد اجرای مدل متن باز نیست و تمرکز اصلی روی آزاد بودن خود وزنها و پارامترها است.
براساس گزارش Tomshardware، شرکت OpenAI آخرین بار در سال ۲۰۱۹ و با انتشار مدل GPT-2، مدلهای وزن باز را در اختیار عموم کاربران و توسعه دهندگان قرار داده بود. اما اکنون با معرفی مدلهای gpt-oss-120b و gpt-oss-20b، دوباره به این رویکرد بازگشته است. بنا به گفته OpenAI هردوی این مدلها از معماری Transformer با رویکرد mixture-of-experts استفاده میکنند؛ رویکردی که چندی قبل با مدل هوش مصنوعی DeepSeek R1 محبوبیت پیدا کرد.
با وجود اینکه دو مدل هوش مصنوعی gpt-oss-120b و gpt-oss-20b با هدف استفاده بر روی کارتهای گرافیک رده Consumer طراحی و بهینهسازی شدهاند اما هردو دارای حداکثر Context Lengths برابر با 131072 هستند که در نوع خود طولانیترین مقدار موجود برای مدلهای Local است. مدل gpt-oss-120b برای هر توکن 5.1 میلیارد پارامتر را فعال میکند و در سمت دیگر gpt-oss-20b نیز قادر است برای هر توکن 3.6 میلیارد پارامتر را در اختیار بگیرد.
هر دوی این مدلها از معماری استدلال Chain-of-Thought نیز بهره میبرند که به صورت ترکیبی بر استدلال، کارایی و کاربردپذیری تمرکز دارد. گفته میشود مدل gpt-oss-120b عملکردی تقریباً مشابه با مدل هوش مصنوعی o4-mini در معیارهای اصلی دارد، اما میتواند تمام این کارها را روی یک GPU با حافظه ۸۰ گیگابایتی انجام دهد. مدل gpt-oss-20b نیز عملکردی مشابه مدل o3-mini ارائه میدهد، در حالی که میتواند روی کارتهایی با تنها ۱۶ گیگابایت حافظه اجرا شود. OpenAI تصمیم گرفته دو مدل جدید خود را به صورت وزن باز و متن باز عرضه کند تا پذیرش آنها در بازارهای نوظهور و بخشهایی که توان استفاده از مدلهای انحصاری را ندارند، افزایش یابد.
در ارزیابیهایی که OpenAI انجام داده است، مدل gpt-oss-120b توانست عملکردی بهتر از o3-mini و برابر یا بهتر از o4-mini در حوزههایی مانند کدنویسی، حل مسائل عمومی و فراخوانی ابزارها ارائه دهد. این مدل همچنین در پرسشهای مرتبط با سلامت و ریاضیات نیز موفق شد عملکردی بهتر از o4-mini داشته باشد. مدل gpt-oss-20b هم دقیقاً همین الگوی عملکرد را در برابر o3-mini تکرار کرده و به همین شکل در حوزههای گوناگون عملکرد بهتری را نسبت به آن به نمایش گذاشته است.
این دو مدل جدید OpenAI هم اکنون تحت مجوز متن باز Apache 2.0 در دسترس هستند. OpenAI با شرکتهای متعددی همکاری کرده است تا از مدلهای جدید خود در پلتفرمهای گوناگون مانند ONNX Runtime، Azure، AWS و Ollama پشتیبانی کند. انتظار میرود در آینده نزدیک این مدلهای هوش مصنوعی از طریق این پلتفرمها در دسترس عموم کاربران قرار بگیرند.
منبع: https://www.shahrsakhtafzar.com/fa/news/57182-openai-two-open-weight-language-models-consumer-gpu-gpt-oss-120b-20b