چگونه با وجود تمام تحریمها، مدل هوش مصنوعی چینی DeepSeek توانست OpenAI را به چالش بکشد؟
اخیراً شرکت تحقیقاتی DeepSeek از چین مدلی جدید و متنباز به نام DeepSeek-R1 را معرفی کرد که به سرعت توجهها را در سیلیکون ولی جلب کرده است. این مدل توانسته است در بسیاری از معیارهای حیاتی مانند توانمندی، هزینه و قابلیت باز بودن، رقبای بزرگی مانند مدلهای OpenAI و Meta را به چالش بکشد. اینطور که پیداست این مدل هوش مصنوعی چینی موفقیت خود را مدیون بیش از 50000 هزار تراشه H100 انویدیاست
در دنیای هوش مصنوعی، نامهای بزرگی مانند OpenAI و Meta همواره در صدر رقابت قرار دارند، اما اخیراً یک شرکت چینی به نام DeepSeek توانسته است با انتشار مدل جدید خود DeepSeek-R1 نگاهها را به سمت خود جلب کند. این مدل، که در 20 ژانویه 2025 معرفی شد، در برخی از تستهای عملکردی موفق شده است مدلهای مطرح غربی مانند OpenAI’s o1 را پشت سر بگذارد. موفقیت DeepSeek نشاندهندهی تغییری اساسی در استراتژی رقابتی چین در برابر محدودیتهای اعمالشده توسط ایالات متحده در حوزهی فناوری است.
با وجود تحریمهای شدید و محدودیتهای صادراتی بر روی چیپهای پیشرفته مانند NVIDIA H100، مدل DeepSeek توانسته است با بهرهگیری از راهکارهای نوین نرمافزاری، مدلهای خود را بهینهسازی کرده و بدون نیاز به مقادیر نامحدود سختافزار، به نتایجی چشمگیر دست یابد. این موفقیت میتواند معادلات رقابت جهانی در حوزهی هوش مصنوعی را تغییر دهد و جایگاه چین را به عنوان یکی از قدرتهای برتر در این صنعت تثبیت کند.
راهبرد منحصر به فرد DeepSeek: بهینهسازی منابع نرمافزاری
موفقیت DeepSeek نشاندهندهی نتیجهای غیرمنتظره از جنگ سرد تکنولوژیک میان ایالات متحده و چین است. محدودیتهای صادراتی که ایالات متحده برای شرکتهای چینی اعمال کرده است، امکان رقابت این شرکتها را در زمینهی هوش مصنوعی به شیوهی غربی محدود کرده است.
این به این معناست که شرکتهای چینی نمیتوانند مانند رقبای غربی با خرید چیپهای گرانقیمت و آموزش مدلهای پیچیده برای مدت زمان طولانی به توسعهی فناوریهای خود بپردازند. در نتیجه، بیشتر شرکتهای چینی بر روی استفاده از مدلهای آماده و تمرکز بر روی اپلیکیشنها متمرکز شدهاند. اما DeepSeek با راهبردی متفاوت نشان داده که میتوان با استفادهی بهینه از منابع محدود، ساختار مدلهای هوش مصنوعی را بازبینی کرده و به موفقیتهای چشمگیری دست یافت.
Marina Zhang، استاد دانشگاه صنعتی سیدنی، معتقد است که DeepSeek برخلاف بسیاری از رقبای چینی خود که به شدت به سختافزارهای پیشرفته وابسته هستند، بر بهینهسازی منابع نرمافزاری تمرکز کرده است. این رویکرد باعث شده تا DeepSeek قادر باشد به راحتی از محدودیتها عبور کند و تکنولوژیهای پیشرفتهای را توسعه دهد.
شکلگیری DeepSeek: از یک صندوق سرمایهگذاری به یک آزمایشگاه پیشرفته AI
تاریخچهی DeepSeek از جایی آغاز میشود که بنیانگذار آن، Liang Wenfeng، که پیش از این به عنوان مدیر صندوق سرمایهگذاری کمی High-Flyer شناخته میشد، تصمیم گرفت تا منابع صندوق را برای ساخت مدلهای پیشرفته هوش مصنوعی به کار گیرد. این صندوق، که در سال 2015 تأسیس شده بود، به سرعت یکی از بزرگترین صندوقهای کمی در چین تبدیل شد و بیش از 100 میلیارد یوان (حدود 15 میلیارد دلار) سرمایه جذب کرد.
در سال 2023، Liang تصمیم گرفت که به جای تمرکز بر روی سرمایهگذاریهای تجاری، DeepSeek را به منظور ساخت مدلهای هوش مصنوعی پیشرفته و حتی هوش مصنوعی عمومی (AGI) راهاندازی کند. او در این باره میگوید که انگیزهاش برای ایجاد DeepSeek از کنجکاوی علمی بود نه سود تجاری. او تصریح میکند که تحقیقات علمی در زمینهی هوش مصنوعی بازده مالی کمی دارند و این امر سبب شده تا DeepSeek بیشتر به دستاوردهای علمی و تحقیقاتی توجه کند.
چالشها و ابتکارات DeepSeek در مواجهه با محدودیتهای صادراتی
یکی از مشکلات اصلی DeepSeek، مانند بسیاری از شرکتهای چینی دیگر، محدودیتهای صادراتی آمریکا در زمینهی دسترسی به چیپهای پیشرفته نظیر H100 از شرکت NVIDIA بود. در حالی که این شرکت با ذخیرهسازی 10,000 چیپ H100 کار خود را آغاز کرده بود، این محدودیتها به سرعت نیاز این شرکت به چیپهای بیشتر را به چالش کشید.
برای غلبه بر این مشکل، DeepSeek به راهکارهای بهینهسازی مدل و استفاده از معماریهای کارآمدتر متوسل شد. این شرکت توانست با استفاده از تکنیکهای مهندسی مانند طرحهای ارتباطی سفارشی میان چیپها و کاهش اندازهی فیلدها برای صرفهجویی در حافظه، مدلهای خود را به گونهای بهینهسازی کند که تنها یک دهم منابع مورد نیاز برای آموزش مدلهای مشابه شرکتهای رقیب مانند Meta’s Llama 3.1 را مصرف کند.
این نوآوریها به DeepSeek این امکان را داد تا بدون نیاز به منابع بیپایان، مدلهای پیشرفتهای مانند DeepSeek-R1 را ایجاد کند. به گفتهی Wendy Chang، مهندس نرمافزار و تحلیلگر سیاست در موسسه Mercator، ترکیب این تکنیکها در یک مدل پیشرفته، دستاورد قابل توجهی است و نشان میدهد که ساخت مدلهای پیشرفته میتواند با استفاده از منابع کمتر به دست آید.
در همین رابطه بخوانید:
– هوش مصنوعی چیست و چرا آینده بسیاری از علوم خواهد بود؟
– هوش مصنوعی جامع (AGI) چیست و چرا باید نگران آن باشیم؟
– هوش مصنوعی پیش بین چیست و چطور کار میکند؟
دستاوردهای DeepSeek و تاثیر آن بر صنعت هوش مصنوعی جهانی
با انتشار مدل DeepSeek-R1، این شرکت چینی نشان داده است که با بهینهسازی منابع و استفاده از تکنیکهای نوآورانه، میتوان به نتایج شگفتانگیزی در زمینهی هوش مصنوعی دست یافت. این مدل به حدی توانمند است که در تستهای «Humanity’s Last Exam» که سوالات دشواری از رشتههای مختلف علمی همچون ریاضیات، فیزیک، زیستشناسی و شیمی را دربرمیگیرد، توانسته است بهترین عملکرد را ارائه دهد و حتی مدلهای پیشرفتهای چون OpenAI o1 را به چالش بکشد.
این موفقیت همچنین برای شرکتهای چینی دیگر به عنوان یک الگو به حساب میآید و ممکن است فشار بیشتری بر روی سیاستهای محدودکننده صادرات ایالات متحده وارد کند. Alexandr Wang، بنیانگذار Scale AI، به CNBC گفته است که ممکن است تصور کنیم که دسترسی چینیها به چیپهای پیشرفته محدود است، اما طبق اطلاعات وی، DeepSeek دسترسی به بیش از 50,000 چیپ H100 دارد که این نشاندهندهی قدرت این شرکت در استفاده از منابع در دسترس است.
در نهایت، با توجه به اینکه DeepSeek تصمیم گرفته است مدلهای خود را به صورت متنباز منتشر کند، این شرکت توانسته است در جامعهی تحقیقاتی جهانی اعتماد بسیاری کسب کند. این امر میتواند به سرعت روند پیشرفت فناوریهای نوین را تسریع کند و تاثیرات عمیقی در رقابت جهانی بر جای بگذارد.
در نهایت باید در نظر داشت موفقیت DeepSeek و مدل DeepSeek-R1 نشاندهندهی قدرت و توانمندی شرکتهای چینی در حوزهی هوش مصنوعی است. این دستاورد نه تنها به شکلی چشمگیر محدودیتهای فناوریهای سختافزاری را پشت سر گذاشته است، بلکه همچنین نشاندهندهی یک تحول عمیق در نحوهی توسعهی مدلهای هوش مصنوعی در آینده است. با ادامهی این روند، به نظر میرسد که رقابت میان چین و ایالات متحده در زمینهی هوش مصنوعی وارد فازی جدید و چالشبرانگیز خواهد شد.
منبع: https://www.shahrsakhtafzar.com/fa/news/technology/54466-deep-seel-llm-model-open-source-nvidia-h100-gpus