نقص طراحی تراشههای Blackwell تقصیر ما بود، نه TSMC
مدیرعامل انویدیا اعلام کرد که نقص طراحی بزرگی که منجر به خرابی بخش عظیمی از پردازندههای Blackwell این شرکت در مرحله تولید شده بود، ماهها پیش برطرف شده و نسخه بهبودیافته تراشههای B100 و B200 اکنون بهصورت انبوه تولید میشوند. هوانگ همچنین تأکید کرد که این مشکل کاملاً ناشی از اشتباه انویدیا بوده و شرکت TSMC، شریک تولیدی این شرکت، کمک کرده تا این مشکل بهموقع رفع شود.
هوانگ در گفتگویی با رویترز گفت: «ما یک نقص طراحی در تراشههای Blackwell داشتیم که به لحاظ عملکردی مشکل نداشت، اما این نقص باعث کاهش سهم تراشههای سالم از ویفرهای تولیدی میشد. این مسئله کاملاً تقصیر انویدیا بود.»
اعتراف انویدیا به بی تقصیر بودن TSMC
بهدنبال انتشار گزارشهایی در مورد این نقص طراحی، برخی از رسانهها بهاشتباه TSMC را مقصر دانستند و حتی مطرح کردند که این مسئله ممکن است به رابطه انویدیا با این شریک بزرگ تیم سبز آسیب برساند. اما هوانگ این ادعاها را تکذیب کرد و گفت که اشتباهات محاسباتی انویدیا عامل اصلی مشکل بوده و اخبار مربوط به تنش بین این دو شرکت را «جعلی» خواند.
تراشههای Blackwell B100 و B200 انویدیا با استفاده از فناوری بستهبندی CoWoS-L شرکت TSMC تولید میشوند که به این تراشهها اجازه میدهد با سرعت انتقال داده حدود ۱۰ ترابایت بر ثانیه کار کنند. یکی از عوامل اصلی در این فناوری، محل قرارگیری دقیق پلهای سیلیکونی (LSI) است. با این حال، عدم هماهنگی در خصوصیات انبساط حرارتی بین دایهای GPU، پلهای LSI، و سایر اجزای تراشه منجر به تاب برداشتن سیستم و در نهایت از کار افتادن آن میشد. به گفته منابعی، انویدیا مجبور شد لایههای بالایی و نقاط اتصال سیلیکون GPU را برای بهبود بازده تولید اصلاح کند. اگرچه جزئیات دقیقی از این اصلاحات فاش نشده، انویدیا اعلام کرد که این فرایند نیازمند طراحی و بکارگیری ماسکهای لیتوگرافیکی جدید بوده است.
مسائل مربوط به سهم پایین تراشههای سالم و مشکلات عملکردی در صنعت نیمههادی پدیده نادری نیستند. معمولاً شرکتها با تغییر در لایههای فلزی تراشه این مشکلات را برطرف میکنند و نسخهای جدید از تراشه خود را تولید میکنند. بهعنوان نمونه، شرکت اینتل برای رفع ۵۰۰ نقص گزارششده در پردازندههای Sapphire Rapids خود، حدود ۱۲ نسخه جدید طراحی کرده است. هر نسخه جدید حدود سه ماه زمان میبرد تا بهطور کامل طراحی، اصلاح و تولید شود. از این منظر، سرعت انویدیا و TSMC در رفع نقص تراشههای Blackwell بسیار چشمگیر بوده است.
در همین رابطه بخوانید:
– انویدیا مشکل تراشههای Blackwell را حل کرد
– انویدیا: قیمت پردازندههای فوق سریع Blackwell نجومی و به 2.5 میلیارد تومان میرسد!
– دردسرهای خرابی شتاب دهنده گرانقیمت H100 80GB انویدیا برای متا
نسخههای اصلاحشده تراشههای Blackwell که برای هوش مصنوعی و ابررایانهها طراحی شدهاند، اواخر اکتبر وارد تولید انبوه میشوند و انتظار میرود اوایل سال آینده وارد بازار شوند. با این وجود، انویدیا اوایل امسال اعلام کرده بود که برای برآورده کردن نیاز شرکتهای بزرگ ارائهدهنده خدمات ابری نظیر AWS، گوگل و مایکروسافت، مجبور خواهد بود در سال ۲۰۲۴ تعدادی از تراشههای Blackwell با بازده پایین را نیز ارسال کند. هنوز مشخص نیست چه تعداد از این تراشهها در سال ۲۰۲۴ به دیتاسنترها ارسال خواهند شد.
منبع: https://www.shahrsakhtafzar.com/fa/news/graphic-card/53097-nvidia-jensen-huang-ai-chip-design-flaw-nvidia-fault