Hot Chips 2024: معرفی پلتفرم انویدیا بلکول و متحول سازی مراکز داده

انویدیا پلتفرم بلکول
فهرست مطالب

پلتفرم انویدیا بلکول

مهندسان انودیا در چهار سخنرانی در این کنفرانس، جزئیات مربوط به پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform)، تحقیقات جدید در مورد خنک‌سازی مایع و عامل‌های هوش مصنوعی برای پشتیبانی از طراحی تراشه‌ها را تشریح کردند.

نکات مهم سخن‌رانی انودیا در کنفرانس Hot Chips 2024

در کنفرانس Hot Chips 2024، شرکت‌ها به تشریح دستاوردهای مهم خود در حوزه تراشه‌ها و تاثیر آن‌ها بر دنیای مراکز داده پرداختند. در این کنفرانس، مهندسان ارشد انودیا به جزییات بیشتری در ارتباط با پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform) اشاره داشتند. نکات مهم مطرح شده از سوی این شرکت به شرح زیر است:

  • پلتفرم انویدیا بلکول: چند تراشه، سیستم و نرم‌افزار NVIDIA CUDA را با هدف بهبود و تقویت عملکرد نسل بعدی مدل‌های هوش مصنوعی مولد به شکل یکپارچه در اختیار سازمان‌ها قرار خواهد داد.
  • NVIDIA GB200 NVL72: یک راهکار چند گره‌ای و مبتنی بر خنک‌سازی مایع در مقیاس رک است که 72 عددGPU Blackwell و 36 عدد CPU Grace را به هم متصل می‌کند تا به این شکل استانداردهای طراحی سیستم هوش مصنوعی را ارتقا می‌دهد.
  • فناوری اتصال NVLink: ارتباط میان پردازنده‌های گرافیکی را برقرار می‌کند و امکان انجام استنتاج با توان عملیاتی بسیار بالا و تاخیر کم برای هوش مصنوعی مولد را فراهم می‌کند.
  • سیستم NVIDIA Quasar Quantization: محدودیت‌های فیزیکی در ارتباط با سرعت بخشیدن به انجام محاسبات هوش مصنوعی را به شکل قابل توجهی کمتر از گذشته می‌کند.
  • پژوهش: محققان انودیا در حال ساخت مدل‌های هوش مصنوعی هستند که به این شرکت در ساخت پردازنده‌های مخصوص هوش مصنوعی کمک خواهد کرد.

پلتفرم انویدیا بلکول در Hot Chips 2024

پیش‌بینی می‌شود که NVIDIA Blackwell در سال 2025 فروش بالایی را نصیب انودیا کند. این شرکت در کنفرانس Hot Chips 2024، بیشتر به معرفی معماری پلتفرم مذکور پرداخت. Blackwell زیرساختی است که بسیاری از متخصصان در صنعت منتظر عرضه آن هستند. همچنین، انودیا در بخشی از کنفرانس به نقشه راه جدید مرکز داده خود اشاره کرد که نکات قابل تاملی دارد.

پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform)

انودیا به جای آن‌که بیشتر در ارتباط با پردازنده‌های گرافیکی منفرد صحبت کند، تصمیم گرفت در ارتباط با خوشه‌هایی که برای هوش مصنوعی مورد استفاده قرار می‌گیرند، صحبت کند. انودیا نه تنها بر ساخت خوشه سخت‌افزاری تمرکز دارد، بلکه نرم‌افزار را نیز با کتابخانه‌های بهینه‌سازی شده طراحی می‌کند که سازگار با محصولاتش هستند.

پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform)

پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform) مبتنی بر توان محاسباتی  CPU و GPUو انواع مختلف شبکه‌های مورد استفاده برای ارتباطات گسترده است که مشتمل بر تراشه‌ها، رک‌ها و ارتباطات بین آن‌ها است و محدود به یک پردازنده گرافیکی نیست.

پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform)

GPU طراحی شده توسط این شرکت کمی بزرگ است. یکی از ویژگی‌های مهم آن، اتصال NVLink-C2C به پردازنده Grace است.

پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform)

همچنین، انودیا اعلام کرده است که پردازنده گرافیکی جدید، بالاترین عملکرد را برای انجام محاسبات سنگین ارائه می‌دهد.

پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform)

انویدیا از رابط پهن‌باند بالای انویدیا (NV-HBI) استفاده می‌کند تا بتواند به پهنای باند 10 ترابایت بر ثانیه بین دو تراشه GPU دست پیدا کند.

پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform)

سوپرچیپ NVIDIA GB200 شامل یک پردازنده مرکزی NVIDIA Grace و دو پردازنده گرافیکی NVIDIA Blackwell در یک پلتفرم نیم‌عرض است. قرار دادن دو سوپرتراشه در این پلتفرم‌ها و کنار هم به این معنی است که هر محفظه محاسباتی دارای چهار پردازنده گرافیکی و دو پردازنده Arm است.

پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform)

انویدیا دقت محاسبات را به FP4 و FP6 کاهش داده است. کاهش دقت محاسبات، یک روش شناخته شده برای افزایش کارایی است.

پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform)

انویدیا می‌گوید که در برخی موارد، دقت محاسباتی FP4 برای اجرای مدل‌های یادگیری ماشین (Inference) می‌تواند به اندازه‌ی دقت BF16  کارایی داشته باشد.

پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform)

اکنون PHY اهمیت زیادی برای این شرکت پیدا کرده است، زیرا بخشی از راز موفقیت انویدیا توانایی ارسال داده‌ها بین بخش‌های مختلف سیستم‌ها از طریق NVLink با کارایی بیشتر نسبت به سایر فناوری‌ها است.

پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform)

NVLink Switch Chip و NVLink switch tray برای انتقال حجم عظیمی از داده‌ها با مصرف انرژی کمتر نسبت به استفاده از یک راهکار آماده مانند Ethernet طراحی شده‌اند. NVLink از سال 2016 با هشت GPU تا 72 عدد GPU در نسل فعلی، در زمینه انجام محاسبات با کمترین مصرف انرژی مورد استفاده قرار گرفته است. همچنین، انودیا در کنفرانس امسال به رونمایی از GB200 NVL72 و NVL36 پرداخت. NVL36 نسخه 36 پردازنده گرافیکی برای مراکز داده‌ای است که نمی‌توانند رک‌های 120 کیلووات را داشته باشند.

NVIDIA Blackwell Platform

ترکیب Spectrum-X، Spectrum-4 (شبیه به Marvell Teralynx 10، یک سوئیچ اترنت 51.2T) به همراه BlueField-3، یک راهکار ترکیبی برای شبکه‌سازی RDMA روی اترنت ارائه می‌دهند. به نوعی، انودیا در حال کار روی برخی از فناوری‌هایی است که کنسرسیوم UltraEthernet در نظر دارد در نسل‌های آینده به معرفی آن‌ها بپردازد. لازم به توضیح است که GB200 NVL72 برای مدل‌های هوشمند تریلیون پارامتری طراحی شده است که با افزایش اندازه مدل‌ها، تقسیم بار کاری بین چند GPU را ضروری می‌کنند.

NVIDIA Blackwell Platform

در این کنفرانس، انودیا اسلایدی را به نمایش گذاشت که نقشه راه جدید این شرکت را نشان می‌دهد. با 1.6T ConnectX-9 که قرار است در سال 2026 عرضه شود، انودیا به این نکته اشاره دارد که نیاز به PCIe Gen7 ضروری است، زیرا PCIe Gen6 x16 نمی‌تواند اتصالات شبکه 1.6 ترابیت را مدیریت کند.

NVIDIA Blackwell Platform

کلام آخر

آنچه تا حدودی جالب است این است که ما شاهد برگزاری کنفرانسی هستیم که شتاب‌دهنده‌های هوش مصنوعی زیادی در آن معرفی شده‌اند. در عین حال، NVIDIA نه تنها خوشه‌ها را می‌سازد، بلکه همه چیز را نیز بهینه‌سازی می‌کند، از جمله ارتباطات، تراشه‌های سوئیچ و حتی مدل‌های استقرار. یک چالش برای استارت‌آپ‌های هوش مصنوعی این است که انودیا نه تنها تراشه‌ها، سوئیچ‌ها، NICها و موارد دیگر را می‌سازد، بلکه تحقیقات مرزی انجام می‌دهد تا محصولات نسل بعدی خود را مطابق با نیازهای مدل‌های آینده در سطح خوشه طراحی کند. این کار بزرگی است که تنها شرکت‌های محدودی قادر به انجام آن هستند.

اشتراک‌گذاری:
برای ثبت نام در خبرنامه، عضو شوید.
مطالب مشابه
برای دریافت مشاوره و یا اطلاع از قیمت، با ما در تماس باشید.