پلتفرم انویدیا بلکول
مهندسان انودیا در چهار سخنرانی در این کنفرانس، جزئیات مربوط به پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform)، تحقیقات جدید در مورد خنکسازی مایع و عاملهای هوش مصنوعی برای پشتیبانی از طراحی تراشهها را تشریح کردند.
نکات مهم سخنرانی انودیا در کنفرانس Hot Chips 2024
در کنفرانس Hot Chips 2024، شرکتها به تشریح دستاوردهای مهم خود در حوزه تراشهها و تاثیر آنها بر دنیای مراکز داده پرداختند. در این کنفرانس، مهندسان ارشد انودیا به جزییات بیشتری در ارتباط با پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform) اشاره داشتند. نکات مهم مطرح شده از سوی این شرکت به شرح زیر است:
- پلتفرم انویدیا بلکول: چند تراشه، سیستم و نرمافزار NVIDIA CUDA را با هدف بهبود و تقویت عملکرد نسل بعدی مدلهای هوش مصنوعی مولد به شکل یکپارچه در اختیار سازمانها قرار خواهد داد.
- NVIDIA GB200 NVL72: یک راهکار چند گرهای و مبتنی بر خنکسازی مایع در مقیاس رک است که 72 عددGPU Blackwell و 36 عدد CPU Grace را به هم متصل میکند تا به این شکل استانداردهای طراحی سیستم هوش مصنوعی را ارتقا میدهد.
- فناوری اتصال NVLink: ارتباط میان پردازندههای گرافیکی را برقرار میکند و امکان انجام استنتاج با توان عملیاتی بسیار بالا و تاخیر کم برای هوش مصنوعی مولد را فراهم میکند.
- سیستم NVIDIA Quasar Quantization: محدودیتهای فیزیکی در ارتباط با سرعت بخشیدن به انجام محاسبات هوش مصنوعی را به شکل قابل توجهی کمتر از گذشته میکند.
- پژوهش: محققان انودیا در حال ساخت مدلهای هوش مصنوعی هستند که به این شرکت در ساخت پردازندههای مخصوص هوش مصنوعی کمک خواهد کرد.
پلتفرم انویدیا بلکول در Hot Chips 2024
پیشبینی میشود که NVIDIA Blackwell در سال 2025 فروش بالایی را نصیب انودیا کند. این شرکت در کنفرانس Hot Chips 2024، بیشتر به معرفی معماری پلتفرم مذکور پرداخت. Blackwell زیرساختی است که بسیاری از متخصصان در صنعت منتظر عرضه آن هستند. همچنین، انودیا در بخشی از کنفرانس به نقشه راه جدید مرکز داده خود اشاره کرد که نکات قابل تاملی دارد.
انودیا به جای آنکه بیشتر در ارتباط با پردازندههای گرافیکی منفرد صحبت کند، تصمیم گرفت در ارتباط با خوشههایی که برای هوش مصنوعی مورد استفاده قرار میگیرند، صحبت کند. انودیا نه تنها بر ساخت خوشه سختافزاری تمرکز دارد، بلکه نرمافزار را نیز با کتابخانههای بهینهسازی شده طراحی میکند که سازگار با محصولاتش هستند.
پلتفرم انویدیا بلکول (NVIDIA Blackwell Platform) مبتنی بر توان محاسباتی CPU و GPUو انواع مختلف شبکههای مورد استفاده برای ارتباطات گسترده است که مشتمل بر تراشهها، رکها و ارتباطات بین آنها است و محدود به یک پردازنده گرافیکی نیست.
GPU طراحی شده توسط این شرکت کمی بزرگ است. یکی از ویژگیهای مهم آن، اتصال NVLink-C2C به پردازنده Grace است.
همچنین، انودیا اعلام کرده است که پردازنده گرافیکی جدید، بالاترین عملکرد را برای انجام محاسبات سنگین ارائه میدهد.
انویدیا از رابط پهنباند بالای انویدیا (NV-HBI) استفاده میکند تا بتواند به پهنای باند 10 ترابایت بر ثانیه بین دو تراشه GPU دست پیدا کند.
سوپرچیپ NVIDIA GB200 شامل یک پردازنده مرکزی NVIDIA Grace و دو پردازنده گرافیکی NVIDIA Blackwell در یک پلتفرم نیمعرض است. قرار دادن دو سوپرتراشه در این پلتفرمها و کنار هم به این معنی است که هر محفظه محاسباتی دارای چهار پردازنده گرافیکی و دو پردازنده Arm است.
انویدیا دقت محاسبات را به FP4 و FP6 کاهش داده است. کاهش دقت محاسبات، یک روش شناخته شده برای افزایش کارایی است.
انویدیا میگوید که در برخی موارد، دقت محاسباتی FP4 برای اجرای مدلهای یادگیری ماشین (Inference) میتواند به اندازهی دقت BF16 کارایی داشته باشد.
اکنون PHY اهمیت زیادی برای این شرکت پیدا کرده است، زیرا بخشی از راز موفقیت انویدیا توانایی ارسال دادهها بین بخشهای مختلف سیستمها از طریق NVLink با کارایی بیشتر نسبت به سایر فناوریها است.
NVLink Switch Chip و NVLink switch tray برای انتقال حجم عظیمی از دادهها با مصرف انرژی کمتر نسبت به استفاده از یک راهکار آماده مانند Ethernet طراحی شدهاند. NVLink از سال 2016 با هشت GPU تا 72 عدد GPU در نسل فعلی، در زمینه انجام محاسبات با کمترین مصرف انرژی مورد استفاده قرار گرفته است. همچنین، انودیا در کنفرانس امسال به رونمایی از GB200 NVL72 و NVL36 پرداخت. NVL36 نسخه 36 پردازنده گرافیکی برای مراکز دادهای است که نمیتوانند رکهای 120 کیلووات را داشته باشند.
ترکیب Spectrum-X، Spectrum-4 (شبیه به Marvell Teralynx 10، یک سوئیچ اترنت 51.2T) به همراه BlueField-3، یک راهکار ترکیبی برای شبکهسازی RDMA روی اترنت ارائه میدهند. به نوعی، انودیا در حال کار روی برخی از فناوریهایی است که کنسرسیوم UltraEthernet در نظر دارد در نسلهای آینده به معرفی آنها بپردازد. لازم به توضیح است که GB200 NVL72 برای مدلهای هوشمند تریلیون پارامتری طراحی شده است که با افزایش اندازه مدلها، تقسیم بار کاری بین چند GPU را ضروری میکنند.
در این کنفرانس، انودیا اسلایدی را به نمایش گذاشت که نقشه راه جدید این شرکت را نشان میدهد. با 1.6T ConnectX-9 که قرار است در سال 2026 عرضه شود، انودیا به این نکته اشاره دارد که نیاز به PCIe Gen7 ضروری است، زیرا PCIe Gen6 x16 نمیتواند اتصالات شبکه 1.6 ترابیت را مدیریت کند.
کلام آخر
آنچه تا حدودی جالب است این است که ما شاهد برگزاری کنفرانسی هستیم که شتابدهندههای هوش مصنوعی زیادی در آن معرفی شدهاند. در عین حال، NVIDIA نه تنها خوشهها را میسازد، بلکه همه چیز را نیز بهینهسازی میکند، از جمله ارتباطات، تراشههای سوئیچ و حتی مدلهای استقرار. یک چالش برای استارتآپهای هوش مصنوعی این است که انودیا نه تنها تراشهها، سوئیچها، NICها و موارد دیگر را میسازد، بلکه تحقیقات مرزی انجام میدهد تا محصولات نسل بعدی خود را مطابق با نیازهای مدلهای آینده در سطح خوشه طراحی کند. این کار بزرگی است که تنها شرکتهای محدودی قادر به انجام آن هستند.