
NVIDIA DGX Station GB300
در جریان کنفرانس NVIDIA GTC 2025، فرصتی دست داد تا نگاهی نزدیک به سینی سوئیچ NVIDIA GB300 NVLink داشته باشیم. این سوئیچ که فرآیند دفع گرمای آن از طریق مکانیزم سرمایش مایع انجام میشود، در میان بردهای محاسباتی GB300 قرار میگیرد. برخلاف بسیاری از محصولات امروزی، این سوئیچها برای استقرار در رکهای NVL72 طراحی شدهاند که مکانیزم سرمایش آنها مایعمحور است.
NVIDIA GB300 NVLink Switch چیست؟
NVIDIA GB300 NVLink Switch یک مولفه حیاتی در معماری محاسباتی نسل جدید انودیا، به ویژه پلتفرم GB300 و رکهای NVL72 است. سوئیچ NVLink به عنوان یک اتصالدهنده پرسرعت و کمتاخیر بین بردهای محاسباتی GB300 عمل میکند و امکان تبادل دادههای حجیم با کارایی بسیار بالا را فراهم میسازد، که برای کاربردهای محاسباتی فشرده مانند آموزش مدلهای هوش مصنوعی در مقیاس بزرگ ضروری است. طراحی این سوئیچ به طور خاص برای قرارگیری در رکهای متراکم NVL72 بهینه شده و از خنککننده مایع برای مدیریت حرارت تولید شده بهره میبرد. برخلاف بسیاری از سوئیچهای سنتی که از خنککنندههای هوا-محور استفاده میکنند، اتکا به خنککننده مایع در GB300 NVLink Switch امکان دستیابی به تراکم بالاتر مولفهها و در نتیجه، قدرت محاسباتی بیشتر در فضای کمتر را فراهم میآورد. ساختار این سوئیچ شامل صفحات سرد برای انتقال حرارت از چیپهای NVLink و لولههای فلزی برای انتقال مایع خنککننده است که در مقایسه با شلنگهای لاستیکی رایج در سرورهای خنکشونده با مایع، دوام و اطمینان بیشتری را ارائه میدهد. در قسمت زیرین این محفظه، مولفههای کنترلی از جمله یک حافظه SSD از نوع M.2 برای مدیریت عملکرد سوئیچ قرار گرفتهاند. اگرچه انودیا در نمایشگاه GTC 2025 بسیاری از لوگوهای روی مدلهای نمایشی خود را پوشانده بود، اما برخی از اجزای کلیدی مانند تراشههای Marvell و Lattice قابل شناسایی بودند که نشاندهنده پیچیدگی و استفاده از فناوریهای پیشرفته در طراحی این سوئیچ است. به طور کلی، NVIDIA GB300 NVLink Switch نقش محوری در فعالسازی قابلیتهای محاسباتی پیشرفته در نسل جدید رکهای NVL72 ایفا میکند و تعهد انودیا به خنکسازی مایع به عنوان یک عامل کلیدی در دستیابی به عملکرد و تراکم بالا در این معماری را برجسته میسازد، روندی که با حرکت به سوی معماری Rubin نیز اهمیت بیشتری خواهد یافت.
معماری روبین (Rubin)
معماری روبین، نسل آتی پردازندههای گرافیکی انویدیا و جانشین بلکول، با تمرکز ویژه بر هوش مصنوعی و ارتباط با پردازنده مرکزی آرم است که انتظار میرود در ماههای منتهی به سال 2025 و سال ۲۰۲۶ با حافظه HBM4 انقلابی در عملکرد ایجاد کند. این معماری که انتظار میرود عملکردی دو برابر بلکول در محاسبات هوش مصنوعی ارائه دهد و از اتصال داخلی NVLink 6 و طراحی چند تراشهای بهره ببرد، با وجود چالشهای احتمالی در مصرف بالا و پیچیدگی ساخت ۳ نانومتری TSMC، نویدبخش پیشرفتهای چشمگیر در زمینه محاسبات با کارایی بالا و هوش مصنوعی و مقیاسپذیری بینظیر برای ابررایانهها است، در حالی که نسخه قدرتمندتر آن، روبین اولترا، برای سال ۲۰۲۷ برنامهریزی شده است.
NVIDIA GB300 NVLink Switch Tray
تصویر زیر شاسی سوئیچ GB300 NVLink را نشان میدهد. همانگونه که مشاهده میکنید، دستگیرهها در قسمت جلویی و نازلهای خنککننده مایع، اتصالات برق و کانکتورهای چهار کارتریج کابل NVLink در قسمت پشتی قرار گرفتهاند.

نکته جالب توجهی که در ارتباط با طراحی فوق وجود دارد این است که چیپهای سوئیچ NVLink با مایع خنک میشوند، اما تنها این قطعات نیستند که قرار است بر مبنای مکانیزم سرمایش مایعمحور خنک شوند.

در اینجا صفحات خنککننده برای بخش سوئیچ NVLink قابل مشاهده است. برد مدار چاپی (PCB) اصلی سوئیچ NVLink در مقایسه با عمق شاسی، نسبتا کوتاه است.

در تصویر زیر کابلهای توزیع برق را مشاهده میکنید.

در سرورهای مبتنی بر مکانیزم سرمایش مایعمحور رایج امروزی، از شلنگهای لاستیکی زیادی استفاده میشود. اما در این طراحی، عمدتا از لولههای فلزی بهره گرفته شده است. درست است که ویژگی فوق کوچک محسوب میشود، اما وجه تمایز این طراحی به شمار میرود.

در قسمت زیرین، برخی از مولفههای کنترلی، از جمله یک حافظه SSD از نوع M.2، قابل مشاهده است.

به طور کلی، انودیا در مراسم رونمایی بیشتر لوگوهای روی مدلهای نمایشی خود در GTC 2025 را پوشانده بود، اما دو تراشه Marvell 88E1514 و یک تراشه Lattice LCMXO3D-9400HC قابل تشخیص هستند.
کلام آخر
مقاله فوق صرفا نگاهی کوتاه به شاسی سوئیچ NVLink و مولفههای داخلی آن داشت که در رکهای جدیدتر GB300 NVL72 که در سال جدید شاهد عرضه آنها خواهیم بود، مورد استفاده قرار خواهند گرفت. در حال حاضر، بازار هنوز در حال به کارگیری رکهای GB200 NVL72 است. با این حال، تعهد انودیا به خنکسازی مایع، مشخصه اصلی این نسل است و با حرکت به سوی دوران Rubin، این روند تسریع خواهد یافت.
شایان ذکر است که انویدیا، GB200 NVL72 را به عنوان یک معماری پیشگام مطرح کرد که توانست سنگینترین بارهای کاری هوش مصنوعی و محاسبات با کارایی بالا را مهندسی کند و عملا به عنوان یک زیرساخت محاسباتی کارآمد عمل کند. این امر از طریق اتصال متقابل ۷۲ پردازنده گرافیکی NVIDIA Blackwell و ۳۶ پردازنده مرکزی NVIDIA Grace با استفاده از یک شبکه گسترده NVLink با پهنای باند قابل توجه ۱۳۰ ترابیت بر ثانیه محقق شد که امکان اشتراکگذاری حافظه و ارتباط با تاخیر کم را در بین تمام گرههای محاسباتی درون رک فراهم میکند. این معماری با ادغام تنگاتنگ، که اغلب دارای خنککننده مایع مستقیم برای مدیریت برق مصرفی (میتواند به ۱۲۰ کیلووات در هر رک برسد) است، هدفش ارائه عملکردی بیسابقه برای آموزش مدلهای هوش مصنوعی با تریلیونها پارامتر با توان عملیاتی بالا و بهرهوری انرژی به مراتب بهتر در مقایسه با نسلهای قبلی است. جالب آنکه، محصول فوق توانست عملکرد را تا ۳۰ برابر برای استنتاج مدلهای زبانی بزرگ (LLM) بهبود داده و کاهش چشمگیر هزینه و مصرف انرژی را ارائه دهد. این دستاورد درخشان باعث شد محصول فوق به سنگ بنای ساخت زیرساختهای هوش مصنوعی نسل بعدی در مراکز داده بزرگ و محیطهای ابری تبدیل شود. اکنون، انودیا پس از این دستاورد درخشان، در نظر دارد نسل بعدی را با ویژگیهای سختافزاری به مراتب کارآمدتر به بازار عرضه کند.
نویسنده: حمیدرضا تائبی