NVIDIA HGX B300 NVL16 زیرساختی شبیه به آسمان‌خراش‌های بزرگ

NVIDIA HGX B300 NVL16 زیرساختی شبیه به آسمان‌خراش‌های بزرگ
NVIDIA HGX B300 NVL16 زیرساختی شبیه به آسمان‌خراش‌های بزرگ
فهرست مطالب

انودیا تغییر بسیار بزرگی در پلتفرم HGX B300 خود ایجاد کرده است. اولین تغییر، نام‌گذاری جدید است. به‌طوری که از این پس، پلتفرم جدید، NVIDIA HGX B300 NVL16 نامیده می‌شود، زیرا انودیا در نظر دارد برای معرفی ویژگی‌های سخت‌افزاری پلتفرم خود به تعداد هسته‌های محاسباتی که از طریق NVLink به هم متصل شده‌اند اشاره می‌کند، نه تعداد بسته‌های GPU. موضوع زمانی جالب‌تر می‌شود که بدانید تولیدکنندگان سرور در تلاش هستند تا راهی برای جای دادن زیرسیستم جدید پیدا کنند و بتوانند از مزایای این محصول قدرتمند به بهترین شکل بهره‌مند شوند.

شایان ذکر است که سوئیچ‌های NVLink در واقع اتصالات پرسرعتی هستند که توسط انودیا توسعه داده شده‌اند تا ارتباط مستقیم بین پردازنده‌های گرافیکی (GPU) را داخل و بین سرورها ممکن سازند. برخلاف سوئیچ‌های PCIe معمولی، NVLink پهنای باند بسیار بالاتر و تاخیر کمتری ارائه می‌دهند که برای حجم‌های کاری سنگینی مانند هوش مصنوعی، یادگیری عمیق و محاسبات با کارایی بالا حیاتی است. این سوئیچ‌ها از تراشه NVSwitch انویدیا استفاده می‌کنند و امکان ایجاد سیستم‌های چند پردازنده گرافیکی کاملا متصل را فراهم می‌آورند، جایی که هر پردازنده گرافیکی می‌تواند با سرعت‌های فوق‌العاده بالا، تا چندین ترابیت در ثانیه پهنای باند دوطرفه، با دیگر پردازنده‌های گرافیکی ارتباط برقرار کند. سوئیچ‌های NVLink با دور زدن پردازنده مرکزی برای انتقال داده بین GPUها و ارائه ویژگی‌هایی مانند یکپارچگی حافظه کش، مقیاس‌پذیری را بهبود می‌بخشند، کارایی سیستم را افزایش می‌دهند و محاسبات پیچیده را تسریع می‌کنند، به همین دلیل برای ساخت خوشه‌های قدرتمند GPU و پلتفرم‌های ابررایانه ضروری هستند.

NVIDIA HGX B300 NVL16 به طرز چشمگیری متفاوت است

اگر مطالب منتشر شده در ارتباط با مقایسه پلتفرم‌هایی مثل NVIDIA DGX و NVIDIA HGX را مطالعه کرده باشید، به خوبی می‌دانید که به لحاظ برخی از جزییات فنی، تفاوت‌ها خیلی زیاد نبود و پلتفرم‌ها تا حدودی شبیه به HGX B200 بودند. اکنون با ورود NVIDIA HGX B300 NVL16 به دنیای فناوری، همه چیز در حال تغییر است. روی این برد، ما تا 2.3 ترابایت حافظه HBM3e داریم. در تصویر زیر می‌توانیم شانزده ماژول بسته دوتایی GPU Blackwell را مشاهده کنیم، اما اتفاقات بزرگ‌تری در حال رخ دادن است.

NVIDIA HGX B300 NVL16 زیرساختی شبیه به آسمان‌خراش‌های بزرگ
مشخصات فنی NVIDIA HGX B300 NVL16

سال گذشته شاهد تغییر تراشه‌های NVIDIA NVLink Switch در HGX B200 بودیم. به طوری که دو تراشه NVLink switch را مشاهده کردیم که درست در وسط هشت بسته GPU قرار دارند. این معماری مشابه چیزی است که در تصویر پایین و پلتفرم HGX B200 مشاهده می‌کنیم و اکنون در پلتفرم جدید نیز مورد استفاده قرار گرفته است.

NVIDIA HGX B300 NVL16 زیرساختی شبیه به آسمان‌خراش‌های بزرگ
نمایی از برد اصلی NVIDIA HGX B200 Ingrasys

ما می‌توانیم هشت برج بزرگ هیت‌سینک خنک‌کننده هوامحور را مشاهده کنیم که هر کدام دو GPU Blackwell را خنک می‌کنند. همچنین، در وسط، بخش مربوط به سوئیچ‌های NVLink قرار دارد. در نگاه اول، ممکن است این تغییر بسیار ساده به نظر برسد، اما ظرافت‌های خاص خود را دارد.

NVIDIA HGX B300 NVL16 زیرساختی شبیه به آسمان‌خراش‌های بزرگ
نمایی از NVIDIA HGX B300 NVL16

در انتها، می‌توانیم کانکتورهای نوع OCP UBB با پوشش‌های نارنجی بزرگ را ببینیم. نکته مهمی که باید در ارتباط با کانکتورهای با چگالی بالا که ای‌ام‌دی، انودیا و دیگران به عنوان بخشی از مشخصات OCP UBB استفاده می‌کنند به آن توجه داشته باشید این است که کانکتورهای مذکور بسیار شکننده‌اند، بنابراین مهم است که هنگام عدم استفاده، پوشش روی آن‌ها باشد.

NVIDIA HGX B300 NVL16 زیرساختی شبیه به آسمان‌خراش‌های بزرگ
کارت‌های شبکه (NIC) و کانکتورهای NVIDIA HGX B300 NVL16

بین این کانکتورهای پوشیده شده با رنگ نارنجی و هیت‌سینک‌های بزرگ GPU، هیت‌سینک‌های کوچک‌تری قرار دارند. این هیت‌سینک‌ها به جای اینکه برای Retimerهای PCIe باشند، اکنون برای کارت‌های شبکه NVIDIA ConnectX-8 هستند.

NVIDIA HGX B300 NVL16 زیرساختی شبیه به آسمان‌خراش‌های بزرگ
کارت‌های شبکه (NIC) و کانکتورهای NVIDIA HGX B300 NVL16

کانکتورهای کارت‌های شبکه بین کانکتورهای UBB و هشت کارت شبکه NVIDIA ConnectX-8 که روی UBB تعبیه شده‌اند، قرار گرفته‌اند. در تصویر زیر نمای مشابهی از HGX H200 را مشاهده می‌کنید که در آن هشت کانکتور وجود دارد که البته رو به بالا نیستند.

NVIDIA HGX B300 NVL16 زیرساختی شبیه به آسمان‌خراش‌های بزرگ
کانکتورهای 8 GPU Supermicro SYS 821GE TNHR NVIDIA HGX H200

انودیا می‌تواند از سوئیچ PCIe داخلی در ConnectX-8 استفاده کند تا عملکردی را ارائه دهد که قبلا به تراشه‌های دیگری نیاز داشت. ممکن است این موضوع مهم به نظر نرسد، اما برای صنعت، این استراتژی‌، تغییرات اساسی و بزرگی را به وجود می‌آورد. به عنوان مثال، در ارتباط با محصول ASUS XA NB3I-E12 می‌توانید هشت اتصال شبکه را روی سینی HGX با تحرک‌پذیری در اختیار داشته باشید که در امتداد پایین سیستم قرار دارند.

NVIDIA HGX B300 NVL16 زیرساختی شبیه به آسمان‌خراش‌های بزرگ
نمای جلویی ASUS XA NB3I E12 با NVIDIA HGX B300 NVL16

فروشندگان مختلف طراحی‌های سینی متفاوتی دارند. اغلب، قسمت‌هایی که به سمت بدنه خارجی شاسی قرار می‌گیرند، در مقابل کارت‌های شبکه ConnectX-8 قرار دارند، بنابراین کابل‌کشی باید این فاصله را پر کند. همین مسئله باعث شده تا فروشندگان دیگر نیز در تلاش باشند تا چنین معماری را در محصولات خود پیاده‌سازی کنند.

کلام آخر

در نگاه اول ممکن است این تغییرات کوچک به نظر برسند، اما برای شرکتی مثل انودیا یک استراتژی بزرگ به شمار می‌روند. این بازطراحی جدید، از جهاتی طراحی سیستم‌ها را ساده‌تر می‌کند. در عین حال، اگر از پلتفرم‌های NVIDIA HGX B300 یا NVIDIA GB200/GB300 استفاده می‌کنید، به خاطر طراحی جدیدی که یکپارچه شده، مجبور خواهید بود برای ارتباط بین پردازنده‌های گرافیکی در سرور (که به آن شبکه “شرقی-غربی” می‌گویند) از محصولات خود انودیا استفاده کنید. شبکه‌های ارتباطی با سرورهای دیگر و خارج از آن (که به آن شبکه “شمالی-جنوبی” می‌گویند) هنوز انتخاب‌های بیشتری دارند، اما این یک تغییر بزرگ اعمال شده از سمت شرکت انودیا در نسل HGX B300 است. انودیا در تلاش است قطعات سیلیکونی بیشتری برای پردازش گرافیکی روی این پلتفرم قرار می‌دهد، اما در عین حال، انتخاب شما برای نحوه اتصال این پردازنده‌ها به هم را محدود می‌کند. همچنین، باید به این نکته اشاره داشته باشیم که چنین تغییری در طراحی سیستم، کار را برای شرکت‌هایی مثل Broadcom و Astera Labs و بقیه سخت‌تر خواهد کرد.

با توجه به معماری جدیدی که NVIDIA HGX B300 NVL16 بر مبنای آن طراحی شده است، باید بگوییم که این شرکت بازار قطعات PCIe Retimer، سوئیچ PCIe و کارت شبکه هوش مصنوعی را به هم خواهد زد. انودیا در اینجا حرکت پیش‌دستانه‌ای بر علیه شرکت‌های Broadcom، Astera Labs و Marvell انجام داد که ممکن است در بلندمدت به نفع شرکت‌های تولید کننده کابل تمام شود. همچنین، همان‌گونه که اشاره کردیم، انتقال سوئیچ‌های NVLink به مرکز GPUها با HGX B200 اتفاق افتاد که خبر بزرگی است. با این حال، تغییرات دیگری نیز اعمال شده که تاثیر قابل توجهی بر سایر تامین‌کنندگان سیلیکون خواهد داشت، زیرا تغییر در معماری باعث خواهد شد تا شرکای تجاری به سختی قادر به سازگاری محصولات خود با پلتفرم جدید شوند.

نویسنده: حمیدرضا تائبی

اشتراک‌گذاری
مطالب مشابه
برای دریافت مشاوره و یا اطلاع از قیمت، با ما در تماس باشید.