
انودیا تغییر بسیار بزرگی در پلتفرم HGX B300 خود ایجاد کرده است. اولین تغییر، نامگذاری جدید است. بهطوری که از این پس، پلتفرم جدید، NVIDIA HGX B300 NVL16 نامیده میشود، زیرا انودیا در نظر دارد برای معرفی ویژگیهای سختافزاری پلتفرم خود به تعداد هستههای محاسباتی که از طریق NVLink به هم متصل شدهاند اشاره میکند، نه تعداد بستههای GPU. موضوع زمانی جالبتر میشود که بدانید تولیدکنندگان سرور در تلاش هستند تا راهی برای جای دادن زیرسیستم جدید پیدا کنند و بتوانند از مزایای این محصول قدرتمند به بهترین شکل بهرهمند شوند.
شایان ذکر است که سوئیچهای NVLink در واقع اتصالات پرسرعتی هستند که توسط انودیا توسعه داده شدهاند تا ارتباط مستقیم بین پردازندههای گرافیکی (GPU) را داخل و بین سرورها ممکن سازند. برخلاف سوئیچهای PCIe معمولی، NVLink پهنای باند بسیار بالاتر و تاخیر کمتری ارائه میدهند که برای حجمهای کاری سنگینی مانند هوش مصنوعی، یادگیری عمیق و محاسبات با کارایی بالا حیاتی است. این سوئیچها از تراشه NVSwitch انویدیا استفاده میکنند و امکان ایجاد سیستمهای چند پردازنده گرافیکی کاملا متصل را فراهم میآورند، جایی که هر پردازنده گرافیکی میتواند با سرعتهای فوقالعاده بالا، تا چندین ترابیت در ثانیه پهنای باند دوطرفه، با دیگر پردازندههای گرافیکی ارتباط برقرار کند. سوئیچهای NVLink با دور زدن پردازنده مرکزی برای انتقال داده بین GPUها و ارائه ویژگیهایی مانند یکپارچگی حافظه کش، مقیاسپذیری را بهبود میبخشند، کارایی سیستم را افزایش میدهند و محاسبات پیچیده را تسریع میکنند، به همین دلیل برای ساخت خوشههای قدرتمند GPU و پلتفرمهای ابررایانه ضروری هستند.
NVIDIA HGX B300 NVL16 به طرز چشمگیری متفاوت است
اگر مطالب منتشر شده در ارتباط با مقایسه پلتفرمهایی مثل NVIDIA DGX و NVIDIA HGX را مطالعه کرده باشید، به خوبی میدانید که به لحاظ برخی از جزییات فنی، تفاوتها خیلی زیاد نبود و پلتفرمها تا حدودی شبیه به HGX B200 بودند. اکنون با ورود NVIDIA HGX B300 NVL16 به دنیای فناوری، همه چیز در حال تغییر است. روی این برد، ما تا 2.3 ترابایت حافظه HBM3e داریم. در تصویر زیر میتوانیم شانزده ماژول بسته دوتایی GPU Blackwell را مشاهده کنیم، اما اتفاقات بزرگتری در حال رخ دادن است.

سال گذشته شاهد تغییر تراشههای NVIDIA NVLink Switch در HGX B200 بودیم. به طوری که دو تراشه NVLink switch را مشاهده کردیم که درست در وسط هشت بسته GPU قرار دارند. این معماری مشابه چیزی است که در تصویر پایین و پلتفرم HGX B200 مشاهده میکنیم و اکنون در پلتفرم جدید نیز مورد استفاده قرار گرفته است.

ما میتوانیم هشت برج بزرگ هیتسینک خنککننده هوامحور را مشاهده کنیم که هر کدام دو GPU Blackwell را خنک میکنند. همچنین، در وسط، بخش مربوط به سوئیچهای NVLink قرار دارد. در نگاه اول، ممکن است این تغییر بسیار ساده به نظر برسد، اما ظرافتهای خاص خود را دارد.

در انتها، میتوانیم کانکتورهای نوع OCP UBB با پوششهای نارنجی بزرگ را ببینیم. نکته مهمی که باید در ارتباط با کانکتورهای با چگالی بالا که ایامدی، انودیا و دیگران به عنوان بخشی از مشخصات OCP UBB استفاده میکنند به آن توجه داشته باشید این است که کانکتورهای مذکور بسیار شکنندهاند، بنابراین مهم است که هنگام عدم استفاده، پوشش روی آنها باشد.

بین این کانکتورهای پوشیده شده با رنگ نارنجی و هیتسینکهای بزرگ GPU، هیتسینکهای کوچکتری قرار دارند. این هیتسینکها به جای اینکه برای Retimerهای PCIe باشند، اکنون برای کارتهای شبکه NVIDIA ConnectX-8 هستند.

کانکتورهای کارتهای شبکه بین کانکتورهای UBB و هشت کارت شبکه NVIDIA ConnectX-8 که روی UBB تعبیه شدهاند، قرار گرفتهاند. در تصویر زیر نمای مشابهی از HGX H200 را مشاهده میکنید که در آن هشت کانکتور وجود دارد که البته رو به بالا نیستند.

انودیا میتواند از سوئیچ PCIe داخلی در ConnectX-8 استفاده کند تا عملکردی را ارائه دهد که قبلا به تراشههای دیگری نیاز داشت. ممکن است این موضوع مهم به نظر نرسد، اما برای صنعت، این استراتژی، تغییرات اساسی و بزرگی را به وجود میآورد. به عنوان مثال، در ارتباط با محصول ASUS XA NB3I-E12 میتوانید هشت اتصال شبکه را روی سینی HGX با تحرکپذیری در اختیار داشته باشید که در امتداد پایین سیستم قرار دارند.

فروشندگان مختلف طراحیهای سینی متفاوتی دارند. اغلب، قسمتهایی که به سمت بدنه خارجی شاسی قرار میگیرند، در مقابل کارتهای شبکه ConnectX-8 قرار دارند، بنابراین کابلکشی باید این فاصله را پر کند. همین مسئله باعث شده تا فروشندگان دیگر نیز در تلاش باشند تا چنین معماری را در محصولات خود پیادهسازی کنند.
کلام آخر
در نگاه اول ممکن است این تغییرات کوچک به نظر برسند، اما برای شرکتی مثل انودیا یک استراتژی بزرگ به شمار میروند. این بازطراحی جدید، از جهاتی طراحی سیستمها را سادهتر میکند. در عین حال، اگر از پلتفرمهای NVIDIA HGX B300 یا NVIDIA GB200/GB300 استفاده میکنید، به خاطر طراحی جدیدی که یکپارچه شده، مجبور خواهید بود برای ارتباط بین پردازندههای گرافیکی در سرور (که به آن شبکه “شرقی-غربی” میگویند) از محصولات خود انودیا استفاده کنید. شبکههای ارتباطی با سرورهای دیگر و خارج از آن (که به آن شبکه “شمالی-جنوبی” میگویند) هنوز انتخابهای بیشتری دارند، اما این یک تغییر بزرگ اعمال شده از سمت شرکت انودیا در نسل HGX B300 است. انودیا در تلاش است قطعات سیلیکونی بیشتری برای پردازش گرافیکی روی این پلتفرم قرار میدهد، اما در عین حال، انتخاب شما برای نحوه اتصال این پردازندهها به هم را محدود میکند. همچنین، باید به این نکته اشاره داشته باشیم که چنین تغییری در طراحی سیستم، کار را برای شرکتهایی مثل Broadcom و Astera Labs و بقیه سختتر خواهد کرد.
با توجه به معماری جدیدی که NVIDIA HGX B300 NVL16 بر مبنای آن طراحی شده است، باید بگوییم که این شرکت بازار قطعات PCIe Retimer، سوئیچ PCIe و کارت شبکه هوش مصنوعی را به هم خواهد زد. انودیا در اینجا حرکت پیشدستانهای بر علیه شرکتهای Broadcom، Astera Labs و Marvell انجام داد که ممکن است در بلندمدت به نفع شرکتهای تولید کننده کابل تمام شود. همچنین، همانگونه که اشاره کردیم، انتقال سوئیچهای NVLink به مرکز GPUها با HGX B200 اتفاق افتاد که خبر بزرگی است. با این حال، تغییرات دیگری نیز اعمال شده که تاثیر قابل توجهی بر سایر تامینکنندگان سیلیکون خواهد داشت، زیرا تغییر در معماری باعث خواهد شد تا شرکای تجاری به سختی قادر به سازگاری محصولات خود با پلتفرم جدید شوند.
نویسنده: حمیدرضا تائبی