Hot Chips 2024: ای‌ام‌دی از تراشه GPU MCM Instinct MI300X رونمایی کرد

تراشه GPU MCM Instinct MI300X
فهرست مطالب

تراشه GPU MCM Instinct MI300X

ای‌ام‌دی در جریان برگزاری کنفرانس Hot Chips 2024 از تراشه AMD MI300X رونمایی کرد. تراشه MI300X یا به عبارت کامل‌تر، تراشه GPU AMD Instinct MI300X CDNA 3 با هدف پاسخ‌گویی به نیازهای شرکت‌ها در ارتباط با هوش مصنوعی طراحی شده و مجهز به 320 واحد محاسباتی بر روی یک تراشه کامل است. AMD MI300X سومین نسل از شتاب‌دهنده‌های Instinct است که برای انجام محاسبات هوش مصنوعی طراحی شده است. این تراشه در نسخه MI300A نیز عرضه می‌شود که یک محصول بهینه‌سازی شده برای انجام فرامحاسبات-APU است و ترکیبی از هسته‌های Zen 5 در دو چیپلت را مورد استفاده قرار می‌دهد، در حالی که بقیه از هسته‌های GPU CDNA 3 استفاده می‌کنند.

تراشه GPU MCM Instinct MI300X

ای‌ام‌دی، در کنفرانس امسال، جزییات بیشتری در ارتباط با تراشه Instinct MI300X ارائه کرد که در نوع خود یک شتاب‌دهنده محاسباتی کاملا قدرتمند و پیشرفته به شمار می‌رود. برای شروع، باید بگوییم که AMD Instinct MI300X دارای مجموع 153 میلیارد ترانزیستور است که ترکیبی از گره‌های 6nm FinFET process و TSMC 5nm را ارائه می‌دهد.

تراشه GPU MCM Instinct MI300X

در معماری مذکور، هشت چپلت دارای چهار موتور مشترک هستند و هر موتور مشترک دارای 10 واحد محاسباتی است. کل تراشه دارای 40 موتور سایه‌زن در یک XCD منفرد است. هر XCD دارای حافظه نهان L2 اختصاصی مخصوص به خود است و حاشیه‌های تراشه دارای Infinity Fabric Link، 8 سایت ورودی/خروجی HBM3 و یک لینک PCIe Gen 5.0 منفرد با پهنای باند 128 گیگابایت/ثانیه است که MI300X را به یک پردازنده AMD EPYC متصل می‌کند.

تراشه GPU MCM Instinct MI300X

ای‌ام‌دی از نسل چهارم Infinity Fabric در تراشه Instinct MI300X خود استفاده می‌کند که پهنای باند 896 گیگابایت بر ثانیه را ارائه می‌دهد. همچنین، این تراشه شامل یک لینک Infinity Fabric Advanced Package است که تمام تراشه‌ها را با پهنای باند 4.8 ترابایت بر ثانیه به شکل دوطرفه به یکدیگر متصل می‌کند، در حالی که اینترفیس XCD/IOD دارای پهنای باند 2.1 ترابایت/ثانیه است.

تراشه GPU MCM Instinct MI300X

هنگامی که معماری CDNA 3 را به شکل دقیق مورد بررسی قرار دهیم به اطلاعات زیر دست پیدا می‌کنیم:

  • دو برابر شدن عملیات ماتریسی با دقت کم در هر ساعت و هر واحد محاسباتی
  • پشتیبانی از ساختار متراکم 2:4 برای INT8، FP8، FP16، BF16
  • 2 برابر عملکرد بهتر به لطف ساختار متراکم
  • پشتیبانی از فرمت عددی TF32 و FP8
  • توانایی رسیدگی همزمان به محاسبات FP16/FP32/INT32 با FP16/FP32/FP64

شکل زیر معماری Mi300X را نشان می‌دهد. همان‌گونه که مشاهده می‌کنید هر XCD دارای دو واحد محاسباتی غیرفعال است. تراشه کامل با 20480 هزار هسته و MI300X با 19456 هسته پیکربندی شده است. همچنین، 256 مگابایت حافظه کش اختصاصی Infinity روی تراشه وجود دارد.

تراشه GPU MCM Instinct MI300X

هر واحد محاسباتی CDNA از یک مدار زمان‌بندی‌کننده، حافظه اشتراکی محلی، رجیسترهای برداری، واحدهای برداری، هسته ماتریسی و حافظه کش L1 تشکیل شده است. عملکرد تراشه MI300X در مقایسه با تراشه MI250X به شرح زیر است:

  • 7 برابر سریع‌تر از MI250X در Vector FP64
  • 4 برابر سریع‌تر از MI250X در Vector FP32
  • 7 برابر سریع‌تر از MI250X در Matrix FP64
  • 7 برابر سریع‌تر از MI250X در Matrix FP32
  • 4 برابر سریع‌تر از MI250X در Matrix FP16
  • 4 برابر سریع‌تر از MI250X در Matrix BF16
  • 8 برابر سریع‌تر از MI250X در Matrix INT8

این ارقام نشان می‌دهند که MI300X در عملیات مختلف محاسباتی، به طور قابل توجهی سریع‌تر از نسل قبلی خود، یعنی MI250X است.

تراشه GPU MCM Instinct MI300X

AMD Instinct MI300X اولین شتاب‌دهنده‌ای است که از حافظه 8 لایه‌ای HBM3 استفاده می‌کند. این طراحی جدید، ظرفیت حافظه را تا 1.5 برابر افزایش داده و با استفاده از استاندارد HBM3، پهنای باند را نیز 1.6 برابر نسبت به نسل قبل (MI250X) بهبود بخشیده است. به عبارت دیگر، این تراشه می‌تواند داده‌ها را بسیار سریع‌تر و با حجم بیشتری جابه‌جا کند. این ویژگی‌ها باعث می‌شوند MI300X برای انجام محاسبات پیچیده، به ویژه در حوزه هوش مصنوعی، بسیار مناسب باشد. انودیا نیز اواخر امسال با معرفی GPUهای Blackwell قصد دارد از این فناوری حافظه استفاده کند. این پیشرفت‌ها در ارتباط با حافظه نشان می‌دهند که MI300X از نظر ظرفیت و سرعت دسترسی به داده‌ها، نسبت به نسل قبلی خود بهبود قابل توجهی داشته است.

تراشه GPU MCM Instinct MI300X

همچنین، ای‌ام‌دی ادعا می‌کند که MI300X می‌تواند مدل‌های زبانی بزرگ‌تری را نسبت به رقیب خود، NVIDIA HGX H100، پردازش کند. به لطف حافظه بیشتر و سریع‌تر، MI300X قادر است مدل‌هایی با اندازه بسیار بزرگ‌تر را آموزش دهد. این حرف به معنای آن است که MI300X  می‌تواند از فرآیند آموزش مدل‌های پیچیده‌تر و قدرتمندتری پشتیبانی کند که قابلیت‌های بیشتری در ارتباط با ترجمه زبانی، تولید متن خلاقانه و پاسخگویی دقیق به سوالات ارائه می‌دهند.

یکی دیگر از ویژگی‌های جالب Instinct Mi300X تقسیم‌بندی فضایی AMD است که به کاربران اجازه می‌دهد تا XCDها را مطابق با نیازهای بار کاری خود تقسیم‌بندی کنند. همه XCDها به عنوان یک پردازنده واحد کار می‌کنند، اما می‌توانند تقسیم‌بندی و گروه‌بندی شوند تا به عنوان چندین GPU ظاهر شوند. لازم به توضیح است که XCD  واحدهای محاسباتی در تراشه MI300X هستند، در حالی که بخش‌بندی فضایی به معنای تقسیم‌بندی تراشه به بخش‌های کوچکتر است.

ای‌ام‌دی، در ماه اکتبر پلتفرم Instinct خود را با MI325X ارتقا خواهد داد که دارای حافظه HBM3e و ظرفیت‌های افزایش یافته تا 288 گیگابایت خواهد بود. برخی از ویژگی‌های MI325X به شرح زیر هستند:

  • 2x Memory
  • 3x Memory Bandwidth
  • 3x Peak Theoretical FP16
  • 3x Peak Theoretical FP8
  • 2x Model Size per Server

با توجه به توضیحاتی که ارائه کردیم باید بگوییم که پاسخ انودیا سال آینده با Blackwell Ultra با 288 گیگابایت HBM3e خواهد بود. بنابراین، ای‌ام‌دی بار دیگر در این بازار کلیدی در حوزه هوش مصنوعی پیش‌تاز خواهد بود. بنابراین، تراشه‌های ساخت این شرکت در ارتباط با آموزش مدل‌های زبانی بزرگ که شامل میلیاردها یا تریلیون‌ها پارامتر خواهند بود و به حافظه‌های زیادی نیاز خواهند داشت، مشتریان خود را خواهند داشت. 

اشتراک‌گذاری:
برای ثبت نام در خبرنامه، عضو شوید.
مطالب مشابه
برای دریافت مشاوره و یا اطلاع از قیمت، با ما در تماس باشید.