اگر در حال بهروزرسانی زیرساخت فناوری اطلاعات (سرورها) یا ساخت خوشههای هوش مصنوعی هستید، بهتر است به یک نکته کاملا واضح و روشن دقت کنید. خنککننده مایع یکی از ملزومات مهمی است که باید به آن توجه داشته باشد، اما هزینه مصرف برق، اصلیترین و بزرگترین چالشی است که با آن روبرو خواهید داشت و در حقیقت به یکی از دغدغههای بزرگ مالکان مراکز داده تبدیل شده است. ما میتوانیم به موارد مختلفی اشاره داشته باشیم که مانع از تحقق دستیابی به یک زیرساخت قدرتمند میشوند، اما یکی از عوامل بزرگ سرورها هستند که با افزایش عملکرد و ظرفیت، نیازمند انرژی بیشتری هستند. بر همین اساس، تحقیقی با محوریت سرورهای دو سوکت و پردازندههای گرافیکی NVIDIA SXM و چگونگی افزایش تدریجی TDP آنها در طول زمان انجام دادهایم که مطالعه آن دید روشنی در ارتباط با تحولات آینده در اختیارتان قرار میدهد.
مصرف برق پردازندههای سرورها به سرعت در حال افزایش است
با نگاهی به مصرف برق پردازندههای دو سوکت Intel Xeon در طول زمان، کاملا واضح است که این روند صعودی با سرعتی کم سابقه در حال افزایش است که طی بیش از یک دهه گذشته هرگز شاهدش نبودیم.
در بازه زمانی ۲۰۰۸ تا ۲۰۱۶، مصرف برق سرورها نسبتا ثابت باقی ماند. نسل اول پردازندههای مقیاسپذیر Intel Xeon Scalable تحت عنوان Skylake که در سال ۲۰۱۷ عرضه شد، اولین نسل بود که در آن شاهد افزایش قابل توجه TDP بودیم. لازم به توضیح است که TDP مخفف Thermal Design Power به معنای حداکثر توان حرارتی طراحی شده است که نشاندهنده میزان گرمایی است که پردازنده در حداکثر بار کاری تولید میکند.
بعد از عرضه پردازندههای Cascade Lake در سال ۲۰۱۹، توان حرارتی طراحی شده (TDP) در مدلهای رده بالا و پایین به سرعت افزایش یافت. پردازنده Cooper Lake عمدتا بر اساس معماری Cascade Lake ساخته شد، اما یکسری تغییرات در آن اعمال شد که باعث شد شرکتهایی مثل متا از آن استقبال کنند. میتوان به درستی استدلال کرد که این پردازندهها عمدتا بازار سرورهای 4 سوکت را نشانه گرفته بودند. اگر بخواهید نمودار را بدون Cooper Lake تصور کنید، باید ستون سال ۲۰۲۰ را با Cascade Lake جایگزین کنید، در این حالت مشاهده میکنید که TDP در ۴ سال افزایش قابل توجهی را تجربه نکرده بود. با شروع عرضه نسل پردازندههای Ice Lake در سال ۲۰۲۱، هم مدلهای رده بالا و هم پایین شاهد افزایش TDP بودند. در اینجا نکتهی مهمی وجود دارد. در حالی که پیش از این، در مورد رسیدن حداکثر TDP پردازندههای Granite Rapids-AP که قرار است در سه ماهه چهارم عرضه شوند به ۵۰۰ وات و پردازندههای AMD EPYC-Next (Turin) که در سه ماهه آخر سال عرضه خواهند شد به ۵۰۰ وات صحبت کردهایم، اما هنوز این محصولات عرضه نشدهاند و ما اطلاعات کاملی از تمام مدلهایشان نداریم. ما فقط اشارهای به محدوده TDP پایین داشتیم و از گفتههای هر دو شرکت در مورد ۵۰۰ وات به عنوان حداکثر TDP برای مدلهای رده بالا استفاده کردیم. با اینحال، ممکن است این ارقام در آینده تغییر کنند.
اکنون اجازه دهید به سراغ پردازندههای AMD برویم و با در نظر گرفتن این که سری Opteron 6000 در آن زمان محبوب بود و در گذشته بررسیهای زیادی روی نسل G34 انجام شده است، از آنها به عنوان مدلهای قدیمی استفاده کنیم. زمانی که پردازندههای Intel Xeon E5-2600 در سال ۲۰۱۱ عرضه شد، فروشندگان سرور میگفتند که سری Xeon E5 جایگزین سری Opteron 6000 میشود.
با اینکه ممکن است TDP مدل پایینرده Turin کمی خوشبینانه در نظر گرفته شده باشد، اما یک نکته کاملا واضح است و آن هم افزایش کلی TDP است. اگر این نمودار را با نمودار اینتل در بخش قبلی مقایسه کنید، به راحتی متوجه میشویم که AMD سریعتر از اینتل در حال افزایش TDP است. شاید در صنعت شنیده باشید که قبل از عرضه جدیدترین سری Xeon 6E، پردازندههای AMD کارآمدتر بودهاند. دلیل این امر این است که پردازندههای نسل EPYC Rome تا Genoa/ Genoa-X/ Bergamo از نظر فرآیند ساخت برتری قابل توجهی داشتند و میتوانستند هستههای بسیار بیشتری را با TDP کمی بالاتر جای دهند. به عنوان مثال، پردازنده رده بالای Cascade Lake Xeon 8280 که در سال ۲۰۱۹ عرضه شد، یک تراشه ۲۰۵ وات با ۲۸ هسته بود، یعنی حدود ۷.۳ وات به ازای هر هسته. پردازنده AMD EPYC 7H12 یک پردازنده ۶۴ هستهای با تمرکز بر محاسبات با کارایی بالا (HPC) بود که در عین حال مصرف برق آن ۲۸۰ وات یا حدود ۴.۴ وات به ازای هر هسته بود. در حالی که این پردازنده از برق بیشتری استفاده میکرد، اما بازدهی انرژی آن به طور قابل توجهی افزایش یافته بود.
کارتهای گرافیک نیز به دنبال TDP
کارتهای گرافیک (GPU) بخش دیگری از داستان هستند که TDP آنها به طور قابل توجهی در حال افزایش است. کارتهای گرافیک اغلب در سه ماهههای مختلف معرفی و به طور گسترده در دسترس قرار میگیرند و انویدیا نیز به طور مکرر از قابلیت تنظیم TDP استفاده میکند. بر مبنای اطلاعات جمعآوری و تحلیل شده، نموداری همانند تصویر زیر در اختیار خواهیم داشت.
افزایش توان حرارتی طراحی شده (TDP) کارتهای گرافیک از ۳۰۰ وات به ۷۰۰ وات، شاید همراستا با افزایش TDP پردازندهها به نظر برسد، اما نکتهی دیگری که باید به خاطر داشته باشیم این است که معمولا در یک سیستم SXM هشت کارت گرافیک وجود دارد. در سال ۲۰۱۶، زمانی که انویدیا در حال گذار به SXM بود، سرورهای یادگیری عمیق رایج، سرورهای ۸ یا ۱۰ تایی GeForce RTX 1080 Ti بودند که البته این مسئله تا قبل از توافقنامهی کاربر نهایی (EULA) و تغییرات سختافزاری انویدیا در زمینه کارتهای گرافیک مراکز داده بود. این سیستمها اغلب سیستمهای ۲.۴ تا ۳.۱ کیلوواتی بودند. این در حالی است که یک سرور هوش مصنوعی مدرن بسیار سریعتر میتواند تا ۸ کیلووات برق مصرف کند. این موضوع شرکتها را به سمت ارتقا مکانیزم سرمایشی به خنککننده مایع برای کاهش مصرف برق و ارتقای راهحلهای برق رک سوق میدهد.
با پیشبینی مصرف انرژی بسیار بالای سیستمهای هوش مصنوعی در سال ۲۰۲۵، انتظار میرود این سیستمها به ازای هر رک (قفسه) به طور قابل توجهی بیش از ۱۰ کیلووات برق مصرف کنند. دلیل این امر، مصرف بالای شتابدهنده گرافیکی این سیستمها است که هرکدام به تنهایی ممکن است تا ۱ کیلووات برق مصرف کنند. این در حالی است که در آمریکای شمالی، بسیاری از مراکز داده همچنان از رکهای قدیمی ۱۲ ولتی با جریان برق ۱۵ آمپر یا ۲۰ آمپر استفاده میکنند که حتی قادر به تأمین برق یک منبع تغذیهی سرورهای هوش مصنوعی قدرتمند نیستند. در حالی که ما اغلب در مورد TDP پردازنده و کارت گرافیک صحبت میکنیم، اما اتفاقات بسیار بیشتری در حال رخ دادن است.
حافظهی قابل ارتقای سرور
اکنون اجازه دهید برای درک بهتر موضوع به مثالی از یک سرور دو سوکت از نسلهای Nehalem-EP و Westmere-EP (سالهای ۲۰۰۸ تا ۲۰۱۰ در نمودار TDP پردازندهی اینتل در ابتدای این مقاله) بپردازیم. در اینجا مشاهده میکنیم که برای هر پردازنده سه کانال حافظه و برای هر کانال دو ماژول DIMM وجود دارد، بنابراین به ازای هر پردازنده ۶ عدد DIMM و در یک سیستم دو سوکت با مجموعهی کامل اسلاتهای DIMM، ۱۲ عدد DIMM وجود دارد.
سرورهای امروزی نه تنها از DIMMهای سریعتر و با ظرفیت بالاتر با کانالهای بیشتری استفاده میکنند، بلکه اسلاتهای DIMM بیشتری هم دارند. یک پردازندهی تک سوکت AMD EPYC Genoa در حال حاضر از چهار برابر DIMM بیشتر نسبت به یک پردازندهی Xeon مدل ۲۰۰۸-۲۰۱۰، سه برابر DIMM بیشتر نسبت به یک Xeon مدل ۲۰۱۱-۲۰۱۶ و دو برابر DIMM بیشتر نسبت به یک Xeon مدل ۲۰۱۷-۲۰۲۰ استفاده میکند.
در حالی که ما اغلب در مورد TDP پردازنده صحبت میکنیم، برای دستیابی به حداکثر ظرفیت حافظه و پهنای باند در یک سوکت مدرن، نیاز به افزایش تعداد ابزارهای حافظه نیز وجود دارد. در حال حاضر حرکتی به سمت CXL برای اضافه کردن ابزارهای الحاقی با حافظهی حتی بیشتر در جریان است. هر یک از این DIMMها حدود ۵ وات برق مصرف میکنند، بنابراین حافظهی یک سرور مدرن میتواند به تنهایی بیش از کل برق مصرفی یک سوکت به همراه حافظهی آن در دوران Xeon E5 را به خود اختصاص دهد.
TDP تنها عامل نیست
ممکن است به نمودارهای بالا نگاه کند و به درستی نتیجهگیری کنید که عملکرد و مصرف برق به ازای هر گره (node) در طول زمان افزایش یافته است. با این حال، نتیجهگیری اینکه یک سرور با استفادهی بهینه از نظر مصرف انرژی نسبت به نسلهای قبلی کارآمدتر نیست، اشتباه خواهد بود.
ما میتوانیم با ساخت پردازندهها، کارتهای گرافیک، کارتهای شبکه و سایر شتابدهندههای بزرگتر، کار بیشتری را روی یک گرهی واحد انجام دهیم. این امر تعداد گرههای مورد نیاز برای تکمیل یک کار را کاهش میدهد. هر گرهی اضافی به شاسی، منبع تغذیه، مادربورد، درایو راهانداز، پورتهای PDU، پردازندههای مدیریتی، پورتهای شبکهی مدیریتی، پورتهای شبکه و غیره نیاز دارد. با اینحال، توجه داشته باشید که ادغام به سمت گرههای بزرگتر و کمتر، مقدار قابل توجهی از سربار را معطوف به برقراری ارتباط بین گرهها میکند.
همانطور که در طراحی NVIDIA GB200 NVL72 شاهد هستیم، هدف اصلی این است که تا حد امکان محاسبات و اتصالات را در یک رک واحد ادغام شود. این رک با مصرف برق ۱۰۰ تا ۱۲۰ کیلووات برای مراکز دادهای که برای چنین تراکمی طراحی نشدهاند، چالشبرانگیز است. رک GB200 NVL72 تقریباً به اندازهی کل ظرفیت باتری یک تسلا سایبرتراک، تنها در یک ساعت، برق مصرف میکند. این مورد به وضوح به ما نشان میدهد که مصرف برق رکها در سالهای آتی به چه صورتی خواهد بود.
کلام آخر
در حالی که خنککننده مایع یکی از موضوعات داغ در سالهای آتی خواهد بود و بسیاری از شرکتها در این زمینه سرمایهگذاریهای قابل توجهی انجام خواهند داد، اما موضوع مصرف برق در حال تبدیل شدن به چالش شماره ۱ مراکز داده است. در حالی که شرکتها سالها قبل سعی میکردند سرورها را برای حفظ زیرساخت رک موجود در محدودههای حرارتی و توان قابل قبولی نگه دارند، اما جهتگیری جدید این است که برق بیشتری به رکهای خود برسانند. این یک تغییر اساسی و ضروری در این صنعت به شمار میرود. بنابراین، انتظار داریم در سالهای آتی با افزایش مصرف برق، هزینه دسترسی به یکسری سرویسها نیز افزایش قابل توجهی داشته باشد.