چرا مصرف برق سرورها در طول زمان به طور قابل توجهی افزایش یافته است؟

دسته‌بندی بلاگ
فهرست مطالب

اگر در حال به‌روزرسانی زیرساخت فناوری اطلاعات (سرورها) یا ساخت خوشه‌های هوش مصنوعی هستید، بهتر است به یک نکته کاملا واضح و روشن دقت کنید. خنک‌کننده مایع یکی از ملزومات مهمی است که باید به آن توجه داشته باشد، اما هزینه مصرف برق، اصلی‌ترین ‌و بزرگ‌ترین چالشی است که با آن روبرو خواهید داشت و در حقیقت به یکی از دغدغه‌های بزرگ مالکان مراکز داده تبدیل شده است. ما می‌توانیم به موارد مختلفی اشاره داشته باشیم که مانع از تحقق دستیابی به یک زیرساخت قدرتمند می‌شوند، اما یکی از عوامل بزرگ سرورها هستند که با افزایش عملکرد و ظرفیت، نیازمند انرژی بیشتری هستند. بر همین اساس، تحقیقی با محوریت سرورهای دو سوکت و پردازنده‌های گرافیکی NVIDIA SXM و چگونگی افزایش تدریجی TDP آنها در طول زمان انجام داده‌ایم که مطالعه آن دید روشنی در ارتباط با تحولات آینده در اختیارتان قرار می‌دهد.

مصرف برق پردازنده‌های سرورها به سرعت در حال افزایش است

با نگاهی به مصرف برق پردازنده‌های دو سوکت Intel Xeon در طول زمان، کاملا واضح است که این روند صعودی با سرعتی کم سابقه در حال افزایش است که طی بیش از یک دهه گذشته هرگز شاهدش نبودیم.

در بازه زمانی ۲۰۰۸ تا ۲۰۱۶، مصرف برق سرورها نسبتا ثابت باقی ماند. نسل اول پردازنده‌های مقیاس‌پذیر Intel Xeon Scalable تحت عنوان Skylake که در سال ۲۰۱۷ عرضه شد، اولین نسل بود که در آن شاهد افزایش قابل توجه TDP بودیم. لازم به توضیح است که  TDP مخفف Thermal Design Power به معنای حداکثر توان حرارتی طراحی شده است که نشان‌دهنده میزان گرمایی است که پردازنده در حداکثر بار کاری تولید می‌کند.

بعد از عرضه پردازنده‌های Cascade Lake در سال ۲۰۱۹، توان حرارتی طراحی شده (TDP) در مدل‌های رده بالا و پایین به سرعت افزایش یافت. پردازنده Cooper Lake عمدتا بر اساس معماری Cascade Lake ساخته شد، اما یکسری تغییرات در آن اعمال شد که باعث شد شرکت‌هایی مثل متا از آن استقبال کنند. می‌توان به درستی استدلال کرد که این پردازنده‌ها عمدتا بازار سرورهای 4 سوکت را نشانه‌ گرفته بودند. اگر بخواهید نمودار را بدون Cooper Lake تصور کنید، باید ستون سال ۲۰۲۰ را با Cascade Lake جایگزین کنید، در این حالت مشاهده می‌کنید که TDP در ۴ سال افزایش قابل توجهی را تجربه نکرده بود. با شروع عرضه نسل پردازنده‌های Ice Lake در سال ۲۰۲۱، هم مدل‌های رده بالا و هم پایین شاهد افزایش TDP بودند. در اینجا نکته‌ی مهمی وجود دارد. در حالی که پیش از این، در مورد رسیدن حداکثر TDP پردازنده‌های Granite Rapids-AP که قرار است در سه ماهه چهارم عرضه شوند به ۵۰۰ وات و پردازنده‌های AMD EPYC-Next (Turin) که در سه ماهه آخر سال عرضه خواهند شد به ۵۰۰ وات صحبت کرده‌ایم، اما هنوز این محصولات عرضه نشده‌اند و ما اطلاعات کاملی از تمام مدل‌هایشان نداریم. ما فقط اشاره‌ای به محدوده TDP پایین داشتیم و از گفته‌های هر دو شرکت در مورد ۵۰۰ وات به عنوان حداکثر TDP برای مدل‌های رده بالا استفاده کردیم. با این‌حال، ممکن است این ارقام در آینده تغییر کنند.

اکنون اجازه دهید به سراغ پردازنده‌های AMD برویم و با در نظر گرفتن این که سری Opteron 6000 در آن زمان محبوب بود و در گذشته بررسی‌های زیادی روی نسل G34 انجام شده است، از آن‌ها به عنوان مدل‌های قدیمی استفاده ‌کنیم.  زمانی که پردازنده‌های Intel Xeon E5-2600 در سال ۲۰۱۱ عرضه شد، فروشندگان سرور می‌گفتند که سری Xeon E5 جایگزین سری Opteron 6000 می‌شود.

با اینکه ممکن است TDP مدل پایین‌رده Turin کمی خوش‌بینانه در نظر گرفته شده باشد، اما یک نکته کاملا واضح است و آن هم افزایش کلی TDP است. اگر این نمودار را با نمودار اینتل در بخش قبلی مقایسه کنید، به راحتی متوجه می‌شویم که AMD سریع‌تر از اینتل در حال افزایش TDP است. شاید در صنعت شنیده باشید که قبل از عرضه جدیدترین سری Xeon 6E، پردازنده‌های AMD کارآمدتر بوده‌اند. دلیل این امر این است که پردازنده‌های نسل EPYC Rome تا Genoa/ Genoa-X/ Bergamo از نظر فرآیند ساخت برتری قابل توجهی داشتند و می‌توانستند هسته‌های بسیار بیشتری را با TDP کمی بالاتر جای دهند. به عنوان مثال، پردازنده رده بالای Cascade Lake Xeon 8280 که در سال ۲۰۱۹ عرضه شد، یک تراشه ۲۰۵ وات با ۲۸ هسته بود، یعنی حدود ۷.۳ وات به ازای هر هسته. پردازنده AMD EPYC 7H12 یک پردازنده ۶۴ هسته‌ای با تمرکز بر محاسبات با کارایی بالا (HPC) بود که در عین حال مصرف برق آن ۲۸۰ وات یا حدود ۴.۴ وات به ازای هر هسته بود. در حالی که این پردازنده از برق بیشتری استفاده می‌کرد، اما بازدهی انرژی آن به طور قابل توجهی افزایش یافته بود.

کارت‌های گرافیک نیز به دنبال TDP

کارت‌های گرافیک (GPU) بخش دیگری از داستان هستند که TDP آن‌ها به طور قابل توجهی در حال افزایش است. کارت‌های گرافیک اغلب در سه ماهه‌های مختلف معرفی و به طور گسترده در دسترس قرار می‌گیرند و انویدیا نیز به طور مکرر از قابلیت تنظیم TDP استفاده می‌کند. بر مبنای اطلاعات جمع‌آوری و تحلیل شده، نموداری همانند تصویر زیر در اختیار خواهیم داشت.

افزایش توان حرارتی طراحی شده (TDP) کارت‌های گرافیک از ۳۰۰ وات به ۷۰۰ وات، شاید هم‌راستا با افزایش TDP پردازنده‌ها به نظر برسد، اما نکته‌ی دیگری که باید به خاطر داشته باشیم این است که معمولا در یک سیستم SXM هشت کارت گرافیک وجود دارد. در سال ۲۰۱۶، زمانی که انویدیا در حال گذار به SXM بود، سرورهای یادگیری عمیق رایج، سرورهای ۸ یا ۱۰ تایی GeForce RTX 1080 Ti بودند که البته این مسئله تا قبل از توافق‌نامه‌ی کاربر نهایی (EULA) و تغییرات سخت‌افزاری انویدیا در زمینه کارت‌های گرافیک مراکز داده بود. این سیستم‌ها اغلب سیستم‌های ۲.۴ تا ۳.۱ کیلوواتی بودند. این در حالی است که یک سرور هوش مصنوعی مدرن بسیار سریع‌تر می‌تواند تا ۸ کیلووات برق مصرف کند. این موضوع شرکت‌ها را به سمت ارتقا مکانیزم سرمایشی به خنک‌کننده مایع برای کاهش مصرف برق و ارتقای راه‌حل‌های برق رک سوق می‌دهد.

با پیش‌بینی مصرف انرژی بسیار بالای سیستم‌های هوش مصنوعی در سال ۲۰۲۵، انتظار می‌رود این سیستم‌ها به ازای هر رک (قفسه) به طور قابل توجهی بیش از ۱۰ کیلووات برق مصرف کنند. دلیل این امر، مصرف بالای شتاب‌دهنده گرافیکی این سیستم‌ها است که هرکدام به تنهایی ممکن است تا ۱ کیلووات برق مصرف کنند. این در حالی است که در آمریکای شمالی، بسیاری از مراکز داده همچنان از رک‌های قدیمی ۱۲ ولتی با جریان برق ۱۵ آمپر یا ۲۰ آمپر استفاده می‌کنند که حتی قادر به تأمین برق یک منبع تغذیه‌ی سرورهای هوش مصنوعی قدرتمند نیستند. در حالی که ما اغلب در مورد TDP پردازنده و کارت گرافیک صحبت می‌کنیم، اما اتفاقات بسیار بیشتری در حال رخ دادن است.

حافظه‌ی قابل ارتقای سرور

اکنون اجازه دهید برای درک بهتر موضوع به مثالی از یک سرور دو سوکت از نسل‌های Nehalem-EP و Westmere-EP (سال‌های ۲۰۰۸ تا ۲۰۱۰ در نمودار TDP پردازنده‌ی اینتل در ابتدای این مقاله) بپردازیم. در اینجا مشاهده می‌کنیم که برای هر پردازنده سه کانال حافظه و برای هر کانال دو ماژول DIMM وجود دارد، بنابراین به ازای هر پردازنده ۶ عدد DIMM و در یک سیستم دو سوکت با مجموعه‌ی کامل اسلات‌های DIMM، ۱۲ عدد DIMM وجود دارد.

سرورهای امروزی نه تنها از DIMMهای سریع‌تر و با ظرفیت بالاتر با کانال‌های بیشتری استفاده می‌کنند، بلکه اسلات‌های DIMM بیشتری هم دارند. یک پردازنده‌ی تک سوکت AMD EPYC Genoa در حال حاضر از چهار برابر DIMM بیشتر نسبت به یک پردازنده‌ی Xeon مدل ۲۰۰۸-۲۰۱۰، سه برابر DIMM بیشتر نسبت به یک Xeon مدل ۲۰۱۱-۲۰۱۶ و دو برابر DIMM بیشتر نسبت به یک Xeon مدل ۲۰۱۷-۲۰۲۰ استفاده می‌کند.

در حالی که ما اغلب در مورد TDP پردازنده صحبت می‌کنیم، برای دستیابی به حداکثر ظرفیت حافظه و پهنای باند در یک سوکت مدرن، نیاز به افزایش تعداد ابزارهای حافظه نیز وجود دارد. در حال حاضر حرکتی به سمت CXL برای اضافه کردن ابزارهای الحاقی با حافظه‌ی حتی بیشتر در جریان است. هر یک از این DIMMها حدود ۵ وات برق مصرف می‌کنند، بنابراین حافظه‌ی یک سرور مدرن می‌تواند به تنهایی بیش از کل برق مصرفی یک سوکت به همراه حافظه‌ی آن در دوران Xeon E5 را به خود اختصاص دهد.

TDP تنها عامل نیست

ممکن است به نمودارهای بالا نگاه کند و به درستی نتیجه‌گیری کنید که عملکرد و مصرف برق به ازای هر گره (node) در طول زمان افزایش یافته است. با این حال، نتیجه‌گیری اینکه یک سرور با استفاده‌ی بهینه از نظر مصرف انرژی نسبت به نسل‌های قبلی کارآمدتر نیست، اشتباه خواهد بود.

ما می‌توانیم با ساخت پردازنده‌ها، کارت‌های گرافیک، کارت‌های شبکه و سایر شتاب‌دهنده‌های بزرگ‌تر، کار بیشتری را روی یک گره‌ی واحد انجام دهیم. این امر تعداد گره‌های مورد نیاز برای تکمیل یک کار را کاهش می‌دهد. هر گره‌ی اضافی به شاسی، منبع تغذیه، مادربورد، درایو راه‌انداز، پورت‌های PDU، پردازنده‌های مدیریتی، پورت‌های شبکه‌ی مدیریتی، پورت‌های شبکه و غیره نیاز دارد. با این‌حال، توجه داشته باشید که ادغام به سمت گره‌های بزرگ‌تر و کمتر، مقدار قابل توجهی از سربار را معطوف به برقراری ارتباط بین گره‌ها می‌کند.

همان‌طور که در طراحی NVIDIA GB200 NVL72 شاهد هستیم، هدف اصلی این است که تا حد امکان محاسبات و اتصالات را در یک رک واحد ادغام شود. این رک با مصرف برق ۱۰۰ تا ۱۲۰ کیلووات برای مراکز داده‌ای که برای چنین تراکمی طراحی نشده‌اند، چالش‌برانگیز است. رک GB200 NVL72 تقریباً به اندازه‌ی کل ظرفیت باتری یک تسلا سایبرتراک، تنها در یک ساعت، برق مصرف می‌کند. این مورد به وضوح به ما نشان می‌دهد که مصرف برق رک‌ها در سال‌های آتی به چه صورتی خواهد بود.

کلام آخر

در حالی که خنک‌کننده مایع یکی از موضوعات داغ در سال‌های آتی خواهد بود و بسیاری از شرکت‌ها در این زمینه سرمایه‌گذاری‌های قابل توجهی انجام خواهند داد، اما موضوع مصرف برق در حال تبدیل شدن به چالش شماره ۱ مراکز داده است. در حالی که شرکت‌ها سال‌ها قبل سعی می‌کردند سرورها را برای حفظ زیرساخت رک موجود در محدوده‌های حرارتی و توان قابل قبولی نگه دارند، اما جهت‌گیری جدید این است که برق بیشتری به رک‌های خود برسانند. این یک تغییر اساسی و ضروری در این صنعت به شمار می‌رود. بنابراین، انتظار داریم در سال‌های آتی با افزایش مصرف برق، هزینه دسترسی به یکسری سرویس‌ها نیز افزایش قابل توجهی داشته باشد.

اشتراک‌گذاری:
برای ثبت نام در خبرنامه، عضو شوید.
مطالب مشابه
برای دریافت مشاوره و یا اطلاع از قیمت، با ما در تماس باشید.