數據中心資源池

數據中心資源池解決方案是(shì)一(yī / yì /yí)種将數據中心的(de)物理資源(如服務器、存儲、網絡)進行虛拟化和(hé / huò)統一(yī / yì /yí)管理的(de)技術方案,它可以(yǐ)實現資源的(de)動态分配和(hé / huò)優化,提高資源的(de)利用率和(hé / huò)效率,降低資源的(de)成本和(hé / huò)風險。

背景

某計算中心是(shì)國(guó)家重點研發計劃的(de)重要(yào / yāo)組成部分,中心需要(yào / yāo)建設一(yī / yì /yí)個(gè)CPU與GPU混合算力集群平台,以(yǐ)支持中心的(de)研究項目和(hé / huò)應用需求,提高中心的(de)計算能力和(hé / huò)效率。

需求分析

01.

構建卓越集群平台

集群平台應具備高性能、高可靠、高可擴展、高安全的(de)特點,能夠滿足中心的(de)各類計算任務的(de)需求,包括高性能計算、大(dà)數據分析、深度學習、圖像處理等。

02.

混合架構卓越表現

集群平台應采用CPU與GPU混合的(de)架構,利用CPU的(de)通用性和(hé / huò)GPU的(de)并行性,實現高效的(de)計算加速。集群平台應支持多種類型的(de)GPU,包括英偉達、寒武紀等,以(yǐ)适應不(bù)同的(de)計算場景和(hé / huò)需求

03.

卓越通信架構

集群平台應具備良好的(de)網絡通信能力,采用高速、低延遲、高帶寬的(de)網絡設備,實現節點間的(de)高效數據傳輸和(hé / huò)協同計算

04.

全面運維解決方案

集群平台應具備完善的(de)管理和(hé / huò)監控功能,采用統一(yī / yì /yí)的(de)管理軟件,實現集群的(de)配置、調度、監控、故障處理等功能,提高集群的(de)運維效率和(hé / huò)可用性

05.

雲端多租戶管理

集群平台雲管理功能,支持多租戶管理,并能夠納管裸金屬服務器

方案描述

服務器


  • 采用H3C R4900G5作爲(wéi / wèi)通用服務器、高性能服務器和(hé / huò)國(guó)外GPU x86服務器載體,搭配不(bù)同性能的(de)CPU來(lái)提供相應的(de)計算性能。采用飛騰服務器作爲(wéi / wèi)信創服務器及國(guó)産GPU載體。國(guó)外顯卡部署在(zài)2台通用GPUx86服務器上(shàng),而(ér)2塊國(guó)産顯卡部署在(zài)飛騰服務器上(shàng)

網絡


  • 采用2台H3C全萬兆交換機作爲(wéi / wèi)業務交換機來(lái)上(shàng)聯服務器與核心交換機,傳輸業務數據。采用2台H3C全萬兆交換機作爲(wéi / wèi)存儲交換機來(lái)下聯服務器、超融合數據複制,來(lái)傳輸虛拟化平台基礎數據。采用1台H3C作爲(wéi / wèi)帶外管理交換機來(lái)遠程管理本項目所有硬件設備

虛拟化


  • 在(zài)所有服務器上(shàng)部署H3C的(de)超融合平台,對計算及GPU資源進行池化資源管理

雲管理平台


  • 在(zài)虛拟化平台上(shàng)部署H3C雲平台軟件,對所有服務器進行雲數據中心管理

方案優勢

超融合管理平台基于(yú)多角色集群引擎打破了(le/liǎo)物理資源壁壘,以(yǐ)其自适應架構,不(bù)僅可以(yǐ)統一(yī / yì /yí)管理X86資源池和(hé / huò)ARM資源池,還可以(yǐ)同時(shí)管理純虛拟化節點、純分布式存儲節點、超融合節點、AI加速節點、裸金屬節點等。

兼容不(bù)同芯片、不(bù)同款型、不(bù)同配置、不(bù)同能力的(de)物理節點。

實現了(le/liǎo)硬件資源高度集約的(de)同時(shí),保證了(le/liǎo)集群操作的(de)一(yī / yì /yí)緻性,實現了(le/liǎo)異構式的(de)硬件資源池,大(dà)大(dà)豐富了(le/liǎo)應用場景。

客戶收益

UIS雲平台支持對虛拟化、裸金屬等異構資源統一(yī / yì /yí)管理

支持基于(yú)裸金屬服務器的(de)容器實例部署,基于(yú)裸金屬部署大(dà)數據服務

裸金屬和(hé / huò)雲主機統一(yī / yì /yí)資源池化管理

通過H3C UIS超融合管理軟件集成的(de)數據安全隔離功能,确保虛拟化、多租戶環境下的(de)用戶隐私信息及數據的(de)安全。不(bù)同組織的(de)業務系統和(hé / huò)應用系統獨立部署,互不(bù)幹擾

支持GPU資源池功能,根據設置的(de)業務模闆及資源搶占策略,實現對GPU資源的(de)自動分配和(hé / huò)回收