文章来源:架构师技术联盟公众号
数据中心架构是现代设施、IT 和网络系统的复杂集成,这些组件协同工作以构建、设计和支持关键业务应用程序。这些系统是高度互联的,需要对其设计和操作进行精心规划和同步的方法。数据中心架构包含了物理基础设施(例如配电和冷却系统)和 IT 基础设施(包网络架构、存储架构、服务器架构和云数据中心架构)的设计和布局。它涉及对物理空间、电源和冷却系统、网络连接、安全措施和软件的详细规划,以确保 IT 资源和服务的最佳性能、可靠性和可扩展性。最终目标是创建一个高效、有弹性和安全的环境,用于承载现代企业和组织的关键 IT 基础设施。
数据中心架构的组件
服务器:根据其物理结构和大小分为不同的类型,包括机架式服务器、刀片式服务器和塔式服务器
存储系统:数据中心使用存储区域网络 (SAN)、网络附加存储 (NAS) 和直连存储 (DAS) 等各种存储技术来存储和管理数据
网络设备:交换机、路由器、防火墙和负载平衡器在数据中心内和外部网络之间提供高效的数据通信和安全性
电力基础设施:不间断电源 (UPS) 系统、备用发电机和配电单元 (PDU) 为数据中心设备提供稳定可靠的电源
冷却系统:机房空调 (CRAC) 装置、液体冷却系统和冷/热通道密封可保持最佳温度和湿度水平,使硬件正常运行
机柜:数据中心使用的机架和机柜包括开放式机架(两柱式和四柱式机架)、封闭式机架、壁挂式机架和网络机柜
布线:结构化布线系统,包括双绞线电缆(用于以太网,如 Cat5e、Cat6)、光纤电缆(单模和多模)和同轴电缆
安全系统:生物识别访问控制、监控摄像头和安全人员等物理安全措施,以及防火墙、入侵检测/防御系统 (IDS/IPS) 和加密等网络安全解决方案可保护数据中心免受未经授权的访问和威胁
管理软件:数据中心基础设施管理 (DCIM)软件有助于监控、管理和优化数据中心组件的性能和能源效率
01、数据中心的网络架构
数据中心网络架构是指促进数据中心内通信和数据交换的互连节点和路径的设计和布局。它包括网络设备(如交换机、路由器和电缆)的物理和逻辑布局,以实现服务器、存储系统、防火墙和负载平衡器之间的高效数据传输。适当的网络架构可提供高速、低延迟和可靠的连接,同时提供可扩展性、安全性和容错性。
几十年来,三层架构一直是数据中心网络的标准模型。然而,另一种拓扑结构,即叶脊架构已经出现,并在现代数据中心环境中获得了突出地位。此体系结构在高性能计算 (HPC) 设置中尤为普遍,并已成为云服务提供商 (CSP) 的主要选择。
以下是这两种不同数据中心网络架构的比较:
▋三层数据中心网络架构
三层数据中心网络架构是一种传统的网络拓扑结构,在许多较旧的数据中心中已被广泛采用,通常被称为“核心-汇聚-接入”模型。冗余是该设计的关键部分,除了帮助网络实现高可用性和高效资源分配外,还有从接入层到核心的多条路径。
接入层:作为三层数据中心网络架构中的最低层,它充当服务器、存储系统和其他设备进入网络的入口点,通过交换机和电缆提供连接。接入层交换机通常以架顶式 (ToR) 配置排列,强制执行安全设置和 VLAN(虚拟局域网)分配等策略
聚合层:也称为分布层,它整合来自接入层架顶式交换机的数据流量,然后将其传输到核心层以路由到其最终目的地。该层通过冗余交换机增强数据中心网络的弹性和可用性,消除单点故障,并通过负载平衡、服务质量 (QoS)、数据包过滤、队列和 VLAN 间路由等策略控制网络流量
核心层:它也称为主干网,是网络的高容量中心部分,专为冗余和弹性而设计,将聚合层交换机互连并连接到外部网络。核心层在 3 层运行,使用高端交换机、高速电缆和收敛时间较短的路由协议,优先考虑速度、最小延迟和连接性
服务器虚拟化技术带来的层间多跳延迟,会产生的大量的东西向(服务器到服务器)流量,传统的三层数据中心架构难以有效处理, 同时还存在带宽的浪费、故障域较大、难以适应超大规模网络等问题。
数据中心的流量总的来说可以分为以下几种:·
南北向流量:数据中心之外的客户端到数据中心服务器之间的流量,或者数据中心服务器访问互联网的流量。
东西向流量:数据中心内的服务器之间的流量。
跨数据中心量:不同数据中心的流量,例如数据中心之间的灾备,私有云和公有云之间的通讯。
在传统数据中心中,业务通常采用专线方式部署。通常,服务部署在一个或多个物理服务器上,并与其他系统物理隔离。因此,传统数据中心东西向流量较低,南北向流量约占数据中心总流量的80%。
在云数据中心,服务架构逐渐从单体架构转变为Web-APP-DB,分布式技术成为企业应用的主流。服务的组件通常分布在多个虚拟机或容器中。该服务不再由一台或多台物理服务器运行,而是由多台服务器协同工作,导致东西向流量快速增长。
此外,大数据服务的出现使分布式计算成为云数据中心的标准配置。大数据服务可以分布在一个数据中心的数百台服务器上进行并行计算,这也大大增加了东西向流量。
传统的三层网络架构是为南北向流量占主导地位的传统数据中心设计的,不适合东西向流量较大的云数据中心。
一些东西向流量(如跨POD的二层和三层流量)必须经过汇聚层和核心层的设备转发,不必要地经过许多节点。传统网络通常设置1:10到1:3的带宽超额比,以提高设备利用率。随着超额订阅率,每次流量通过节点时性能都会显着下降。此外,第 3 层网络上的 xSTP 技术加剧了这种恶化。
因此,如果通过传统三层网络架构运行大量的东西向流量,连接到同一交换机端口的设备可能会争夺带宽,导致最终用户获得的响应时间很差。
▋Spine-Leaf 叶脊架构
脊叶架构,通常称为 Clos 设计,是一种两层网络拓扑,广泛用于数据中心和企业 IT 环境。与传统的三层网络架构相比,它为数据中心基础设施带来了多种优势,例如可扩展性、减少延迟和提高性能。
叶子层:这些是接入层中的架顶式交换机,用于连接到机架内的服务器和存储设备。它们通过连接到每个主干交换机形成一个完整的网状网络,确保所有转发路径都可用,并且节点在跳数方面等距
脊椎层:它们构成了数据中心网络的骨干网,将所有枝叶交换机互连并在它们之间路由流量。它们不会直接相互连接,因为网状网络架构消除了主干交换机之间专用连接的需要。相反,它们通过主干层路由东西向流量,以实现不同叶交换机上的服务器之间的完全无阻塞数据传输.
与传统的三层架构相比,脊叶架构具有卓越的可扩展性、更低的延迟、可预测的性能和优化的东西向流量效率。它还通过高度互连提供容错能力,消除了网络环路问题,并简化了数据中心网络管理。
但是,Fabric 架构并非完美。叶子节点网络设备无论是性能要求还是功能要求,均高于传统架构下的接入设备,其作为各种类型的网关(二三层间、VLAN/VxLAN 间、VxLAN/NVGRE 间、FC/IP 间等等),芯片处理能力要求较高,目前尚无满足所有协议间互通的商用芯片;由于不存在相关的标准,为了实现各种类型网络的接入,其骨干节点与叶子节点间的转发各个厂商均采用了私有封装,这也为将来的互通设置了难题。除此之外,还有:
独立的 L2 Domain 限制了依赖 L2 Domain 应用程序的部署。要求部署在一个二层网络的应用程序,现在只能部署下一个机架下了。独立的 L2 Domain 限制了服务器的迁移。迁移到不同机架之后,网关和 IP 地址都要变。
子网数量大大增加了。每个子网对应数据中心一条路由,现在相当于每个机架都有一个子网,对应于整个数据中心的路由条数大大增加,并且这些路由信息要怎么传递到每个 Leaf 上,也是一个复杂的问题。
在设计叶脊网络架构之前,您必须先确定一些重要的因素。如,收敛比(即超额预订比率)、叶交换机与脊交换机的比例、从叶层到脊层的上行链路、构建在第2层还是第3层等。
02、数据中心的存储架构
数据中心存储架构是指存储系统的设计和组织,它决定了如何在数据中心内物理存储和访问数据。它定义了物理存储设备类型,如硬盘驱动器 (HDD)、固态驱动器 (SSD) 和磁带驱动器,以及它们的配置方式,例如直连存储 (DAS)、网络连接存储 (NAS) 和存储区域网络 (SAN)。此外,存储架构还涉及服务器直接或通过网络访问存储数据的方法。以下是数据中心存储架构的主要类型:
▋直连存储 (DAS)
直连存储 (DAS) 是一种用于数据中心的数字存储系统,其特点是与其支持的服务器直接物理连接,中间没有网络连接。服务器使用 SATA、SCSI 或 SAS 等协议与存储设备通信,RAID 控制器管理数据条带化、镜像和磁盘管理。
DAS 为单个服务器提供经济高效、简单和高性能,但与 NAS 和 SAN 等网络存储解决方案相比,在可扩展性和可访问性方面存在局限性。
▋网络连接存储 (NAS)
网络连接存储 (NAS) 是一种专用的文件级存储设备,可通过局域网 (LAN) 中的 TCP/IP 以太网为多个用户和客户端设备提供数据访问。这些系统旨在简化数据存储、检索和管理,而无需中间应用服务器。
NAS 提供了轻松访问、共享和管理的优势,但由于其对共享网络带宽的依赖性和物理限制,它面临着可扩展性和性能限制。
▋存储区域网络 (SAN)
存储区域网络 (SAN) 是专用的高速网络,通常使用光纤通道协议将服务器连接到共享存储设备。这些系统提供对数据中心内存储的块级访问,使服务器能够与存储设备进行交互,就好像它们被直接连接一样,通过从主机服务器卸载这些任务来简化备份和维护等操作。SAN 提供了高性能和可扩展性,但它们具有高成本和复杂的管理要求,需要专门的 IT 专业知识。
▋下一代存储解决方案和技术
数据中心存储领域正在涌现出多种创新的下一代解决方案和技术,以满足对效率、可扩展性和性能日益增长的需求。这些包括:
全闪存阵列:使用固态硬盘 (SSD) 代替传统旋转硬盘驱动器 (HDD) 的高速存储系统,提供卓越的性能和更低的延迟。此外,专为 SSD 设计的存储协议(如 NVMe(非易失性内存快速)和 NVMe-OF(NVMe over Fabric))的采用率不断提高,进一步提高了数据中心全闪存阵列的性能、减少延迟和吞吐量
横向扩展文件系统:一种存储架构,允许通过添加更多节点来水平扩展存储容量和性能,支持灵活性和易于扩展
对象平台:专为管理大量非结构化数据而设计的存储解决方案,使用扁平命名空间和唯一标识符进行数据检索
超融合基础架构 (HCI):将存储、计算和网络整合到一个框架中的集成系统,可简化管理并增强可扩展性
软件定义存储 (SDS):一种软件管理和抽象底层存储资源的方法,通过基于策略的管理提供灵活性和效率。SDS 技术已被Meta Platforms(Facebook)、Google 和 Amazon 等多家超大规模公司采用
热辅助磁记录 (HAMR):一种数据存储技术,它使用局部加热来增加磁记录密度,使更高容量的硬盘驱动器 (HDD) 能够满足现代数据中心不断增长的存储需求
03、数据中心的服务器架构
数据中心的服务器架构是指服务器和相关组件的设计和组织,以有效地处理、存储和管理数据。它通常可以分为以下几类:外形尺寸(物理结构)、系统资源和支持基础设施:
外形尺寸(物理结构)
机架式服务器:这些是数据中心中最常见的服务器类型。它们设计用于安装在标准的 19 英寸机架中,高度通常为 1U 至 4U
刀片服务器:这些服务器旨在最大限度地提高密度并最大限度地减少物理空间。多个刀片服务器安装在一个机箱中,共享电源、冷却和网络等公共资源
塔式服务器:虽然在大型数据中心中不太常见,但塔式服务器仍用于较小规模的部署或机架空间不受限制的地方。它们类似于台式电脑塔,可以是独立的单元
系统资源
CPU(中央处理器):CPU是服务器的大脑,负责执行指令和处理数据。它执行算术、逻辑和输入/输出运算
内存:RAM(随机存取存储器)是服务器的主存储器,提供对数据和指令的快速访问。它临时存储当前正在使用的数据和程序
存储:硬盘驱动器 (HDD) 或固态驱动器 (SSD) 等设备会永久存储数据和文件。它们保存操作系统、应用程序、数据库和用户数据
网络:NIC(网络接口卡)将服务器连接到网络,从而实现与其他设备的通信。它们处理数据包的发送和接收
GPU(图形处理单元):GPU 是专为并行处理和图形渲染而设计的专用处理器。他们擅长处理计算密集型任务,尤其是人工智能、机器学习和科学模拟的任务。但是,并非所有服务器都需要 GPU
支持基础设施
电源系统:电源单元 (PSU) 为所有服务器组件提供稳定可靠的电源。它们将来自墙上插座的交流电源转换为服务器所需的适当直流电压
空调系统:服务器会产生大量热量,冷却系统确保组件在安全温度范围内运行。冷却选项包括服务器机房中的风扇、散热器、液体冷却和空调
主板架构:这是将所有服务器组件连接在一起的主要印刷电路板。它为 CPU、RAM、存储和其他外围设备提供必要的接口、总线和插槽
04、云数据中心架构
云数据中心架构是指在远程数据中心内设计和组织计算、存储、网络和数据库资源,以实现云计算服务的交付。该架构基于虚拟化技术构建,允许高效共享和利用物理资源,以提供可扩展、可靠且灵活的基于云的应用程序和服务。以下是云数据中心架构主要组件的细分:
计算:云计算服务为运行应用程序和工作负载提供虚拟机 (VM)、容器和无服务器计算资源。这些服务允许用户按需配置和扩展计算能力,而无需管理物理硬件。例如,主要的云计算服务包括Amazon EC2,Microsoft的Azure虚拟机和Google Cloud的计算引擎
存储:云存储服务为各种数据类型(如文件、对象和备份)提供可扩展且持久的存储解决方案。这些服务提供高可用性、自动复制和数据加密,以确保数据的完整性和安全性。流行的云存储服务的示例包括 Amazon S3、Microsoft 的 Azure Blob 存储和 Google 的云存储
网络:云网络服务使用户能够创建、配置和管理虚拟网络、子网和网络安全规则。这些服务提供云资源、本地网络和 Internet 之间的连接,从而实现安全高效的数据传输。例如,关键的云网络服务包括 Amazon Virtual Private Cloud (VPC)、Microsoft 的 Azure 虚拟网络和 Google Cloud Virtual Private Cloud (VPC)
数据库:云数据库服务提供托管和可扩展的数据库解决方案,用于存储、检索和管理结构化和非结构化数据。这些服务支持各种数据库引擎,例如关系数据库(例如 MySQL、PostgreSQL)、NoSQL 数据库(例如 MongoDB)和数据仓库。云数据库服务可处理配置、扩展、备份和安全等任务,使开发人员能够专注于应用程序开发。例如,著名的云数据库服务包括Amazon RDS,Microsoft的Azure Cosmos DB和Google Cloud SQL
05、物理数据中心设计
数据中心的物理架构和设计对于确保最佳性能、安全性和可靠性至关重要。以下是物理数据中心架构设计的关键要素:
选址
位置:数据中心通常建在自然灾害风险较低的地区,远离地震、洪水和飓风多发地区
气候:较冷的位置可以通过使用环境空气来降低冷却数据中心的成本,而较热的气候需要更节能的冷却解决方案
交通:该地点必须方便工作人员进入,并靠近主要道路和机场,以便运输设备和应急响应
电源:可靠且具有成本效益的能源至关重要。多条高压输电线路和变电站的存在对于电力输送很重要
线路资源:靠近主要光纤线路并拥有多个服务提供商,可实现更好的连接性
建筑和结构
建筑材料:数据中心通常使用耐用的耐火材料建造,例如混凝土、钢材和专用墙板
结构:虽然单层数据中心更为普遍,但多层数据中心越来越多地建在土地可用性有限或房地产成本高的地区
天花板高度:高天花板高度(通常在 12 到 18 英尺之间)是必要的,以容纳活动地板、架空电缆桥架和空调管道,同时为设备和维护提供足够的间隙
承重能力:数据中心需要较高的地板负载能力,以支持重型服务器机架、冷却系统和不间断电源 (UPS) 系统的重量。承载能力通常在每平方英尺 150 到 300 磅之间
内部布局:数据中心的内部架构,包括柱子和隔墙,在设施的整体设计和功能中起着至关重要的作用。这些因素会影响空间利用率、与冷却系统相关的气流、配电以及设备的运输,以便进行维护
▋数据中心功能定位
数据中心的设计和构建基于各种架构因素,例如规模、用途、所有权和位置。通常的数据中心类型包括:
企业数据中心:由各个公司拥有和运营,以支持其特定的业务需求和应用程序。它们通常是量身定制的,这意味着它们是定制的,以满足单个组织的特定需求。
主机托管数据中心:提供共享基础架构,多个客户可以租用空间、电源和冷却,在托管设施中容纳自己的 IT 设备。
超大规模数据中心:大型集中式设施,旨在支持超大规模提供商(CSP)和互联网公司的需求。边缘数据中心:利用分布式数据中心架构的小型设施。
边缘数据中心位于更靠近最终用户或数据源的位置,旨在通过处理更接近其来源的数据来减少延迟并提高应用程序性能。
容器化数据中心:这些数据中心也称为微型数据中心,是安装在集装箱中的模块化便携式设施,提供灵活性和快速部署。
人工智能 (AI) 数据中心:针对 AI 工作负载优化的专用设施,具有高性能计算、GPU(图形处理单元)和液体冷却系统。
来源:数据中心运维管理