附录B:数智大脑部署运行参考方案¶
此参考体系架构提供了基于Dell EMC服务器硬件和网络配置运行数智慧大脑(DataBrainOS)平台的参考方案 [DELLEMCHADOOP] 。 该架构专注于硬件配置,并没有详细介绍DataBrainOS或运行其中的各个组件。
下面介绍运行数智大脑(DataBrainOS)的整个集群架构,包括推荐的服务器配置,网络结构和软件角色分配。
节点架构(Node Architecture)¶
数智大脑(DataBrainOS)平台由许多数智基础服务组件组成,涵盖范围广泛的功能。 大多数这些组件都是作为运行的主服务和工作服务,以分布式方式在集群上运行。 在此体系结构中,我们将物理节点分类为角色,然后将各种服务映射到这些角色上。 根据群集工作负载,可以灵活的将服务和角色分配给各个物理节点。 下表显示了物理节点的分类情况。
| 物理节点角色 | 是否必须 | 服务器硬件配置 |
|---|---|---|
| Active NameNode | 必须 | Master |
| Standby NameNode | 必须 | Master |
| Data Node 1 - N | 必须 | Data |
| High Availability (HA) Node | 必须 | Master |
| Admin Node | 必须 | Master |
| Edge Node 1 - N | 建议(否则服务要与其它节点公用资源) | Master |
下表中列出了数智大脑(DataBrainOS)中运行的数智基础服务。
| 数智基础服务 | 功能 | Master | Worker |
|---|---|---|---|
| HDFS | Hadoop分布式文件系统 | Primary Namenode, Secondary Namenode | Data Node |
| YARN | Haddop集群资源管理 | YARN Resource Manager | YARN NodeManager |
| Hive | 基于Hadoop的数据仓库工具 | Hive Server | |
| HBase | 列式NoSQL数据库 | HBase Master | HBase Region Server |
| Ambari | Hadoop集群管理监控服务 | Ambari Server | Ambari Agent |
| Flow | 拖拽式数智单元编排和部署组件 | Data Analyzer | |
| NiFi | 数据清洗、转换、ETL、发现与探索组件 | Data Preprocessor | |
| Kafka | 高吞吐量的分布式发布订阅-消息系统 | Kafka Broker | |
| Kafka Manager | Kafka 管理工具,支持管理多个集群、轻松检查集群状态等 | Kafka Manager | |
| Druid | 海量实时OLAP数据仓库 | Druid Broker, Druid Router, Druid Coordinator | Druid Middlemanager |
| Ranger | 集中式安全管理框架, 并解决授权和审计 | Ranger | |
| Storm | 分布式高容错的实时计算引擎 | Storm UI | Storm supervisor |
| Hue | Apache Hadoop UI, 支持在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等 | Hue Server | |
| Zeppelin | 交互式数据分析和数据可视化 | Zeppelin | |
| H2O | 企业级机器学习服务组件 | H2O | |
| AI Manager | 管理H2O构建的模型、发布模型服务等 | AI Manager | |
| API Manager | 管理数智大脑(DataBrainOS)对外赋能的API,保留认证、鉴权、流量控制等 | API Manager | |
| Kerberos | 数智大脑(DataBrainOS)采用Kerberos作为安全认证系统 | Kerberos | |
| DataBrainOS UI | 数智大脑(DataBrainOS)统一访问界面 | DataBrainOS UI |
下表为推荐的数智基础服务的服务器物理节点部署映射表。
| 物理节点 | 服务 |
|---|---|
| Active NameNode |
|
| Standby NameNode |
|
| HA Node |
|
| Data Node(x) |
|
| Admin Node |
|
| Edge Nodes |
|
网络(Network Architecture)¶
集群网络架构旨在满足高性能和可扩展的集群需求,同时兼顾提供冗余和访问管理功能。 该体系结构是基于10GbE网络技术的leaf-spine模型,并使用Dell S4048-ON交换机作为leaf, 使用Dell S6000-ON交换机作为spine。网络采用IPv4。
服务器架构(Server Architecture)¶
我们将服务器硬件配置分为两大类:
- 主节点(Master Node)
- 数据节点(Data Node)
主节点(Master Node)¶
主节点用于托管关键群集服务,并且优化配置以减少停机并提供高性能。 推荐的配置参见下表。
| 组件 | 硬件选型 |
|---|---|
| 平台 | Dell EMC PowerEdge R730xd (12-Drive Option with Flex Bay) |
| 处理器 | 2x Intel Xeon E5-2650 v4 2.2 GHz (12-Core) |
| RAM(最小) | 256 GB |
| NDC | Intel X520 Dual-port 10GbE + I350 Dual-port 1GbE |
| 硬盘 (Hot-Plug) | 8x 1TB 7.2K RPM SAS 12Gbps (Data) |
| Disk (Flex Bay) | 2x 600GB 10K RPM SAS 12Gbps (OS) |
| 存储控制器 | Dell EMC PowerEdge RAID Controller (PERC) H730 |
数据节点(Data Node)¶
数据节点是DataBrainOS集群的核心。数据节点需要综合考虑计算和存储存储能力,在此给出了一般性推荐配置,参见下表。
| 组件 | 硬件选型 |
|---|---|
| 平台 | Dell EMC PowerEdge R730xd (12-Drive Option with Flex Bay) |
| 处理器 | 2x Intel Xeon E5-2650 v4 2.2 GHz (12-Core) |
| RAM(最小) | 256 GB |
| NDC | Intel X520 Dual-port 10GbE + I350 Dual-port 1GbE (LACP Bonded) |
| 硬盘 (Hot-Plug) | 12x 4TB 7.2K RPM SAS 12Gbps (HDFS) – Non-RAID or RAID 0 |
| Disk (Flex Bay) | 2x 600GB 10K RPM SAS 12Gbps (OS) – RAID 1 (Mirror) |
| 存储控制器 | Dell PowerEdge RAID Controller (PERC) H730 |
集群规模规划指南(Cluster Sizing Guidelines)¶
我们充分认识到数智大脑(DataBrainOS)的使用存在包括从小型开发集群到 大型多PB级生产集群的各种场景。 建议您直接联系我们的大数据专家帮助您根据确切需求确定集群的规模和配置。
集群节点数量建议¶
我们推荐用户根据以下三种情况来确定集群的基本节点规模:
概念验证集群
这是个最小规模的集群,旨在证明概念性项目。 该集群的性能不能用于验证平台的高可用性,但足以验证平台的整体功能和并行处理能力。
最小开发集群
用于开发工作的集群可提供并验证基本的集群弹性和额外的可扩展性。
最小生产集群
最小生产群集配置提供密集存储和计算能力,以及高可扩展性。 生产集群采用足够数量的数据节点来证明分布式的性能优势存储和并行计算能力。
| 集群类型 | 概念验证集群 | 最小开发集群 | 最小生产集群 |
|---|---|---|---|
| NameNode | 1 | 2 | 2 |
| Data Nodes | 1 | 3 | 3 |
| HA Node | 1 | 1 | 1 |
| Admin Node | 0 | 0 | 1 |
| Edge Node(s) | 0 | 0 | 2 |
| 总计: | 3 | 6 | 9 |
| [1] | (1, 2) 该配置可采用R740xd或其他类似配置机型根据自身需求进行相应调整。 |