附录B：数智大脑部署运行参考方案¶

此参考体系架构提供了基于Dell EMC服务器硬件和网络配置运行数智慧大脑（DataBrainOS）平台的参考方案 [DELLEMCHADOOP] 。该架构专注于硬件配置，并没有详细介绍DataBrainOS或运行其中的各个组件。

下面介绍运行数智大脑（DataBrainOS）的整个集群架构，包括推荐的服务器配置，网络结构和软件角色分配。

节点架构（Node Architecture）¶

数智大脑（DataBrainOS）平台由许多数智基础服务组件组成，涵盖范围广泛的功能。大多数这些组件都是作为运行的主服务和工作服务，以分布式方式在集群上运行。在此体系结构中，我们将物理节点分类为角色，然后将各种服务映射到这些角色上。根据群集工作负载，可以灵活的将服务和角色分配给各个物理节点。下表显示了物理节点的分类情况。

集群物理节点角色¶
物理节点角色	是否必须	服务器硬件配置
Active NameNode	必须	Master
Standby NameNode	必须	Master
Data Node 1 - N	必须	Data
High Availability (HA) Node	必须	Master
Admin Node	必须	Master
Edge Node 1 - N	建议（否则服务要与其它节点公用资源）	Master

下表中列出了数智大脑（DataBrainOS）中运行的数智基础服务。

数智大脑（DataBrainOS）基本数智服务¶
数智基础服务	功能	Master	Worker
HDFS	Hadoop分布式文件系统	Primary Namenode, Secondary Namenode	Data Node
YARN	Haddop集群资源管理	YARN Resource Manager	YARN NodeManager
Hive	基于Hadoop的数据仓库工具	Hive Server
HBase	列式NoSQL数据库	HBase Master	HBase Region Server
Ambari	Hadoop集群管理监控服务	Ambari Server	Ambari Agent
Flow	拖拽式数智单元编排和部署组件	Data Analyzer
NiFi	数据清洗、转换、ETL、发现与探索组件	Data Preprocessor
Kafka	高吞吐量的分布式发布订阅-消息系统		Kafka Broker
Kafka Manager	Kafka 管理工具，支持管理多个集群、轻松检查集群状态等	Kafka Manager
Druid	海量实时OLAP数据仓库	Druid Broker, Druid Router, Druid Coordinator	Druid Middlemanager
Ranger	集中式安全管理框架, 并解决授权和审计	Ranger
Storm	分布式高容错的实时计算引擎	Storm UI	Storm supervisor
Hue	Apache Hadoop UI, 支持在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job，执行Hive的SQL语句，浏览HBase数据库等等		Hue Server
Zeppelin	交互式数据分析和数据可视化	Zeppelin
H2O	企业级机器学习服务组件		H2O
AI Manager	管理H2O构建的模型、发布模型服务等		AI Manager
API Manager	管理数智大脑（DataBrainOS）对外赋能的API，保留认证、鉴权、流量控制等		API Manager
Kerberos	数智大脑（DataBrainOS）采用Kerberos作为安全认证系统		Kerberos
DataBrainOS UI	数智大脑（DataBrainOS）统一访问界面		DataBrainOS UI

下表为推荐的数智基础服务的服务器物理节点部署映射表。

物理节点 VS 数智基础服务¶
物理节点	服务
Active NameNode	NameNode Quorum Journal Node ZooKeeper Hive Server HBase Master 2 Druid Broker
Standby NameNode	Standby NameNode Resource Manager Quorum Journal Node Druid Overload ZooKeeper
HA Node	Standby Resource Manager Quorum Journal Node ZooKeeper HBase Master 1 Storm UI Druid Router Druid Coordinator Ranger
Data Node(x)	Data Node NodeManager ZooKeeper HBase RegionServer Druid Middlemanager
Admin Node	Ambari Operational Databases (PostgreSQL) Kafka Manager Hue Server Flow Schema Registry Superset Zeppelin MySQL Kerberos ZooKeeper
Edge Nodes	DataBrainOS UI API Manager AI Manager Kafka Broker Storm supervisor H2O NiFi Microservices

网络（Network Architecture）¶

集群网络架构旨在满足高性能和可扩展的集群需求，同时兼顾提供冗余和访问管理功能。该体系结构是基于10GbE网络技术的leaf-spine模型，并使用Dell S4048-ON交换机作为leaf，使用Dell S6000-ON交换机作为spine。网络采用IPv4。

网络架构图

集群网络¶

从上图可以看出，集群使用了三种网络，具体信息参见下表：

集群网络¶
网络	连接	交换机
集群数据网络（Data Network）	万兆以太网（Bonded 10GbE）	双顶架（Pod）交换机和支持端口聚合功能交换机
BMC网络（BMC Network）	1GbE	每个机架使用专用交换机
边缘网络（Edge Network）	10GbE	直接到边缘网络，或通过pod或聚合交换机

服务器架构（Server Architecture）¶

我们将服务器硬件配置分为两大类：

主节点（Master Node）
数据节点（Data Node）

主节点（Master Node）¶

主节点用于托管关键群集服务，并且优化配置以减少停机并提供高性能。推荐的配置参见下表。

服务器硬件配置-主节点（Master Node） [1]¶
组件	硬件选型
平台	Dell EMC PowerEdge R730xd (12-Drive Option with Flex Bay)
处理器	2x Intel Xeon E5-2650 v4 2.2 GHz (12-Core)
RAM（最小）	256 GB
NDC	Intel X520 Dual-port 10GbE + I350 Dual-port 1GbE
硬盘 (Hot-Plug)	8x 1TB 7.2K RPM SAS 12Gbps (Data)
Disk (Flex Bay)	2x 600GB 10K RPM SAS 12Gbps (OS)
存储控制器	Dell EMC PowerEdge RAID Controller (PERC) H730

数据节点（Data Node）¶

数据节点是DataBrainOS集群的核心。数据节点需要综合考虑计算和存储存储能力，在此给出了一般性推荐配置，参见下表。

服务器硬件配置-数据节点（Data Node） [1]¶
组件	硬件选型
平台	Dell EMC PowerEdge R730xd (12-Drive Option with Flex Bay)
处理器	2x Intel Xeon E5-2650 v4 2.2 GHz (12-Core)
RAM（最小）	256 GB
NDC	Intel X520 Dual-port 10GbE + I350 Dual-port 1GbE (LACP Bonded)
硬盘 (Hot-Plug)	12x 4TB 7.2K RPM SAS 12Gbps (HDFS) – Non-RAID or RAID 0
Disk (Flex Bay)	2x 600GB 10K RPM SAS 12Gbps (OS) – RAID 1 (Mirror)
存储控制器	Dell PowerEdge RAID Controller (PERC) H730

集群规模规划指南（Cluster Sizing Guidelines）¶

我们充分认识到数智大脑（DataBrainOS）的使用存在包括从小型开发集群到大型多PB级生产集群的各种场景。建议您直接联系我们的大数据专家帮助您根据确切需求确定集群的规模和配置。

集群节点数量建议¶

我们推荐用户根据以下三种情况来确定集群的基本节点规模：

概念验证集群

这是个最小规模的集群，旨在证明概念性项目。该集群的性能不能用于验证平台的高可用性，但足以验证平台的整体功能和并行处理能力。
最小开发集群

用于开发工作的集群可提供并验证基本的集群弹性和额外的可扩展性。
最小生产集群

最小生产群集配置提供密集存储和计算能力，以及高可扩展性。生产集群采用足够数量的数据节点来证明分布式的性能优势存储和并行计算能力。

集群规模推荐¶
集群类型	概念验证集群	最小开发集群	最小生产集群
NameNode	1	2	2
Data Nodes	1	3	3
HA Node	1	1	1
Admin Node	0	0	1
Edge Node(s)	0	0	2
总计：	3	6	9

[1]	(1, 2) 该配置可采用R740xd或其他类似配置机型根据自身需求进行相应调整。