Storm基本体系架构

微信扫一扫

028-83195727 , 15928970361
business@forhy.com

Storm基本体系架构

storm,zookeeper,架构,大数据2016-11-23

Apache Storm 是由Twitter开源的分布式实时计算系统。Storm可以非常容易并且可靠的处理无限的数据流。对比Hadoop的批处理，Storm是一个实时的、分布式的、具备高容错的计算系统。Storm应用可以使用不同的编程语言来进行开发。

-Storm基本体系结构图-

Nimbus和Supervisor之间的通信依靠Zookeeper来完成，并且Nimbus进程和Supervisor都是快速失败和无状态的。所有的状态要么在Zookeeper里面，要么在本地磁盘上。这就意味着你可以用Kill -9 来杀死 Nimbus和Supervisor进程，然后在重启它们，它们可以继续工作，就像什么也没发生。这个设计使Storm具有非常高的稳定性。

核心概念

在Storm中有一些核心基本概念，包括Topology、Nimbus、Supervisor、Worker、Executor、Task、Spout、Bolt、Tuple、Stream、Stream分组（grouping）等。

Topology：一个实时计算应用程序逻辑上被封装在Topology对象中，类似Hadoop中的作业。与作业不同的是，Topology会一直运行直到显式地杀死它。

Nimbus：负责资源分配和任务调度，类似Hadoop中的JobTracker。

Supervisor：负责接受Nimbus分配的任务，启动和停止属于自己管理的Worker进程，类似Hadoop中的TaskTracker。

Worker：运行具体处理组件逻辑的进程。

Executor： Storm 0.8之后，Executor为Worker进程中的具体的物理线程，同一个Spout/Bolt的Task可能会共享一个物理线程，一个Executor中只能运行隶属于同一个Spout/Bolt的Task。

Task：每一个Spout/Bolt具体要做的工作，也是各个节点之间进行分组的单位。

Spout：在Topology中产生源数据流的组件。通常Spout获取数据源的数据，然后调用nextTuple函数，发射数据供Bolt消费。

Bolt：在Topology中接受Spout的数据然后执行处理的组件，Bolt可以执行过滤，函数操作，合并，写数据库等任何操作。Bolt在接收到消息后会调用execute函数，用户可在其中执行自己想要的操作。

Tuple：消息传递的单元。

Stream：源源不断传递的Tuple组成了Stream。

Stream分组：即消息的分区（partition）方法。Storm中提供若干种实用的分组方式。包括Shuffle、Fields、All、Global、None、Direct、Local or shuffle等。

关于分区方式的内容，下期继续，敬请期待……