woodding2008

浏览: 285345 次
性别:
来自: 北京

最近访客更多访客>>

ws715

mulingya

KevinSha

blueswind8306

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Storm消息可靠处理

博客分类：

Storm

一个消息(tuple)从spout发送出来，可能导致成百上千消息基于此消息创建，这些消息构成一个树状结构，称之为“tuple tree”,如下图：

同时满足了下面两个条件，storm会认为消息被完整的处理了,如果在指定的时间内，一个消息衍生出来的tuple tree未被完全处理成功，则认为消息未被完整处理。这个超时时间可以通过任务参数Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS进行配置，默认是30秒。

tuple tree 不再生长
tuple tree 中的任何消息被标记为"已处理"

消息的生命周期

ISpout接口

public interface ISpout extends Serializable {
    void open(Map conf, TopologyContext context, SpoutOutputCollector collector);
    void close();
    void activate(); 
    void deactivate();
    void nextTuple();
    void ack(Object msgId);
    void fail(Object msgId);
}

首先，使用spout的nextTuple()方法从spout请求一个tuple。收到请求后，spout使用open方法中提供的SpoutOutputCollector向它的输出流发送一个或多个消息。每发送一个消息，spout会给这个消息提供一个id，它将被用来标识这个消息。

假设我们从kestrel队列中读取消息，spout会将kestrel队列为这个消息设置的id作为此消息的id,向SpoutOutputCollector中发送的格式如下：

_collector.emit(new Values("field1","field2",3),msgId);

接下来，这个消息会被发送到后续业务处理的bolts，并且strom会跟踪由此消息产生出来的新消息。当检测到一个消息衍生出来的tuple tree被完整处理后，storm会调用spout中的ack方法，并将此消息的id作为参数传入。同理，如果某消息处理超时，则此消息对应的spout的fail方法会被调用，调用时此消息的id会被作为参数传入。一个消息只会由发送它的哪个spout任务调用ack或fail，如果系统中的某个spout由多个任务运行，消息也只会由穿件它的spout任务来应答（ack或fail）。

当KestrelSpout从kestrel队列中读取一个消息，表示它“打开”了队列中某个消息。这意味着，此消息并为从队列中真正删除，而是被设置为“pending”状态，它等待来自客户端的应答，被应答以后，此消息才会被真正的从队列中删除。处于pending状态的消息不会被其他客户端看到。另外，如果一个客户端意外断开连接，则由此客户端“打开”的所有消息都会被重新加入到队列中。当消息被“打开”的时候，kestrel队列同时会为这个消息提供一个唯一表示。

KestrelSpout使用这个唯一的标识作为这个tuple的id，当ack或fail被调用时，KestrelSpout会把ack或者fail连同id一起发送给kestrel队列，kestrel会将消息从队列中真正删除或者将它重新放回队列中。

可靠相关的API

为了使用Storm提供的可靠处理特性，我们需要做两件事情。

只要在tuple tree中创建了一个新节点，就要明确地通知storm
当处理完一个单独的消息时，告知storm这棵tuple tree的变化状态

为tuple tree中指定的节点增加一个新的节点，我们称之为锚定（anchoring）。锚定是在我们发送消息的同时进行的。bolt将包含整句话的消息分解为一系列的消息，每个消息包含一个单词。

public class WordBolt extends BaseRichBolt {
	OutputCollector _collector;

	@Override
	public void prepare(Map stormConf, TopologyContext context,
			OutputCollector collector) {
		_collector = collector;
	}

	@Override
	public void execute(Tuple tuple) {
		String value = tuple.getString(0);
		for(String word : value.split(" ")){
			//锚定方式发送消息
			_collector.emit(tuple,new Values(word));
		}
	}

	@Override
	public void declareOutputFields(OutputFieldsDeclarer declarer) {
		declarer.declare(new Fields("word"));
	}
}

每个消息都通过这种方式被锚定，把输入消息作为emit方法的第一个参数。因为word消息被锚定在了输入消息上，这个输入消息时发送过来的tuple tree的跟节点，如果任意一个word消息处理失败，派生这个tuple tree的哪个消息将会重新发送。

与此相反，如果以这种方式发送消息，将会导致这个消息不会被锚定。如果tuple tree中的消息处理失败，派生此tuple tree的消息不会被重新发送，根据任务的容错级别，有时候适合发送一个非锚定的消息。_collector.emit(new Values(word))

很多Bolt遵循特定的处理流程，读取一个消息，发送它派生出来的子消息，在execute结尾处应答此消息，storm有一个BasicBolt接口封装了上述流程，使用这种方式比之前稍微简单一些，实现功能是一样的。发送到BasicOutputCollector的消息会被自动锚定到输入消息中，并且，当execute执行完毕时，会自动应答输入消息。

//BaseRichBolt与BaseBasicBolt
public class WordBolt extends BaseBasicBolt {

	@Override
	public void declareOutputFields(OutputFieldsDeclarer declarer) {
		declarer.declare(new Fields("word"));
	}

	@Override
	public void execute(Tuple tuple, BasicOutputCollector collector) {
		String value = tuple.getString(0);
		for(String word : value.split(" ")){
			//默认会锚定到tuple
			collector.emit(new Values(word));
		}
	}
}

高效地实现tuple tree

Tuple是如何被跟踪的呢？系统中有成千上万的消息，如果为每个spout发送的消息都构建一棵树的话，很快内存就会耗尽。所以必须采用不同的策略跟踪每个消息。由于使用了新的跟踪算法，storm只需要固定的内存（大约20字节）就可以跟踪一棵树。这个算法是storm正确运行的核心，也是storm最大的突破。

Acker任务记录了spout消息id到一对值的映射。第一个值就是spout的任务id，通过这个id，acker就知道消息处理完成是该通知哪个spout的任务。第二个值是一个64bit的数字，称之为ack val，他是树中所有消息的随机id的异或结果。ack val表示了整棵树的状态，无论这棵树多大，只要固定大小的数字就可以跟踪整棵树。当消息被创建和被应答是都会有相同的消息id发送过来做异或。

每当acker发现一棵树的ack val值为0是，它就知道这棵树已经被完全处理了。

选择合适的可靠性级别

Acker任务是轻量级的，所以在拓扑中并不需要太多的acker存在。可以通过Storm UI观察acker任务的吞吐量，如果吞吐量不够的话，说明需要增加额外的acker。如果你并不要求每个消息必须被处理，那么可以关闭消息的可靠处理机制，从而获取较好的性能。关闭消息的可靠处理机制意味着系统的消息会减半。

有三种方法可以调整消息的可靠性处理机制。

将参数Config.TOPOLOGY_ACKERS设置为0，通过此方法，当spout发送一个消息时，它的ack方法将立刻被调用。
Spout发送一个消息时，不指定此消息的id，当需要关闭特定消息可靠性是，可以使用此方法。
如果你不在意派生出来的自消息的可靠性，则子消息不进行锚定，子消息失败不会引起任何spout重发消息。

查看图片附件

分享到：

Java多线程之ExecutorService.invokeAny() | RedisCluster

2016-09-20 15:44
浏览 687
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Storm消息可靠处理

消息的生命周期

高效地实现tuple tree

选择合适的可靠性级别

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Storm消息可靠处理

消息的生命周期

高效地实现tuple tree

选择合适的可靠性级别

评论

发表评论

相关推荐

Storm配置文件-日志目录

Shell脚本

特征计算

storm 消息处理

jstormAck机制

Strom窗口

Storm 实践

Storm 消息可靠处理

实时xx

Storm滑动窗口

2016年书架整理

百万用户同时在线之Strom任务设计

Storm Bolt中读取Tuple数据

Storm 反压机制

Storm worker进程发生死锁

Storm 启动报错

Storm Streaming Grouping

Storm Blance

Storm Spout nextTuple策略

异常导致 Storm Worker 重启

最近访客更多访客>>