`
woodding2008
  • 浏览: 284970 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Storm平台监控方案[ 上 ]

 
阅读更多

监控的初衷

       社区版的storm除去storm UI可以提供一点信息外,实际上任务完全运行在一个黑盒子里,不仅不知道任务的运行情况,即使任务有问题时也无法及时通知用户来处理,事后排查问题又非常困难。为了解决这些问题,需要把任务运行的情况掌握起来。

 

监控的维度

任务维度监控 

  • 组件处理耗时,单位:毫秒 
  • 任务组件tps 
  • worker处理耗时,单位:毫秒 
  • worker tps 
  • worker.capacity【(number executed * average execute latency) / measurement time】

worker维度监控

  • 1分钟内parnew gc 平均耗时,单位:毫秒 
  • 1分钟内concurrentmarksweep gc 平均耗时单位:毫秒 
  • 1分钟内parnew gc次数 
  • 1分钟内concurrentmarksweep gc次数 
  • 老年代内存使用比率 
  • gc吞吐,计算公式:(runTime - totalGCTime) / runTime 
  • worker线程活跃数 
  • worker日志文件个数 
  • worker线程峰值 
  • worker文件大小 
  • worker运行时长,单位:天 
  • worker进程使用的文件句柄数 
  • worker进程使用的cpu
  • worker进程使用的swap
  • worker进程user使用的cpu
  • worker进程system使用的cpu 
  • worker内组件TPS监控

自助定问题

  • jstack定时生成并提供下载
  • 手动jmap堆信息并提供下载

管理员维度

  •  集群tps
  •  集群emit量   
  • 主机tps   
  • 主机emit量

灵活告警

  • 针对用户的告警
  • 邮件+短信

常见问题汇总

  • 内存泄漏
  • 线程泄漏
  • 连接泄漏
  • 任务并发设置不合理,worker不均衡
  • 不合理的日志输出
  • spout阻塞导致ticktuple停止
  • 不合理的slot数导致cpu都用来gc
  • 内核问题导致进程夯住
  • 网络连接随机端口导致worker端口被占
  • woker进程死锁
  • 下游系统慢导致反压队列爆满而OOM

 监控数据效果图

 

  • 大小: 131.4 KB
  • 大小: 66.5 KB
分享到:
评论
2 楼 woodding2008 2016-09-27  
gyp759596380 写道
你好,你这个是怎么做的,求分享

后面还会写几篇相关文章可供参考
1 楼 gyp759596380 2016-09-27  
你好,你这个是怎么做的,求分享

相关推荐

    Storm入门教程 之Storm原理和概念详解

    Storm流计算从入门到精通之技术篇(高并发策略、批处理事务、Trident精解、运维监控、企业场景) Storm入门教程 之Storm原理和概念详解,出自Storm流计算从入门到精通之技术篇,Storm入门视频教程用到技术:Storm集群...

    Storm技术内幕与大数据实践

    汇集作者在大众点评和1号店实时平台的大数据实践, 讲解基于Storm的流数据处理的整体解决方案, 《Storm技术内幕与大数据实践》内容主要围绕实时大数据系统的各个方面展开,从实时平台总体介绍到集群源码、运维监控、...

    城市大数据平台.pptx

    目 录 2 运营、应用 3 项目案例 1 方案、产品 城市大数据平台全文共31页,当前为第1页。 智慧城市大数据建设背景 城市大数据平台全文共31页,当前为第2页。 大数据平台在智慧城市中的位置 城市大数据平台全文共31页...

    1城市大数据平台.pptx

    目 录 2 运营、应用 3 项目案例 1 方案、产品 1城市大数据平台全文共31页,当前为第1页。 智慧城市大数据建设背景 1城市大数据平台全文共31页,当前为第2页。 大数据平台在智慧城市中的位置 1城市大数据平台全文共31...

    DockOne技术总结整理(五)

    Dixon在2012就意识到这些工具的问题是每个人都想做到大而全,实际上我们更需要的是一对小二精的组件拼装成一个个性化的解决方案。推荐大家去看一下他的演讲视频。这是JasonDixon所构想一个组件图。他认为不同的开源...

    Python.Unix和Linux系统管理指南

    介绍了Python语言如何为管理uNIx和Linux服务器提供各种...通过《Python UNIX和Linux系统管理指南》及其补充的虚拟机,你可以了解如何打包并部署Python应用程序和库,以及编写代码在类似的多个UNIXfH Linux平台上运行。

    PYTHON UNIX和LINUX系统管理指南

    《Python UNIX和Linux系统管理指南》介绍了Python语言..., 通过《Python UNIX和Linux系统管理指南》及其补充的虚拟机,你可以了解如何打包并部署Python应用程序和库,以及编写代码在类似的多个UNIXfH Linux平台上运行。

    数据分析方法与技术.pptx

    海量 数据存储 大规模计算 智能 分析算法 Zoo Keeper 明细数据 E T L 报表展示 数据分析 数据挖掘 元数据管理 数据质量监控 数据监控 数据集市 数据应用 汇总加工数据 数据应用 数据仓库 源数据 数据平台技术 ...

    大型分布式网站架构与实践

     常见的分布式系统存储解决方案,包括MySQL的分布式扩展、HBase的API及使用场景、Redis的使用等。  如何使用分布式消息系统ActiveMQ来降低系统之间的耦合度,以及进行应用间的通信。  垂直化的搜索引擎在分布式...

    Python在Unix和Linux系统管理中的应用

    《Python在Unix和Linux系统管理中的应用(影印版)》的每一章都会提出一个特定的管理问题,例如并发或数据备份,然后通过实际的例子提供基于Python的解决方案。你将学习使用Python开发一套属于自己的命令行工具,并...

    JAVA上百实例源码以及开源项目

    此时此景,笔者只专注Android、Iphone等移动平台开发,看着这些源码心中有万分感慨,写此文章纪念那时那景! Java 源码包 Applet钢琴模拟程序java源码 2个目标文件,提供基本的音乐编辑功能。编辑音乐软件的朋友,这...

    switch security.rar

    二层安全: 一、MAC layer attacks 攻击方法: 1、MAC地址...3550(config-if)#storm-control broadcast level 5 按百分比进行监控 3550(config-if)#storm-control broadcast bps 10 按实际流量,注意单位是M

    JAVA上百实例源码以及开源项目源代码

    5个目标文件,演示Address EJB的实现,创建一个EJB测试客户端,得到名字上下文,查询jndi名,通过强制转型得到Home接口,getInitialContext()函数返回一个经过初始化的上下文,用client的getHome()函数调用Home接口...

    java开源包1

    JCom (Java-COM Bridge) 可以让 Java 程序轻松访问 Windows 平台上的 COM 组件。 JARP JARP是为petri 网提供的一个Java编辑器,基于ARP分析器。可以将网络图导出为 GIF, JPEG, PNG, PPM, ARP and PNML (XML based)...

    java开源包11

    JCom (Java-COM Bridge) 可以让 Java 程序轻松访问 Windows 平台上的 COM 组件。 JARP JARP是为petri 网提供的一个Java编辑器,基于ARP分析器。可以将网络图导出为 GIF, JPEG, PNG, PPM, ARP and PNML (XML based)...

Global site tag (gtag.js) - Google Analytics