精华内容
下载资源
问答
  • 云原生监控
    2022-08-28 15:09:11

    电子版下载:

    链接:https://pan.baidu.com/s/1nT2mRetOSlVP0MjOK3-xjw 
    提取码:chop 
     

     

    Prometheus是由SoundCloud开源的监控系统,是Google BorgMon
    监控系统的开源版本。Prometheus开源项目是继Kubernetes后第二个
    正式加入CNCF(Cloud Native Computing Foundation,云原生计算基
    金会)的项目,也是继Kubernetes之后第二个正式“毕业”的CNCF项
    目,是容器和云原生领域事实上的监控标准解决方案。
    如今,Prometheus已经被全球众多企业广泛使用,它已经成为企
    业构建现代云原生架构的首选开源监控工具。近几年来,国内技术社
    区关于监控的讨论有很多,尤其是关于监控选型的讨论比较频繁,目
    前IT类公司有一个统一的趋势——使用Prometheus作为通用的监控系
    统解决方案。百度、京东、阿里、宜信、51信用卡等互联网公司都有
    专门的Prometheus研发及运维团队。
    更多相关内容
  • 2021云原生监控、日志、告警新体验
  • 该项目是用Go编写的,并在 Apache 2 许可下获得许可,源代码可在GitHub 上获得,用于云原生计算的监控,2016 加入云原生计算基金会,成为继Kubernetes(K8S)之后的第二个托管项目。 架构图 Prometheus Server:...

    简介

    监控与运维的作用

    • 能够对系统进行7*24小时的实时监控
    • 能够及时反馈系统状态
    • 保证平台的稳定运行
    • 保证服务的安全可靠
    • 保证业务的持续运行

    概况

    Prometheus是用于事件监控和警报的免费软件应用程序。该项目是用Go编写的,并在 Apache 2 许可下获得许可,源代码可在GitHub 上获得,用于云原生计算的监控,2016 加入云原生计算基金会,成为继Kubernetes(K8S)之后的第二个托管项目。

    架构图
    在这里插入图片描述

    • Prometheus Server:服务端用于抓取指标、存储时间序列数据
    • exporter:采集数据,并通过HTTP 服务的形式暴露给Prometheus Server,Prometheus Server通过访问该Exporter 提供的接口,即可获取到需要采集的监控数据
    • pushgateway:push 的方式将指标数据推送到该网关
    • alertmanager:告警管理器,处理报警的报警组件
    • adhoc:用于数据查询
    • grafana:图形展示工具

    pull和push两种方式

    • pull具有可控性,可控服务器的负载,网络的负载
    • push保证数据的实时性,得到最flush的数据

    安装

    Prometheus Server

    容器方式启动

    docker run --name prometheus -dp 9090:9090 prom/prometheus
    

    安装成功后访问9090端口显示获取服务器时间时出错:检测到浏览器和服务器之间有时间差Prometheus 依赖于准确的时间,时间漂移可能会导致意外的查询结果,所以我们调整服务器为网络时间。

    在这里插入图片描述

    yum install ntp ntpdate -y
    #安装ntpdate工具
    ntpdate cn.pool.ntp.org
    #设置系统时间与网络时间同步
    hwclock --systohc
    #将系统时间写入硬件时间
    clock -w
    #强制写入CMOS防止重启失效
    
    http://192.168.2.249:9090
    #输入自己服务器IP地址
    

    主机方式启动

    换一台服务器

    wget https://github.com/prometheus/prometheus/releases/download/v2.35.0/prometheus-2.35.0.linux-amd64.tar.gz
    

    在这里插入图片描述

    tar xvfz prometheus-*.tar.gz -C /usr/local/
    mv /usr/local/prometheus-* /usr/local/prometheus
    echo  "PATH=$PATH:/usr/local/prometheus/" >>/root/.bashrc
    source /root/.bashrc
    cd /usr/local/prometheus/
    nohup prometheus & 
    #回车后可在后台运行,不占用终端,输出默认在在当前目录nohup.out
    
    http://192.168.2.248:9090
    

    exporter
    换一台被监控机安装node_exporter,我们这里通过node-exporter来获取node节点信息,node_exporter 就是用于采集服务器节点的各种运行指标的,

    wget https://github.com/prometheus/node_exporter/releases/download/v1.3.1/node_exporter-1.3.1.linux-amd64.tar.gz
    tar xvfz  node_exporter-1.3.1.linux-amd64.tar.gz -C /usr/local
    mv /usr/local/node_exporter-1.3.1.linux-amd64 /usr/local/node_exporter
    echo  "PATH=$PATH:/usr/local/node_exporter/" >>/root/.bashrc
    nohup node_exporter &
    
    http://192.168.2.250:9100/
    #访问自己服务器地址的9100端口
    

    server通过webhook技术去访问这个网址获取node上的metrics

    配置

    浏览器访问服务端IP地址

    http://192.168.2.248:9090
    

    Status—>Targets

    可以看到只监控服务器本机

    更改server配置文件

    vim /usr/local/prometheus/prometheus.yml 
    

    末尾追加

     - job_name: "node"
        static_configs:                  
          - targets: ["192.168.2.250:9100"]
    

    因为Prometheus没有服务重启,所以只能
    查看进程杀死再启动
    在这里插入图片描述
    刷新server web
    已经启动监控
    在这里插入图片描述
    Graph查找CPU可以看到相关数据在这里插入图片描述

    展开全文
  • 浅谈云原生监控系统——Prometheus 什么是Prometheus Prometheus是一个开源系统监控和警报工具包,是由Matt T. Proud和 Julius Volz私下创立的,初始开发由SoundCloud赞助的,使用Go语言编写,是Google BorgMon监控...

    浅谈云原生监控系统——Prometheus

    什么是Prometheus

    Prometheus是一个开源系统监控和警报工具包,是由Matt T. ProudJulius Volz私下创立的,初始开发由SoundCloud赞助的,使用Go语言编写,是Google BorgMon监控系统的开源版本。

    2016年由Google发起Linux基金会旗下的原生云基金会(Cloud Native Computing Foundation), 将Prometheus纳入其下第二大开源项目。

    Prometheus的特点

    • 多维度数据模型。

    • 灵活的查询语言。

    • 不依赖分布式存储,单个服务器节点是自主的。

    • 通过基于HTTP的pull方式采集时序数据。

    • 可以通过中间网关进行时序列数据推送。

    • 通过服务发现或者静态配置来发现目标服务对象。

    • 支持多种多样的图表和界面展示,比如Grafana等。

    Prometheus与Zabbix对比

    对比项PrometheusZabbixPrometheus优势Zabbix优势
    管理二进制文件启动LNMP+编译轻量级server,便于迁移和维护
    配置配置文件图形化更好的支持自动化配置学习成本低
    client丰富的client库zabbix_agent自定义脚本为各种中间件、应用提供专业的exporter,监控项更全面支持自定义监控项,对监控设计者的格局要求较高
    数据存储方式Prometheus TSDBMySQL监控数据以时间为维度统计情况较多,时序数据库更适合用于监控数据的存储,按时间引索性能更高MsSQL比较常用,学习成本低
    数据处理PromQLMySQLPromQL计算函数丰富,统计维度广MsSQL比较常用,学习成本低
    二次开发丰富的SDKAPI提供了GO、JAVA/Scala、Python、Ruby等SDK,二次开发更便捷api适配较为常用,学习成本低
    对云环境支持原生支持容器监控更适合物理机监控自动发现容器,更好的适配K8S
    告警方式可按照标签分组,收敛在次数上收敛告警收敛方式更多样化
    监控项值支持数字支持数字、字符串可做日志监控

    架构图

    下图说明了 Prometheus 的架构及其一些生态系统组件:

    在这里插入图片描述

    常用组件

    • Prometheus Server

      Prometheus Server是Prometheus组件中的核心部分,负责实现对
      监控数据的获取,存储以及查询。 Prometheus Server可以通过静态配置管理监控目标,也可以配合使用Service Discovery的方式动态管理监控目标,并从这些监控目标中获取数据。其次Prometheus Server需要对采集到的监控数据进行存储,Prometheus Server本身就是一个时序数据库,将采集到的监控数据按照时间序列的方式存储在本地磁盘当中。最后Prometheus Server对外提供了自定义的PromQL语言,实现对数据的查询以及分析。
      Prometheus Server内置的Express Browser UI,通过这个UI可以直接通过PromQL实现数据的查询以及可视化。
      Prometheus Server的联邦集群能力可以使其从其他的Prometheus Server实例中获取数据,因此在大规模监控的情况下,可以通过联邦集群以及功能分区的方式对Prometheus Server进行扩展。

    • alertmanager

      在Prometheus Server中支持基于PromQL创建告警规则,如果满足PromQL定义的规则,则会产生一条告警,而告警的后续处理流程则由AlertManager进行管理。在AlertManager中我们可以与邮件,Slack等等内置的通知方式进行集成,也可以通过Webhook自定义告警处理方式。AlertManager即Prometheus体系中的告警处理中心。

    • pushgateway

      由于Prometheus数据采集基于Pull模型进行设计,因此在网络环境的配置上必须要让Prometheus Server能够直接与Exporter进行通信。 当这种网络需求无法直接满足时,就可以利用PushGateway来进行中转。可以通过PushGateway将内部网络的监控数据主动Push到Gateway当中。而Prometheus Server则可以采用同样Pull的方式从PushGateway中获取到监控数据。

      补充说明:Prometheus抓取数据的两种模式 (1) push 模式(2)pull模式
      push 模式 :这种模式我们可以灵活的zai被监控端使用各种语言编写数据采集脚本,通过PushGateway传输给Prometheus,传输方式为http
      pull 模式 :我们直接使用采集数据客户端xxx_exporters将数据传输给Prometheus,已经有很多xxx_exporters详见官档,同样也是http

    • Granfana

      Grafana是一个跨平台的开源的度量分析和可视化工具,可以通过将采集的数据查询然后可视化的展示,并及时通知。它主要有以下六大特点:

      1、展示方式:快速灵活的客户端图表,面板插件有许多不同方式的可视化指标和日志,官方库中具有丰富的仪表盘插件,比如热图、折线图、图表等多种展示方式;

      2、数据源:Graphite,InfluxDB,OpenTSDB,Prometheus,Elasticsearch,CloudWatch和KairosDB等;

      3、通知提醒:以可视方式定义最重要指标的警报规则,Grafana将不断计算并发送通知,在数据达到阈值时通过Slack、PagerDuty等获得通知;

      4、混合展示:在同一图表中混合使用不同的数据源,可以基于每个查询指定数据源,甚至自定义数据源;

      5、注释:使用来自不同数据源的丰富事件注释图表,将鼠标悬停在事件上会显示完整的事件元数据和标记;

      6、过滤器:Ad-hoc过滤器允许动态创建新的键/值过滤器,这些过滤器会自动应用于使用该数据源的所有查询。

    • exporter

      Exporter将监控数据采集的端点通过HTTP服务的形式暴露给Prometheus Server,Prometheus Server通过访问该Exporter提供的Endpoint端点,即可获取到需要采集的监控数据。
      一般来说可以将Exporter分为2类:
      直接采集:这一类Exporter直接内置了对Prometheus监控的支持,比如cAdvisor,Kubernetes,Etcd,Gokit等,都直接内置了用于向Prometheus暴露监控数据的端点。
      间接采集:间接采集,原有监控目标并不直接支持Prometheus,因此我们需要通过Prometheus提供的Client Library编写该监控目标的监控采集程序。例如: Mysql Exporter,JMX Exporter,Consul Exporter等。

    展开全文
  • 作者领读 | Prometheus云原生监控

    千次阅读 2020-11-16 07:00:00
    撰文:朱政科01 作者导读昨天收到书,用了两天时间,我也亲自把这本书读完了一遍。今天写这篇文章的目的是带读者用正确的方式读这本书。《Prometheus云原生监控:运维与开发实战》‍‍上...

    撰文:朱政科

    01 作者导读

    昨天收到书,用了两天时间,我也亲自把这本书读完了一遍。今天写这篇文章的目的是带读者用正确的方式读这本书。

    《Prometheus云原生监控:运维与开发实战》

    ‍‍上下滑动查看书籍目录

    赞誉

    前言

    第1章 监控之美  1

    1.1 监控:把握应用的脉搏  2

    1.2 监控架构分类  6

    1.3 MDD思想:从指标到洞察力  10

    1.3.1 MDD理念综述  10

    1.3.2 指导实践的3大监控方法论  12

    1.4 监控系统选型分析及误区探讨  13

    1.4.1 黑盒监控和白盒监控  14

    1.4.2 监控检查的两种模式—拉取和推送  14

    1.4.3 5种常见的监控系统  15

    1.4.4 监控系统的选型分析及误区探讨  24

    1.5 本章小结  32

    第2章 Prometheus入门  33

    2.1 Prometheus发展简史  34

    2.2 Prometheus的主要特点  35

    2.3 Prometheus架构剖析  37

    2.4 Prometheus的3大局限性  43

    2.5 快速安装并启动Prometheus  43

    2.6 本章小结  49

    第3章 Spring Boot可视化监控实战  50

    3.1 用Micrometer仪表化JVM应用  50

    3.2 在Spring Boot 2.x中集成Prometheus的方法  53

    3.2.1 引入Maven依赖  54

    3.2.2 application.properties配置  56

    3.2.3 通过MeterBinder接口采集和注册指标  57

    3.2.4 以埋点的方式更新指标数据  58

    3.2.5 效果展示  59

    3.3 针对Spring Boot 2.x采集并可视化相关数据  61

    3.4 第三方专业可视化工具—Grafana  62

    3.5 Grafana高级模板  67

    3.6 邮件告警的生成与扩展  77

    3.6.1 通过Alertmanager生成邮件告警  77

    3.6.2 邮件告警扩展:cc和bcc  79

    3.7 构建钉钉告警系统  80

    3.7.1 安装MacOS Docker  80

    3.7.2 安装Docker镜像  81

    3.7.3 钉钉接入设置  83

    3.7.4 钉钉告警功能验证  84

    3.8 本章小结  86

    第4章 PromQL让数据会说话  87

    4.1 初识PromQL  87

    4.1.1 PromQL的4种数据类型  89

    4.1.2 时间序列  90

    4.1.3 指标  91

    4.2 PromQL中的4大选择器  94

    4.2.1 匹配器  95

    4.2.2 瞬时向量选择器  98

    4.2.3 区间向量选择器  99

    4.2.4 偏移量修改器  100

    4.3 Prometheus的4大指标类型  101

    4.3.1 计数器  101

    4.3.2 仪表盘  103

    4.3.3 直方图  104

    4.3.4 摘要  107

    4.4 13种聚合操作  109

    4.5 Prometheus的3种二元操作符  117

    4.5.1 算术运算符  118

    4.5.2 集合/逻辑运算符  119

    4.5.3 比较运算符  120

    4.5.4 优先级  122

    4.6 向量匹配  122

    4.6.1 一对一匹配  122

    4.6.2 一对多和多对一匹配  123

    4.6.3 多对多匹配  124

    4.7 本章小结  124

    第5章 PromQL高级实战  125

    5.1 Prometheus内置函数  125

    5.1.1 动态标签函数  126

    5.1.2 数学运算函数  128

    5.1.3 类型转换函数  133

    5.1.4 时间和日期函数  133

    5.1.5 多对多逻辑运算符函数  137

    5.1.6 排序函数  138

    5.1.7 Counter函数  139

    5.1.8 Gauge函数  141

    5.1.9 Histogram函数  144

    5.1.10 时间聚合函数  145

    5.2 HTTP API  146

    5.2.1 API响应格式  148

    5.2.2 表达式查询  149

    5.2.3 元数据管理  150

    5.2.4 其他拓展  151

    5.3 两种可定期执行的规则  155

    5.3.1 记录规则  155

    5.3.2 告警规则  159

    5.4 指标的抓取与存储  160

    5.4.1 用relabel_conf?igs抓取指标  160

    5.4.2 用metric_relabel_conf?igs存储指标  163

    5.5 通过调优解决PromQL耗尽资源问题  166

    5.6 本章小结  166

    第6章 Prometheus告警机制深度解析  167

    6.1 Alertmanager架构解析  167

    6.2 AMTool的安装与用法  169

    6.3 配置文件的编写与解读  171

    6.4 告警规则的定义  177

    6.5 关于告警的高级应用与问题处理  180

    6.5.1 Prometheus告警失灵  180

    6.5.2 出现告警轰炸的问题  182

    6.6 构建高可用告警集群  184

    6.7 本章小结  186

    第7章 Prometheus独孤九剑:通过定制Exporter监控一切  187

    7.1 Exporter概述  187

    7.2 Exporter的数据规范  189

    7.3 Exporter数据采集方式  191

    7.4 一个最简单的Exporter示例  192

    7.5 自己动手编写一个Exporter  195

    7.6 高质量Exporter的编写原则与方法  198

    7.6.1 分配合理的端口号  198

    7.6.2 设计落地页  201

    7.6.3 将软件版本信息提供给Prometheus的正确方法  201

    7.6.4 必备指标的梳理  202

    7.6.5 编写高质量Exporter的其他注意事项  209

    7.7 Node Exporter源码解析  210

    7.8 Exporter高级应用:开启TSL连接和Basic Auth认证  214

    7.8.1 准备证书  214

    7.8.2 支持TLS的配置方法  214

    7.8.3 支持Basic Auth的配置方法  215

    7.9 本章小结  216

    第8章 Spring Boot高级监控实战  217

    8.1 Controller监控实战  217

    8.2 业务代码监控实战  218

    8.3 通过注解进行监控的设置与实战  221

    8.4 Dubbo监控实战  223

    8.5 SPI机制原理解析  225

    8.6 SPI高级实战:基于Dubbo的分布式日志链路TraceID追踪  228

    8.7 集成Spring Boot时的常见问题及其解决方案  231

    8.8 关于Micrometer的两个常见问题及其解决方案  234

    8.8.1 极大值BUG问题  235

    8.8.2 Actuator内存溢出问题  237

    8.9 micrometer-spring-legacy源码解析  242

    8.9.1 spring.factories  244

    8.9.2 CompositeMeterRegistryAuto-Conf?iguration  246

    8.9.3 XX-MeterRegistry的注册  248

    8.9.4 WebMvcMetricsFilter过滤器  249

    8.9.5 其他  250

    8.10 本章小结  251

    第9章 Prometheus集群实战  252

    9.1 校时  252

    9.2 Prometheus的3种常见HA架构

     方案  255

    9.2.1 简单HA  256

    9.2.2 简单HA+远程存储  256

    9.2.3 简单HA+远程存储+联邦集群  257

    9.2.4 联邦集群配置方式  261

    9.2.5 功能分区配置方式  262

    9.2.6 K8S单点故障引发的POD漂移问题  263

    9.3 Prometheus集群架构采集优化方案  263

    9.4 在企业中从零推广Prometheus架构  266

    9.4.1 研发团队  266

    9.4.2 运维团队  267

    9.4.3 借助K8S一起推进上线  268

    9.5 搭建基于M3DB的简单HA+远程存储Prometheus K8S集群  268

    9.5.1 架构说明  268

    9.5.2 K8S内部Prometheus  270

    9.5.3 K8S外部Prometheus  270

    9.5.4 M3DB  276

    9.6 多租户、可横向扩展的Prometheus即服务—?Cortex  277

    9.7 本章小结  280

    第10章 Prometheus存储原理与问题分析  281

    10.1 本地存储文件结构解析  282

    10.2 存储原理解析  286

    10.3 存储配置方法  287

    10.4 本地存储容量规划原则与方法  290

    10.5 RAM容量规划原则与方法  291

    10.6 本地存储及时性和时序性问题分析  293

    10.7 本章小结  294

    第11章 Prometheus其他相关技术分析与实战  296

    11.1 Thanos架构与监控实战  296

    11.1.1 Thanos架构解析  297

    11.1.2 Thanos在Prometheus监控中的作用与实战  299

    11.1.3 Thanos存在的问题  302

    11.2 M3DB技术详解  303

    11.3 Loki的特性、架构与应用  306

    11.3.1 Loki特性  307

    11.3.2 Loki架构简介  308

    11.3.3 Loki使用方法  310

    11.4 ELK的5种主流架构及其优劣分析  311

    11.4.1 为什么要用ELK  312

    11.4.2 基础架构  313

    11.4.3 改良架构  314

    11.4.4 二次改良架构  315

    11.4.5 基于Tribe Node概念的架构  316

    11.4.6 带有冷热分离功能的架构  316

    11.5 Fluentd和Fluent Bit项目简介  317

    11.6 Operator模式现状与未来展望  319

    11.7 关于灵活运用Prometheus的几点建议  321

    11.8 本章小结  323

    附录A Prometheus相关端口列表  324

    附录B PromQL速查手册  350

    附录C Prometheus 2.x(从2.0.0到2.20.0)的重大版本变迁  354

    附录D Prometheus自监控指标  363

    附录E SLA服务可用性基础参考指标  366

    首先要和大家说的是,这本书除了上百个案例以外,是配有免费视频的。重要的事情说三遍,配有免费视频的、配有免费视频的、配有免费视频的!!!地址如下:

    https://www.imooc.com/learn/1231

    其次要和大家说的是,在写这本书的期间,我的确读过了很多同类型的书籍。

    第一章

    第一章是理论基础,第一章的内容我写了足足一个月时间,耗时之久。它非微观,而是宏观上从方法论上几近全方位的覆盖了监控的方方面面。建议读者朋友们不要略过本章节,相信本章节一定会对大家有所启发。

    举个例子,本章甚至对很多监控系统的英文名都做了罗列,可以看出作者是很用心的在做这件事,诸如:

    Nagios 原名NetSaint,是NagiosAin'tGonna Insist On Sainthood的缩写,Sainthood 翻译为圣徒,而Agios是saint的希腊表示方法。

    Ganglia的英文直译为神经节、中枢神经,项目的名称其实已经反映了作者的设计思路,即将服务器集群理解为生物神经系统,每台服务器都是独立工作的神经节,这些神经节通过多层次树突结构连接起来,既可以横向联合,也可以从低向高逐层传递信息。具体例证就是Ganglia的收集数据可以工作在单播(unicast) 或多播(multicast) 模式下(默认为多播模式)。很多通过cacti或者Zabbix看不出来的集群总体负载问题,都能在Ganglia中体现,其集群的熵图可以明确集群负载状况,这是Ganglia最大的亮点。

    Falcon 是猎鹰、隼的意思,鹰眼具有精准、洞穿的特点。

    第一章精心准备了大量的表格,比如Zabbix、Nagios、Ganglia、Open-Falcon、Prometheus等主流监控系统全方位的对比;比如Go语言开发的系统生态,监控系统、微服务框架、WEB框架、WEB工具、容器项目、PAAS工具、数据库工具、存储工具及分布式文件系统、消息系统、服务管理工具、安全工具、网络工具、分布式系统、区块链项目等;以及从功能、性能、数据存储、服务发现、运维管理、开发语言、社区力度及生态发展、误区探讨等九个角度进行监控系统的选型分析思路。

    第一章最后给读者的启示是,千万不要迷信权威。不要迷信权威,不能人云亦云。不是别人说好就是好,一定要自己亲身试验过才有发言权,实践出真知,比如Prometheus的作者就亲自怼过社区关于VictoriaMetrics的不实言论:

    【原创|译】PromCon上VictoriaMetrics和Prometheus的权威性能和正确性评估

    第一章部分原文:

    不同的企业成长时期也可以选择不一样的监控系统,CMDB+Zabbix在一定的量级以内还是非常靠谱和稳定的,一台机器就可以扛住很多的监控业务。如果您的业务和技术并没有达到那个量级且中长期达不到那个量级,投入大量人力物力搞出来的那个“巨无霸”,真的非常有意义和价值吗?很多经验丰富的技术人员用过的监控系统应该不下十种,每款监控工具都有自己的优缺点,并不是越新的技术就越好,不能盲目跟风,没有最好的只有最合适的。Nagios,虽然历史悠久,但是在实际运维中依然有它独立存在的意义,在一些基本的监控项目中甚至比高大上的Prometheus更加方便:比如针对ping和telnet port这两项最基本的监控,prometheus有一个up功能函数进行支持,但是只有两个状态up和down,而Nagios对这种状态比较少的监控更为简单直接。盲目追新并不是监控选型的态度,专业的监控架构是综合实际使用情况去做设计做规划,多种监控可以根据实际情况结合使用、相辅相成。

    十万的用户有十万的架构方案,百万的用户有百万的架构方案,千万的用户有千万的架构方案,亿级的用户有亿级的架构方案。就好比,我团队一个成员开会时曾提出,“现在我维护的网关系统,界面不太好看,我想请前端资源帮我美化一下”。我直接回复:“现在应该没有人接入你的网关吧,当前第一要务是接入,美化的事情并没有接入那么重要,当前也没有必要浪费前端资源”。什么阶段就应该做什么阶段的事情。

    第二、三、八章有免费视频辅助阅读!

    第二章和第三章,手把手带大家搭建基于Spring Boot 2.x的实战监控体系,让大家体会企业项目面向DevOps开发的监控情景。

    第八章是第二、三章的升级,大家可以和二、三章以及视频内容结合起来学习。另外,市面上的Prometheus邮件告警内容都没有cc和bcc功能,本书79页针对抄送和密送能力进行了补充。

    这是有免费视频的,如果看不懂的同学请结合免费视频学习:

    https://www.imooc.com/learn/1231

    第四、五章请作为工具书使用

    第四章和第五章,用了80多页介绍了PromQL,作者给出了上百个实际案例,这是其他Prometheus书籍和官方文档都没有的。这部分内容,阅读了大量的资料,也做了不少的实践。一个个案例剖析,甚至精确到PromQL的极致优化。

    没有深度使用Prometheus的用户,第四章和第五章的实战部分可以直接跳过,看看概念就行。如果需要使用的时候可以当作工具书使用。含有大量的思考、误区规避、注意事项、案例等

    第六章请大家一定要围绕这张架构图去理解Prometheus告警机制的原理:

    也给出了非常详细的类似代码注释一般的配置文件的编写与解读,希望对读者有帮助

    第六章还给出了关于告警过程中分组、抑制、静默等问题做了分析指导。解答技术人员在运维Prometheus过程中,普遍遇到的问题:

    • 为什么该告警的时候不告警 ?

    • 为什么不该告警的时候偏偏告警了 ?

    第七

    第七章分析了很多Exporter的实现原理,并指导读者如何编写自己的Go语言Exporter。

    该章节运用软件工程的知识,通过专业的软件研发流程指导开发者编写Exproter过程中需要注意的方方面面。

    对于安全问题,本章还给出了一个彩蛋,《Exporter高级:开启TSL连接和Basic Auth认证》,感兴趣的读者可以阅读本内容。

    第九


    第九章介绍了Prometheus集群实战的架构问题,讨论多种集群集解决方案的理念、方法及优化手段,探究如何构建更具有扩展性和可靠性的集群实现。对集群感兴趣的同学可以关注本章节。

    02 作者介绍

    朱政科

    资深架构师,中间件技术专家,对数据库连接池和Prometheus等监控技术有深入研究。

    有10余年IT行业从业经验,现就职于国内某大型世界百强企业。

    曾在阿里等一线互联网公司长期从事中间件的研发及团队管理工作。

    先后主导和参与了多个重要的与物联网、人工智能等相关的大型项目。

    著有《HikariCP数据库连接池实战》。

    03 本书的不同之处在哪里?

    • 被誉为Prometheus“百科全书”

    • 可以指导读者快速搭建一个Prometheus监控系统并将其应用到实际工作中

    • 囊括私有云、公有云、混合云环境下的大量案例

    • 针对运维人员,分享Prometheus对接各种云原生应用并实现事前预警、事中报警、事后提供翔实数据的方法

    • 针对开发人员,给出了Prometheus主要组件的源码分析以及部分功能的二次开发实现

    • 从入门知识到高级技巧,全面解读PromQL,并给出上百个PromQL实际案例

    • 以附录的形式给出端口、数据类型、选择器、指标类型、PromQL内置函数等实际工作中需要时常查阅的内容

    04 专家推荐

    Prometheus凭借优秀的表现和简单极致的用户体验,在时序数据库领域脱颖而出,并在监控方面表现优异,成为基础设施建设中不可或缺的部分。在CNCF中,其是除Kubernetes之外最早毕业的项目,这见证了它在云原生领域的影响力和声望。

    本书系统阐述了Prometheus开发与运维的知识和技巧,并且辅助以大量实战案例,能够帮助读者更加立体地掌握Prometheus这项技术。

    很开心看到朱政科将自己的所学所悟集结成书,也很惊讶他如此高效地出版了自己第二本著作。希望他的书籍能够持续给读者提供帮助。

    张 亮

    京东数科数字技术中心架构专家,Apache ShardingSphere、ElasticJob创始人

    Prometheus作为源自Google INFRA的通用开源监控工具,在业界被广泛使用。学习、理解和熟练使用Promehteus,可以帮你快速构建轻量级监控体系。推荐大家通过本书系统学习Prometheus的特性、使用方法和作者的实战经验。

    吴 晟

    Tetrate.io创始工程师,Apache软件基金会会员,

    Apache SkyWalking创始人兼项目VP,

    Apache ShardingSphere、APISIX和Incubator PMC成员

    一辆好车除了要有好的发动机和变速箱之外,还需要仪表盘和各种显示设备,以显示油量、速度等各种车辆状态数据。同理,互联网在线服务如果没有良好的监控告警系统,就如同一个人闭着眼睛开车,那是非常可怕的。

     对于监控系统而言,简单、可配置、可靠、高性能是必要条件,海量数据的采集、存储与可分析是关键。Prometheus 是一套基于时序数据库的、目前最为流行的、较完善的监控解决方案,其可通过监控、告警及性能优化等,帮助企业及时发现问题、定位问题,是不可多得的SRE(网络可靠性工程)利器。

    政科在阿里、华为等一线互联网公司长期从事中间件的研发工作,多次经历“双11”大促,在实践中积累了丰富的经验。这本书从架构、中间件研发、SRE等多个角度详细介绍了Prometheus,以及PromQL等知识,包括相关原理和实战要点,具有较强实战指导意义,是不可多得的佳作。

    徐 巍

    恺英网络技术中心总经理

    监控是温度计,也是指标仪。在监控、告警、应急处置三部曲中,监控是基础。本书全面介绍了Prometheus的应用方法和产品内核,内容翔实,是该领域的佳作。

    于君泽

    《深入分布式缓存》《程序员的三门课》联合作者

    相较以往的系统监控,监控作为可观察性实践(监控、日志、追踪)中的关键一环,在云原生时代产生了诸多变化:一是微服务和容器化,导致监控对象和指标呈指数级增加;二是监控对象的生命周期更加短暂,导致监控数据量和复杂度成倍增加。所以需要一款统一监控指标和数据查询语言的工具,Prometheus 应运而生。Pemetheus可以很方便地与众多开源项目集成,帮助我们了解系统和服务的运行状态,另外还可收集分析大数据,帮助我们进行系统优化和做出决策。它不仅可以应用在IT领域,还可以应用于任何需要收集指标数据的场景中。本书实用、凝练,是一本云原生时代监控领域难得的好书。

    宋净超

    云原生社区创始人

    Prometheus作为第二个从CNCF毕业的项目,目前已经在全球各大企业中广泛使用,可以说是云原生架构首选的开源监控工具。作者作为该领域实战派专家,在本书中全方位阐述了Prometheus的系统架构和工作原理。更难能可贵的是,书中还包含大量实际项目落地指引、最佳实践,以及常见问题的解决方案,是学习Prometheus不可多得的好书。

    张 乐

    京东DevOps与研发效能技术总监

    监控系统是DevOps工程师或SRE工程师必须掌握的系统,因为他们80%以上的线上运维事务都与监控密切相关。完美的监控系统,可以大力促进运维向智能化发展,结合业务报警实现故障快速自愈、无人化运维,并可及时定位问题根源,以及依据历史监控数据对指标做出预测。Prometheus几乎是为云原生而生的监控系统,它具有易于管理、可扩展、易集成、易获取服务内部状态、拥有高效灵活的查询语句、支持统计分析数据、生态强大等特点,因此迅速被各大云厂商使用。本书由入门到精通全方位介绍了如何玩转Prometheus,适合关注监控的广大互联网技术从业者阅读。

    王 伟

    Oracle ACE For MySQL,京东零售数据库运维专家

    Prometheus是一款造福广大DevOps、SRE工程师们的分布式监控系统神器。借助愈演愈烈的容器化部署和云原生的浪潮,Prometheus成为CNCF的基石项目。本书作者有深厚的基础中间件研发背景和丰富的实践经验,对Prometheus进行过深入研究和深度应用,他把自己的理解和实战经验总结出来,著成本书。本书文字简洁而不失其味,对技术原理的剖析鞭辟入里,实用性极强,相信能给读者带来不一样的启发。

    张 聪

    税友软件集团研发中心副总,基础中间件、持续交付工具和大数据平台研发负责人

    我本人接触和使用Prometheus已经很久了,很高兴看到国内有Prometheus相关的书籍出版。本书不局限于Prometheus本身,还对比了市面上其他常见的监控系统,可以帮助读者更好地理解Prometheus。本书还介绍了很多常见的方法论。配合这些方法论,以及书中的实战内容,读者可以更好地建设自己的监控体系。

    张晋涛

    网易有道资深运维开发人员,云原生技术布道师

    基于云的技术,不论是上层应用还是底层云平台,都离不开监控,而Prometheus是云化场景下的事实性标准。作者结合丰富的Prometheus实战经验写成本书。本书有概念,有方法,有实例,非常值得广大云化技术的从业者阅读。

    苏光牛  

    华为云数据库业务总裁,Gaussdb负责人

    监控是整个运维乃至整个产品生命周期中重要的一环,选择一款开源的监控系统,是一个省时省力且高效的方案。目前业界有很多不错的开源产品可供选择,其中Prometheus已成为企业构建现代云原生架构的首选开源监控工具。本书通过理论和实践相结合的方式展开,非常适合运维人员及对运维监控感兴趣的开发者阅读。

    史健(无济) 

    原阿里云资深技术专家,原奇点云CTO 

    政科曾主导Kubernetes+Prometheus项目,并一举拿下了公司年度产研类项目奖,他拥有丰富的实战经验,本书是他对这些经验的总结。本书在内容上深入浅出,注重实战性、实用性,不仅适用于运维人员,也很好地满足了开发人员的诉求,值得推荐。

    殷柱伟  

    腾讯WeTest产品总监 

    监控的开源项目有很多,但是能像Prometheus这样优秀的作品并不多;讲述监控和Prometheus的书籍有很多,但是像本书一样完整地对Prometheus的方方面面进行剖析的并不多。所以我想,本书一定会对正走在奋斗路上的"监控者"们有所帮助。

    王晓波  

    同程旅行 机票事业群 CTO

    作为作者多年的朋友加同事,熟知作者如何将Prometheus应用在平时的开发、运维工作中。本书便是作者在监控领域多年开发、运维经验的总结,书中对Prometheus的方方面面进行了深入剖析,从入门到精通全方面介绍如何体系化学习Prometheus系统,特别适合在监控或运维领域奋斗的互联网技术同胞们阅读。

     吕飞 

     华为云SRE技术专家,原阿里巴巴运维技术专家

    更多精彩回顾

    书讯 |11月书讯(下)| 这些好书必须“买买买”!

    书讯 |11月书讯(上)| 这些好书必须“买买买”!

    资讯 |DB-Engines 10月数据库排名:“三大王”无人能敌,PostgreSQL紧随其后

    上新 | 百度官方出品 | 全面解读PaddlePaddle,零基础快速入门深度学习
    书单 | 开学季——计算机专业学生必读的10本畅销经典

    干货 | 数据分析必读干货:简单而实用的3大分析方法

    收藏 | (万字长文)Spring的核心知识尽揽其中

    点击阅读全文购买

    展开全文
  • 监控之美——Prometheus云原生监控

    千次阅读 2020-11-14 09:00:00
    朱政科读完需要25分钟速读仅需 3 分钟本文摘自于朱政科撰写的《Prometheus 云原生监控:运维与开发实战》,介绍了监控的概念、监控的分类、MDD 理念、Google 四大黄金指标...
  • zabbix是传统的监控系统,出现比云原生早,使用的是SQL关系型数据库;而Prometheus基于谷歌的borgemon使用go语言开发,使用TSDB数据库,所以支持云原生。zabbix最新发布的6.0版本,知道自己处于生死存亡时刻,也支持...
  • 监控基础 为什么需要监控 监控如同切脉诊断,是技术人员先于用户发现问题的最佳手段。完善的监控系统能够引导技术人员快速定位问题并解决,可以将系统的问题扼杀于萌芽状态。完善的监控系统,是技术人员运筹帷幄的...
  • 我们提供一键 迁移工具,帮您一键将 TPS 实例迁移到 TMP,迁移前请 精简监控指标 或降低采集频率,否则可能产生较高费用,再次感谢您对 TPS 的支持和信任
  • 云原生应用的设计理念已经被越来越多的开发者接受与认可,而Kubernetes做为云原生的标准接口实现,已经成为了整个stack的中心,云服务的能力可以通过CloudProvider、CRDController、Operator等等的方式从Kubernetes...
  • 云原生架构监控

    2022-05-20 21:12:45
    监控在生产系统中是必不可少的一部分,是系统稳定运行的重要基础,尤其是在云原生环境下,良好的指标监控系统对云原生应用的高效、平稳运行起到了重要的作用。 监控指标数据是可累加的,它们具有原子性,每个都是一...
  • Prometheus监控系统.pdf

    2021-05-12 15:02:41
    Prometheus监控系统.pdf
  • 全面学习Prometheus

    2021-02-24 12:26:45
    Prometheus是继Kubernetes后第2个正式加入CNCF基金会的项目,容器和云原生领域事实的监控标准解决方案。本文最后将从0开始构建完整的Kubernetes监控架构。在《SRE:Google运维解密》一书中指出,监控系统需要能够...
  • 在这个人人都谈“云原生”的时代,企业在建设内部相关系统时常常会优先考虑云原生架构。那么,云原生架构的系统与传统架构系统有什么不同?又该如何建设呢?本文我们邀请京东架构师韩超老师分享了京东基...
  • 【prometheus】-06 Kubernetes云原生监控之cAdvisor容器资源监控2021-09-01 【prometheus】-05 Kubernetes云原生监控之节点性能监...
  • 云原生监控体系建设 Apache SkyWalking Adapter for HPA Chaos Mesh让应用与混沌在 Kubernetes 上共舞 K8S在UCloud内部的应用 02-北京 服务网格在金融行业的大规模落地实践 云原生分布式存储解决方案实践 云原生下...
  • 云原生时代,且业务架构复杂、用户量庞大的场景下,他们怎么都能轻而易举地实现了? 方案背景自研业务上云、业务服务云化,底层 IAAS、PAAS 等资源托管依赖,业务聚焦于业务逻辑实现。使用微服务框架开发服务...
  • 分享时间:12月3日 20:30分享主题:基于Prometheus的云原生监控系统架构演进分享人介绍:Ray,腾讯云高级工程师,拥有多年大规模Kubernetes集群联邦运维经验,曾就职...
  • 重磅,史上最全的阿里云分享的云原生技术学习资料合集,共120份。 一、阿里云开源书合集 2020微服务领域开源数字化报告 阿里巴巴云原生技术与实践13讲 阿里巴巴云原生实践15讲 不一样的双11技术:阿里巴巴经济体...
  • 云原生大厦的基石之一「云原生可观测性」

    千次阅读 多人点赞 2022-04-11 13:32:32
    云原生的概念近几年非常火热 ,而且它极有可能成为 IT 技术新的发展方向 , 本文将一探**云原生**。 ​ 在介绍云原生的概念之前,我们先理解一下当下**面向机器开发**的软件系统。不管是运行在 *Windows* 或者 *...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 39,502
精华内容 15,800
关键字:

云原生监控

友情链接: bos19.zip