zabbix“专家坐诊”第296期问答

欢迎大家加入Zabbix交流群,除了在论坛发帖求问外,还可以在QQ群里交流进步,并且每周三我们会进行免费的技术答疑活动,请大家互相转告一下! 玩转Zabbix群 QQ群号:177428068、617295020

问题一

Q:我有个分布式部署后的问题,自动发现配置了信息,如果不重启proxy,一直都见不到配置对应的预期效果出现!请问可以从哪些方面排查?日志我看了都有proxy和server都有数据发送,但是始终见不到预期效果,最后都是重启下proxy才有变化。

A:自动发现指的是自动发现规则?手动执行自动发现规则读取数据

Q:这里一开始配置了,不见有新设备出来,然后重启了。设备出来了,有时候可用性一直不行,再重启了又可以了。

wXgU2O736881881ed869b.png

这里也对应配好的。我目前使用的7.0.12版本。

hQkRM1Pe6881882ed8977.png

A:自动发现规则可以手动执行测试数据读取

Q:这个界面没有测试功能的哦。

mFgWAfGU6881884053326.png

Q:

就是这样的现象。一开始这里空白的,现在看到有ip只是我之前操作过,现在重新模拟,所以还有旧ip信息,但是对应设备的主机是出不来,我只有重启下proxy才会被添加。

ySYGArgs6881884d9d9fa.png

Q:重启第一次,发现了添加后,但是可用性还是未正常。

y2JWmAsO6881885ccb2a2.png

JKhncmJW6881886753277.png

A:首先空白是,扫描到了机器但是没加监控,其次重启了proxy会同步任务的,具体可以看动作日志,可用性代表snmp协议的连通性,这是三个东西。可用性这个问题,我还是重启一次proxy又能显示的。

Q:等他如果可行就会自动显示

A:就是通过proxy的自动发现存在预期效果不到的问题,都要靠重启proxy

Q:但是我放一天都是显示不了那种哦,不重启,永远都是这个样子,数据一直堆积再proxy队列,没到server

lsQ5x7Hp6881887bae45b.png

BNzUYv3Y6881888522fb5.png

A:看看proxy 的自监控或者排查下相关负载,看看是正常的吗?zabbix/sbin/zabbix_server -R diaginfo 看看数据写入

Q:

# zabbix/sbin/zabbix_server -R diaginfo
== history cache diagnostic information ==
Items:0 values:0 time:0.000005
Memory.data:
  size: free:16776832 used:0
  chunks: free:1 used:0 min:16776832 max:16776832
    buckets:
      256+:1
Memory.index:
  size: free:4175928 used:17880
  chunks: free:2 used:5 min:2624 max:4173304
    buckets:
      256+:2
Top.values:
==
== preprocessing diagnostic information ==
Cached items:201 pending tasks:0 finished tasks:0 task sequences:0 queued count:61455 queued size:33492644 direct count:323542 direct size:29268824 time:0.001461
Top.sequences:
Top.peak:
  itemid:50077 tasks:2
  itemid:50750 tasks:2
  itemid:50761 tasks:2
  itemid:50767 tasks:2
  itemid:44437 tasks:2
  itemid:47552 tasks:2
  itemid:50772 tasks:2
  itemid:50103 tasks:2
  itemid:44056 tasks:2
  itemid:50070 tasks:2
  itemid:50084 tasks:2
  itemid:50915 tasks:2
==
== locks diagnostic information ==
Locks:
  ZBX_MUTEX_LOG:0xfffe11850000
  ZBX_MUTEX_CACHE:0xfffe11850030
  ZBX_MUTEX_TRENDS:0xfffe11850060
  ZBX_MUTEX_CACHE_IDS:0xfffe11850090
  ZBX_MUTEX_SELFMON:0xfffe118500c0
  ZBX_MUTEX_CPUSTATS:0xfffe118500f0
  ZBX_MUTEX_DISKSTATS:0xfffe11850120
  ZBX_MUTEX_VALUECACHE:0xfffe11850150
  ZBX_MUTEX_VMWARE:0xfffe11850180
  ZBX_MUTEX_SQLITE3:0xfffe118501b0
  ZBX_MUTEX_PROCSTAT:0xfffe118501e0
  ZBX_MUTEX_PROXY_HISTORY:0xfffe11850210
  ZBX_MUTEX_MODBUS:0xfffe11850240
  ZBX_MUTEX_TREND_FUNC:0xfffe11850270
  ZBX_MUTEX_REMOTE_COMMANDS:0xfffe118502a0
  ZBX_MUTEX_PROXY_BUFFER:0xfffe118502d0
  ZBX_MUTEX_VPS_MONITOR:0xfffe11850300
  ZBX_RWLOCK_CONFIG:0xfffe11850330
  ZBX_RWLOCK_CONFIG_HISTORY:0xfffe11850368
  ZBX_RWLOCK_VALUECACHE:0xfffe118503a0
==
== value cache diagnostic information ==
Items:257 values:1773 mode:0 time:0.000059
Memory:
  size: free:8275552 used:96528
  chunks: free:17 used:993 min:24 max:8269816
    buckets:
      24:1
      32:2
      48:1
      64:1
      80:1
      96:1
      256+:10
Top.values:
  itemid:51561 values:19 request.values:16
  itemid:50101 values:19 request.values:16
  itemid:50872 values:18 request.values:16
  itemid:50875 values:18 request.values:16
  itemid:50876 values:18 request.values:16
  itemid:51562 values:17 request.values:16
  itemid:50102 values:17 request.values:16
  itemid:29823 values:16 request.values:11
  itemid:46048 values:16 request.values:11
  itemid:23276 values:16 request.values:11
  itemid:45499 values:16 request.values:11
  itemid:45498 values:16 request.values:11
  itemid:35277 values:16 request.values:11
  itemid:23664 values:16 request.values:11
  itemid:33026 values:16 request.values:11
  itemid:33027 values:16 request.values:11
  itemid:23259 values:15 request.values:11
  itemid:23258 values:15 request.values:11
  itemid:47207 values:15 request.values:11
  itemid:45518 values:15 request.values:11
  itemid:25668 values:15 request.values:11
  itemid:23273 values:15 request.values:11
  itemid:23265 values:15 request.values:11
  itemid:23274 values:15 request.values:11
  itemid:25667 values:15 request.values:11
Top.request.values:
  itemid:51561 values:19 request.values:16
  itemid:50101 values:19 request.values:16
  itemid:50872 values:18 request.values:16
  itemid:50875 values:18 request.values:16
  itemid:50876 values:18 request.values:16
  itemid:51562 values:17 request.values:16
  itemid:50102 values:17 request.values:16
  itemid:29823 values:16 request.values:11
  itemid:46048 values:16 request.values:11
  itemid:23276 values:16 request.values:11
  itemid:45499 values:16 request.values:11
  itemid:45498 values:16 request.values:11
  itemid:35277 values:16 request.values:11
  itemid:23664 values:16 request.values:11
  itemid:33026 values:16 request.values:11
  itemid:33027 values:16 request.values:11
  itemid:23259 values:15 request.values:11
  itemid:23258 values:15 request.values:11
  itemid:47207 values:15 request.values:11
  itemid:45518 values:15 request.values:11
  itemid:25668 values:15 request.values:11
  itemid:23273 values:15 request.values:11
  itemid:23265 values:15 request.values:11
  itemid:23274 values:15 request.values:11
  itemid:25667 values:15 request.values:11
==
== LLD diagnostic information ==
Rules:0 values:0 time:0.001069
Top.values:
==
== alerting diagnostic information ==
Alerts:0 time:0.001560
Media.alerts:
Source.alerts:
==
== connector diagnostic information ==
Queued:0 time:0.000067
Top.values:
==

A:这个情况我在测试环境和生产环境都存在。

Q:低版本升级过来的吗?

A:不是,直接部署的?一开始时用容器部署,查了很久都找不到,又尝试了把proxy和server转回宿主部署。现象依旧。

Q:去根据无法获取的监控项取他的itemid 去查一下proxy数据库看看数据库有写入吗

qPKWM3Gm68818895c28d5.png

A:怎么获取这些监控项的itemid?

5DLwN243688188a4a8a58.png

Q:点进去监控项的界面,上面IP地址会有

A:上面那个不像啊

Q54VPSn368818805a45bc.png

Q:看这种堆积的

A:升级到16以后可能是bug

Q:7.0.16?我当时用6.4,也有这个现象。然后升级7.还是这样。

A:你这个数据没传给server是吗?换个模式看看使用主动模式,还有可以试试调整3个unreachable参数


问题二

Q:异步pollers

新的poller进程能够同时执行多个检查,它分出了以下poller类型: - agent poller - http agent poller - snmp poller ( 支持walk[OID] 和 get[OID] 监控项)

这些poller进程是异步的 - 它们可以在不等响应的情况下启动新的检查,并可以配置最多1000个并发检查。

异步poller的设计是为了提高效率,与同步轮询器相比,同步poller在同一时间只能执行一个检查,并且大部分时间都花费在等待响应上。

server/proxy配置文件中新增了 pollers 参数,你可以通过修改 StartAgentPollers 参数值来启动指定数量的 agent pollers。 可以通过分别修改 StartHTTPAgentPollers 和 StartSNMPPollers 参数值来启动指定数量的HTTP agent pollers和SNMP pollers。

异步pollers (agent, HTTP agent and SNMP) 的最大并发数是由 MaxConcurrentChecksPerPoller 定义的。

要注意升级后,所有的agent、HTTP agent and SNMP walk[OID] poller检查将都会切换为异步pollers。

作为开发的一部分,持久连接 cURL 特性已经添加到了 HTTP agent 检查中。

A:之前的是1倍速,现在是3倍速。

1倍速也有问题,之前的如果遇到不通的情况会阻塞等待

现在是异步相互之间无影响直接多进程并发无需等待,最大并发数受参数控制可调节


问题三

Q:请问一下老师,有什么方法优化吗?

zabbix 6.0+ proxy配置4c16g 内存浮动在20% cpu在10% vps 216.37 监控主机数量为154 监控项数量23334 配置文件中startpoller数量为40 但是zabbix[process, *, avg busy]拿到数据是100%一直告警

A:首先看server日志有没有存在数据堆积无法写入,其次按照自监控的告警提示对应调优一下server的配置

Q:这个是proxy代理的机器,日志的话没有堆积的

A:proxy和server的日志都有看过吗?根据自监控的告警对应调优一下proxy


JgFwqJ08688189ccd36b3.png

0 条评论

请先 登录 后评论
乐维君
乐维君

458 篇文章

作家榜 »

  1. 乐维君 458 文章
  2. YOHOHO 14 文章
  3. 细雨闲花 13 文章
  4. 机灵小和尚 13 文章
  5. 我是一只小菜鸡 12 文章
  6. 。。。 9 文章
  7. 御前侍卫张五哥 9 文章
  8. 小黄人 8 文章