Q:我有个分布式部署后的问题,自动发现配置了信息,如果不重启proxy,一直都见不到配置对应的预期效果出现!请问可以从哪些方面排查?日志我看了都有proxy和server都有数据发送,但是始终见不到预期效果,最后都是重启下proxy才有变化。
A:自动发现指的是自动发现规则?手动执行自动发现规则读取数据
Q:这里一开始配置了,不见有新设备出来,然后重启了。设备出来了,有时候可用性一直不行,再重启了又可以了。
这里也对应配好的。我目前使用的7.0.12版本。
A:自动发现规则可以手动执行测试数据读取
Q:这个界面没有测试功能的哦。
Q:
就是这样的现象。一开始这里空白的,现在看到有ip只是我之前操作过,现在重新模拟,所以还有旧ip信息,但是对应设备的主机是出不来,我只有重启下proxy才会被添加。
Q:重启第一次,发现了添加后,但是可用性还是未正常。
A:首先空白是,扫描到了机器但是没加监控,其次重启了proxy会同步任务的,具体可以看动作日志,可用性代表snmp协议的连通性,这是三个东西。可用性这个问题,我还是重启一次proxy又能显示的。
Q:等他如果可行就会自动显示
A:就是通过proxy的自动发现存在预期效果不到的问题,都要靠重启proxy
Q:但是我放一天都是显示不了那种哦,不重启,永远都是这个样子,数据一直堆积再proxy队列,没到server
A:看看proxy 的自监控或者排查下相关负载,看看是正常的吗?zabbix/sbin/zabbix_server -R diaginfo 看看数据写入
Q:
# zabbix/sbin/zabbix_server -R diaginfo
== history cache diagnostic information ==
Items:0 values:0 time:0.000005
Memory.data:
size: free:16776832 used:0
chunks: free:1 used:0 min:16776832 max:16776832
buckets:
256+:1
Memory.index:
size: free:4175928 used:17880
chunks: free:2 used:5 min:2624 max:4173304
buckets:
256+:2
Top.values:
==
== preprocessing diagnostic information ==
Cached items:201 pending tasks:0 finished tasks:0 task sequences:0 queued count:61455 queued size:33492644 direct count:323542 direct size:29268824 time:0.001461
Top.sequences:
Top.peak:
itemid:50077 tasks:2
itemid:50750 tasks:2
itemid:50761 tasks:2
itemid:50767 tasks:2
itemid:44437 tasks:2
itemid:47552 tasks:2
itemid:50772 tasks:2
itemid:50103 tasks:2
itemid:44056 tasks:2
itemid:50070 tasks:2
itemid:50084 tasks:2
itemid:50915 tasks:2
==
== locks diagnostic information ==
Locks:
ZBX_MUTEX_LOG:0xfffe11850000
ZBX_MUTEX_CACHE:0xfffe11850030
ZBX_MUTEX_TRENDS:0xfffe11850060
ZBX_MUTEX_CACHE_IDS:0xfffe11850090
ZBX_MUTEX_SELFMON:0xfffe118500c0
ZBX_MUTEX_CPUSTATS:0xfffe118500f0
ZBX_MUTEX_DISKSTATS:0xfffe11850120
ZBX_MUTEX_VALUECACHE:0xfffe11850150
ZBX_MUTEX_VMWARE:0xfffe11850180
ZBX_MUTEX_SQLITE3:0xfffe118501b0
ZBX_MUTEX_PROCSTAT:0xfffe118501e0
ZBX_MUTEX_PROXY_HISTORY:0xfffe11850210
ZBX_MUTEX_MODBUS:0xfffe11850240
ZBX_MUTEX_TREND_FUNC:0xfffe11850270
ZBX_MUTEX_REMOTE_COMMANDS:0xfffe118502a0
ZBX_MUTEX_PROXY_BUFFER:0xfffe118502d0
ZBX_MUTEX_VPS_MONITOR:0xfffe11850300
ZBX_RWLOCK_CONFIG:0xfffe11850330
ZBX_RWLOCK_CONFIG_HISTORY:0xfffe11850368
ZBX_RWLOCK_VALUECACHE:0xfffe118503a0
==
== value cache diagnostic information ==
Items:257 values:1773 mode:0 time:0.000059
Memory:
size: free:8275552 used:96528
chunks: free:17 used:993 min:24 max:8269816
buckets:
24:1
32:2
48:1
64:1
80:1
96:1
256+:10
Top.values:
itemid:51561 values:19 request.values:16
itemid:50101 values:19 request.values:16
itemid:50872 values:18 request.values:16
itemid:50875 values:18 request.values:16
itemid:50876 values:18 request.values:16
itemid:51562 values:17 request.values:16
itemid:50102 values:17 request.values:16
itemid:29823 values:16 request.values:11
itemid:46048 values:16 request.values:11
itemid:23276 values:16 request.values:11
itemid:45499 values:16 request.values:11
itemid:45498 values:16 request.values:11
itemid:35277 values:16 request.values:11
itemid:23664 values:16 request.values:11
itemid:33026 values:16 request.values:11
itemid:33027 values:16 request.values:11
itemid:23259 values:15 request.values:11
itemid:23258 values:15 request.values:11
itemid:47207 values:15 request.values:11
itemid:45518 values:15 request.values:11
itemid:25668 values:15 request.values:11
itemid:23273 values:15 request.values:11
itemid:23265 values:15 request.values:11
itemid:23274 values:15 request.values:11
itemid:25667 values:15 request.values:11
Top.request.values:
itemid:51561 values:19 request.values:16
itemid:50101 values:19 request.values:16
itemid:50872 values:18 request.values:16
itemid:50875 values:18 request.values:16
itemid:50876 values:18 request.values:16
itemid:51562 values:17 request.values:16
itemid:50102 values:17 request.values:16
itemid:29823 values:16 request.values:11
itemid:46048 values:16 request.values:11
itemid:23276 values:16 request.values:11
itemid:45499 values:16 request.values:11
itemid:45498 values:16 request.values:11
itemid:35277 values:16 request.values:11
itemid:23664 values:16 request.values:11
itemid:33026 values:16 request.values:11
itemid:33027 values:16 request.values:11
itemid:23259 values:15 request.values:11
itemid:23258 values:15 request.values:11
itemid:47207 values:15 request.values:11
itemid:45518 values:15 request.values:11
itemid:25668 values:15 request.values:11
itemid:23273 values:15 request.values:11
itemid:23265 values:15 request.values:11
itemid:23274 values:15 request.values:11
itemid:25667 values:15 request.values:11
==
== LLD diagnostic information ==
Rules:0 values:0 time:0.001069
Top.values:
==
== alerting diagnostic information ==
Alerts:0 time:0.001560
Media.alerts:
Source.alerts:
==
== connector diagnostic information ==
Queued:0 time:0.000067
Top.values:
==
A:这个情况我在测试环境和生产环境都存在。
Q:低版本升级过来的吗?
A:不是,直接部署的?一开始时用容器部署,查了很久都找不到,又尝试了把proxy和server转回宿主部署。现象依旧。
Q:去根据无法获取的监控项取他的itemid 去查一下proxy数据库看看数据库有写入吗
A:怎么获取这些监控项的itemid?
Q:点进去监控项的界面,上面IP地址会有
A:上面那个不像啊
Q:看这种堆积的
A:升级到16以后可能是bug
Q:7.0.16?我当时用6.4,也有这个现象。然后升级7.还是这样。
A:你这个数据没传给server是吗?换个模式看看使用主动模式,还有可以试试调整3个unreachable参数
Q:异步pollers
新的poller进程能够同时执行多个检查,它分出了以下poller类型: - agent poller - http agent poller - snmp poller ( 支持walk[OID] 和 get[OID] 监控项)
这些poller进程是异步的 - 它们可以在不等响应的情况下启动新的检查,并可以配置最多1000个并发检查。
异步poller的设计是为了提高效率,与同步轮询器相比,同步poller在同一时间只能执行一个检查,并且大部分时间都花费在等待响应上。
server/proxy配置文件中新增了 pollers 参数,你可以通过修改 StartAgentPollers 参数值来启动指定数量的 agent pollers。 可以通过分别修改 StartHTTPAgentPollers 和 StartSNMPPollers 参数值来启动指定数量的HTTP agent pollers和SNMP pollers。
异步pollers (agent, HTTP agent and SNMP) 的最大并发数是由 MaxConcurrentChecksPerPoller 定义的。
要注意升级后,所有的agent、HTTP agent and SNMP walk[OID] poller检查将都会切换为异步pollers。
作为开发的一部分,持久连接 cURL 特性已经添加到了 HTTP agent 检查中。
A:之前的是1倍速,现在是3倍速。
1倍速也有问题,之前的如果遇到不通的情况会阻塞等待
现在是异步相互之间无影响直接多进程并发无需等待,最大并发数受参数控制可调节
Q:请问一下老师,有什么方法优化吗?
zabbix 6.0+ proxy配置4c16g 内存浮动在20% cpu在10% vps 216.37 监控主机数量为154 监控项数量23334 配置文件中startpoller数量为40 但是zabbix[process, *, avg busy]拿到数据是100%一直告警
A:首先看server日志有没有存在数据堆积无法写入,其次按照自监控的告警提示对应调优一下server的配置
Q:这个是proxy代理的机器,日志的话没有堆积的
A:proxy和server的日志都有看过吗?根据自监控的告警对应调优一下proxy
错误信息