首个全工具链的运维智能体2.0上线

今年3月,我们交出了首个全工具链运维智能体1.0版本。彼时我们围绕“五层运维智能体架构”——感知、规划、记忆、思考、行动,做了很多尝试和探索。我们也踩过一些坑。比如,曾经对大模型本身抱有过高期待,认为模型足够强,就能解决大部分问题;此前我们低估了运维工具链的互通、约束与管控难度,也由此认清:企业级运维智能体绝非单纯对话工具,必须放进受控可信、可审计、可持续迭代的管控体系,我们将其定义为运维智能体Harness范式——既让它有能力行动,也让它在边界内行动;既让它理解现场,也让它不会失

原文链接:乐维社区

今年3月,我们交出了首个全工具链运维智能体1.0版本。彼时我们围绕“五层运维智能体架构”——感知、规划、记忆、思考、行动,做了很多尝试和探索。我们也踩过一些坑。比如,曾经对大模型本身抱有过高期待,认为模型足够强,就能解决大部分问题;此前我们低估了运维工具链的互通、约束与管控难度,也由此认清:企业级运维智能体绝非单纯对话工具,必须放进受控可信、可审计、可持续迭代的管控体系,我们将其定义为运维智能体Harness范式——既让它有能力行动,也让它在边界内行动;既让它理解现场,也让它不会失控。 image.png 从初春到盛夏,我们一直在摸索和完善乐维运维智能体Harness范式;与此同时经过上百个日夜打磨,我们做了三件事:私有化场景落地QwenPaw、云端环境联动ArkClaw、基于乐维CoT思维链搭建的Agentic Ops。

两种架构,守住企业最核心的两种诉求:安全可控与轻量化降本

很多企业在AI运维选型时始终两难:涉密、强数据合规的集团不敢把内部指标、资产、工单上云;中小云上业务又无力承担私有化部署高昂的硬件与运维成本。我们没有简单做 “一刀切” 方案,而是打磨出两套深度联动乐维运维智能体的完整架构,兼顾两种核心需求。

私有化方案|QwenPaw:本地闭环,消除大模型运维幻觉

底层完整运维闭环:政企、金融、制造业等强内控场景,数据绝不能流出内网。结合乐维运维智能体原生五层架构感知-记忆-规划-行动-大脑:内置了Perseus全域采集、CMDB资产、监控/日志/APM、Lerwee Claw执行引擎等。具备专业运维领域知识图谱、故障根因RCA、告警收敛、业务拓扑分析、变更管控原生能力。 数据可信底座:它不依赖外部公域数据做判断,所有IT原始指标、全量日志、业务拓扑、历史故障工单、运维脚本全部本地留存,每一条根因分析、自愈方案均可溯源,从根源解决通用大模型 “凭空编造故障结论” 的幻觉问题。 执行权限闭环:可直接驱动重启、扩容、配置变更、巡检、工单派发、自愈操作,拥有企业IT系统完整操作权限域。多端统一入口:以往磁盘空间、CPU满载告警来袭,运维要登大屏、查主机、手动敲命令、逐条清理缓存;现在只需在钉钉/飞书/企业微信对话框发送告警,即可在聊天窗口下发指令、接收告警、查看报告。 多Agent任务编排:支持拆解复杂运维需求,创建巡检、报表、变更稽核、复盘文档智能体组队协作,调度乐维智能体完成批量、周期性复合任务。 长时记忆+主动推送:沉淀运维人员交互习惯、常用业务范围、值班排班,定时自动拉取乐维数据生成日报/周报/故障复盘并推送;记忆跨渠道互通,全会话上下文连贯。通用办公技能补位:内置Office文档解析、报表生成、PDF复盘、数据摘要能力,把运维原始输出转化为可对外交付的标准化材料。

场景实例:告警诊断磁盘空间使用率高于90%产生告警,AI分析诊断: image.png 给根因分析与自愈方案:只需确认即可远程处置告警 image.png

云上方案|LerweeClaw:联动火山引擎,开箱即用,安全合规

年初我们对接了OpenClaw,但受限于其稳定性、合规能力与运维场景适配短板,我们和火山引擎的ArkClaw做了深度合作对接,打造了专属LerweeCalw的联动架构。 image.png 上线即用的全托管Claw实例服务,一站式承接百万级终端接入需求,产品原生内嵌全场景兼容适配、实时监控告警、故障智能自愈、无缝版本迭代四大能力,全链路规避运维琐事、实现企业轻量化运维 依托成熟架构与自动化运维体系筑牢底座,全方位保障业务长效平稳、安全可靠运行依托实例秒级极速启停能力,实现海量算力资源弹性调度、用户自助分时复用,从资源调度层面深挖使用潜能、显著抬升资源利用效率,配套精细化全链路 Token 管控与专项效能优化体系,通过算法与调度双重优化,直接压降五成 Token 使用成本全链路智能化运转体系,从环境感知、方案筹划到落地执行形成完整业务闭环,能够灵活统筹不同终端、异构系统的资源与算力,依托自主运转机制主动承接并落地用户诉求同时紧跟人工智能技术演进节奏动态升级内核,助力产品构筑行业差异化的领先壁垒 乐维运维智能体依托芯片级加密实现端到端全链路数据加密,覆盖数据采集、传输、云端全流程 搭建可信计算环境保障大模型云上运行安全;实时监测模型内外推理数据,管控AIGC生成内容合规,配套可信中心完成全生命周期核验,实现数据、模型、内容全链路透明可信

Agentic Ops:终结运维人 “复制粘贴式AI交互”

过去运维使用AI分析,永远逃不开一套繁琐流程:登录运维平台查指标、导出日志、复制资产信息、粘贴到对话窗口提问,多一步操作就多一分遗漏、错漏数据的风险。基于乐维CoT思维链打造的Agentic Ops,彻底重构运维AI交互方式:编辑器内置专属数据占位符,一键自动拉取CMDB资产、监控指标、告警、全域采集数据,实时填充Prompt模板,不用手动导出整理任何数据。 日常运维90%以上高频场景 —— 集群负载分析、告警风暴梳理、周期资源巡检、业务健康周报、故障根因复盘,均可固化标准化Prompt模板永久留存。后续无需重复编写指令,仅需勾选目标业务集群、主机、服务对象,即可联动QwenPaw编排能力+乐维运维决策能力,一键完成智能分析,实现从“每次从零对话”到“知识沉淀复用”的质变。 采用左右分栏可视化编辑模式,真正实现“边编写、边预览”。左侧编辑Prompt模板逻辑、配置数据规则,右侧实时联动展示待接入的真实运维数据量级、数据明细、最终提交给大模型的完整指令内容。全程无需提交测试即可校验模板合理性,提前规避参数错误、数据缺失、指令歧义等问题,大幅提升模板制作效率与准确率。 平台预置成熟运维场景:低频业务评估、僵尸机排查、存储硬盘健康检测、运维智能体自身巡检…… 一键自动完成全维度分析,输出标准化、可落地的治理方案。我们甚至内置智能体自我诊断能力,自动评估监控纳管规模、告警压力、服务器存储瓶颈、中间件失联顽疾,提前预警三重风险叠加隐患,让运维不只处理业务故障,也能管好运维平台本身。 image.png 场景列表(持续更新) image.png 自定义思维链 image.png 执行分析 image.png 无论是强合规的本地私有化部署,还是追求降本增效的云上托管方案,亦或是需要批量分析、沉淀运维经验的AI工作台,一套完整的全工具链运维智能体闭环已经就绪。AI不该只是运维人的 “聊天工具”,更该是24小时在岗、懂业务、能排查、会自愈、能沉淀经验的专属运维搭档。往后无数个告警爆发的深夜,能替你扛下大半重复琐碎的工作,让运维人把精力留给架构优化、业务创新,而不是无休止的故障救火。未来我们也会持续迭代更多行业专属AI场景、优化自愈执行能力,和用户一起,走向真正智能化、轻量化、全闭环的下一代IT运营。 image.png

0 条评论

请先 登录 后评论
乐维君
乐维君

519 篇文章

作家榜 »

  1. 乐维君 519 文章
  2. YOHOHO 14 文章
  3. 细雨闲花 13 文章
  4. 机灵小和尚 13 文章
  5. 我是一只小菜鸡 12 文章
  6. 。。。 9 文章
  7. 御前侍卫张五哥 9 文章
  8. 小黄人 8 文章