雲端原生環境的複雜度正以指數級速度增長,早已超出人類 SRE 所能有效掌控的邊界。傳統 AIOps 工具雖具備警報發送能力,卻缺乏自主推理與執行修復的智慧——它們感知異常,卻無法理解異常。Agentic SRE 的崛起,預示著下一代可觀測性平台的根本性轉型:系統不再只是「觀察數據」,而是開始「監控決策」。
本議程將聚焦於 CNCF 沙盒專案 kagent,探討它如何透過 Kubernetes 原生架構與 A2A(Agent-to-Agent)協議,將各自為政的 AI 代理串聯為協作式智能網絡。議程核心涵蓋三大技術主軸:
- Kubernetes 可觀測性的智能躍升:探討 kagent 如何深度整合 Kubernetes 原生事件、Pod 狀態與資源指標,將分散於 Prometheus、Loki、Tempo 等工具的訊號統一納入 AI 代理的推理上下文。代理不再被動等待人工研判,而是主動關聯跨層訊號,自主觸發診斷與修復,大幅縮短 MTTD 與 MTTR。
- A2A 協議的協作架構:深入剖析 Agent Card 如何標準化代理間的技能發現與任務委派,使異質框架的代理能夠無縫溝通,形成具備彈性與高可觀測性的 Agent Mesh(代理網格)。
- 推理路徑的可觀測化:透過 OpenTelemetry 捕捉代理的 Reasoning Spans,讓 AI 的思考過程從黑盒轉為透明且可被審計的追蹤記錄,真正實現「可解釋的自動化」。
聽眾收穫:
- 從告警疲勞到自主診斷:重新定義 SRE 的工作模式:理解 Agentic SRE 的實踐,並思考如何在自身組織的 K8s 環境中,逐步將人工研判流程交棒給具備推理能力的 AI 代理,真正將 SRE 的精力從救火轉移到更高價值的系統設計與韌性建構。
- A2A 協議:打破 AI 孤島的關鍵基礎設施:深入理解為何 A2A 協議是多代理系統能夠落地的核心前提——各自為政的 AI 代理如同沒有共同語言的團隊,協作越複雜,摩擦成本越高。透過 Agent Card 的標準化機制,組織得以從單一代理的點狀自動化,演進為可協同分工的智能網絡。
- 從黑盒到玻璃盒:以可解釋性重建工程師對 AI 的信任:掌握透過 Reasoning Spans 將 AI 推理過程轉化為可追蹤 Span 的實作技巧,回到團隊後能夠直接在 Jaeger/Grafana 中檢視 Agent 的決策脈絡、定位異常判斷的根因,讓「AI 做了什麼、為什麼這樣做」不再是一個無法回答的問題。