
Alert就是我每天的BGM
現職趨勢科技 (Trend Micro) Sr. Engineer ,主要在做SRE/DevOps 相關內容,包括負責大規模雲端系統維運(包含AWS, GCP, OCI)、On-Call 故障排除、k8s等相關維運,以及開發自動化工具來減少重複性的維運工作。
本場次將分享一位 SRE 工程師如何將 AI Agent 融入日常 On-Call 工作流程的真實經驗。演講從一個深夜告警的故事開場——同樣的 API 5xx 故障,傳統做法需要 2 小時以上才能完成從查詢、定位、修復到撰寫報告的完整流程,而透過 Claude 搭配 MCP/Skill 整合 OpenSearch、Jira、Confluence 等工具後,僅需 15 至 20 分鐘即可完成。
演講將涵蓋兩大核心主題:
第一,AI 在 SRE 工作中的三層價值——快速查詢與整合、智慧分析與建議、知識沉澱與重用;
第二,如何讓 AI 操作 MCP 串接各種 SRE 工具,包含 OpenSearch 日誌查詢、Jira Incident 搜尋、Confluence Runbook 檢索等實際整合範例;
此外,也會坦誠討論實務上常見的疑問,包含成本考量、資料安全策略、以及如何在沒有完整工具鏈的環境下從小處開始導入 AI。本場次適合所有對 AI 輔助維運有興趣的工程師,無論你是資深 SRE 還是剛入門的維運人員,都能帶走可立即實踐的方法。
聽眾收穫:
實戰經驗與思維轉換:了解一位 SRE 工程師如何從「被動救火」轉變為「AI 協作」的工作模式,以及這個轉變如何將故障調查時間從 2 小時大幅縮短至 15 分鐘。聽眾將理解 AI 在 SRE 場景中不是取代人,而是扮演「永遠不會累的 Junior SRE」與「記憶力完美的資深顧問」角色。
AI 時代的 SRE 職涯視角:重新思考 SRE 工作的核心價值——當重複性查詢與報告撰寫被 AI 大幅加速後,工程師能將更多時間投入「預防」與「改善」,回歸 SRE 的本質。