
擁有多年 Linux、網路及 Container 領域的豐富經驗。目前專注於 Kubernetes 平台開發,並積極參與本地技術社群,常於各大研討會分享 Linux、Kubernetes 等實務應用與底層原理。著有一本 Kubernetes 相關書籍,並經營個人技術部落格,累積發表數百篇技術文章,致力於推廣及分享雲端原生技術。
雖然 Prometheus 已成為現代雲原生環境中維護與可觀測性的業界標準,但在大規模 Kubernetes 生產叢集中,我們仍頻繁遭遇許多「指標滿天飛、Grafana 儀表板美輪美奐,問題卻始終找不到」的困境。
本次演講將分享過去在大型 Kubernetes Cluster 實際運維中遇到的真實觀測挑戰:這些隱藏的觀測盲點如何悄然侵蝕叢集穩定性、影響 Pod 排程、資源爭用與整體服務可用性,卻又為什麼無法被常見的 Alerting 規則、標準 Dashboard 與傳統排查流程所捕捉。
透過這些血淚教訓,我們將一起重新審視 Prometheus Exporter 的使用邊界,並探討如何突破傳統思維,打造更務實、更有效的可觀測性策略,讓團隊在大型叢集環境中真正做到「早發現、快定位、少 downtime」。
聽眾收穫:
理解為什麼 Prometheus 已是業界標準,卻在大規模 Kubernetes 生產環境中仍會出現「指標滿滿、Grafana 很漂亮,問題卻找不到」的常見困境。
多個真實案例剖析:這些觀測盲點如何悄悄影響叢集穩定性、Pod 排程、資源爭用與整體可用性,卻被常規的 Alerting、Dashboard 與排查流程完全漏掉。
實戰層面的洞見與可立即落地的建議:如何超越標準 Prometheus Exporter 的思維,重新設計 observability 策略,避免同樣的「看不見的問題」再次發生。