本文說明如何設定通知,在應用程式失敗或效能未達到既定條件時收到通知。
警報的運作方式
Cloud Monitoring 快訊程序包含三個部分:
快訊政策:說明您希望在哪些情況下收到快訊,以及希望以何種方式收到事件通知。快訊政策可以監控 Monitoring 儲存的時間序列資料,或 Cloud Logging 儲存的記錄。當資料符合快訊政策條件時,Monitoring 會建立事件並傳送通知。
每項事件都是記錄,說明監控的資料類型和符合條件的時間。這項資訊有助於排解導致事件的問題。
通知管道會定義 Monitoring 建立事件時,您接收通知的方式。舉例來說,您可以設定快訊政策,透過電子郵件傳送通知
my-support-team@example.com
,並在 Slack 頻道中發布訊息#my-support-team
。快訊政策可包含一或多個通知管道。
快訊政策可以評估三種資料:
時間序列資料 (也稱為指標資料),由 Monitoring 儲存。這類政策稱為「以指標為準」的快訊政策。
如要瞭解如何設定以指標為準的快訊政策,請參閱 Compute Engine 快速入門導覽課程。
Cloud Logging 儲存的記錄項目資料。評估個別記錄項目的快訊政策稱為「記錄檔快訊政策」。記錄式快訊政策會在記錄中出現特定訊息時通知您。詳情請參閱「監控記錄」。
在記錄檔分析中對儲存在 Cloud Logging 中的記錄項目資料執行 SQL 查詢,監控 SQL 查詢結果的快訊政策稱為以 SQL 為準的快訊政策。詳情請參閱「使用快訊政策監控 SQL 查詢結果」。
以 SQL 為基礎的警告政策目前為公開預先發布版。
當應用程式的效能未達到可接受的值時,警報程序可協助您回應問題。舉例來說,您將網頁應用程式部署到 Compute Engine 虛擬機器 (VM) 執行個體。您預期 HTTP 回應延遲會波動,但希望支援團隊在應用程式長時間出現高延遲時做出回應。您可以建立以指標為準的快訊政策,監控應用程式的 HTTP 回應延遲指標。如果回應延遲時間至少有五分鐘超過兩秒,Monitoring 就會建立事件,並傳送電子郵件通知給支援團隊。
如何建立快訊政策
建立快訊政策的方法有很多種。舉例來說,您可以從整合服務或控制台的特定頁面啟用建議快訊,使用預先設定的快訊政策。 Google Cloud 您也可以使用Google Cloud 控制台、Cloud Monitoring API、Google Cloud CLI 和 Terraform 設定新的警報政策。
使用整合功能和建議的快訊政策
Monitoring 提供預先建構的套件,方便您為Google Cloud 服務和第三方整合項目建立快訊政策。這些套件包含建議的快訊政策、範例資訊主頁,以及服務的重要指標。這些套件適用於 Google Kubernetes Engine、Compute Engine 和 Cloud SQL 等Google Cloud 服務,以及 MongoDB、Kafka 和 Elasticsearch 等常見的第三方整合服務。
安裝套件時,您可以啟用套件的建議快訊政策。啟用建議的快訊政策時,請設定通知管道,並視需要修改其他值。設定完成後,系統會立即開始監控目標,不需要使用者進一步輸入任何設定值。
部署新服務並想針對重要指標發出快訊時,建議使用快訊政策。舉例來說,Cloud SQL 整合套件隨附建議的快訊政策,可偵測執行個體失敗和交易緩慢的情況:
如要進一步瞭解快訊整合,請參閱監控第三方應用程式。
建立新的快訊政策
您可以根據快訊需求建立快訊政策,監控不同類型的資料。以下各節列出可透過快訊政策監控的各種資料類型。
監控時間序列資料
條件類型 | 說明 | 範例 |
---|---|---|
指標門檻值條件 | 當指標值在特定重測時間範圍內高於或低於門檻時,即符合指標門檻條件。 詳情請參閱建立指標閾值快訊政策和使用 API 建立快訊政策。 |
您希望建立快訊政策,在連續五次運作時間檢查中,回應延遲時間超過 10 分鐘且達到 500 毫秒以上時,傳送通知。 |
缺少指標條件 | 如果受監控的時間序列在特定重測時間範圍內沒有任何資料,就會符合缺少指標條件。最長重新測試時間為 23.5 小時。 詳情請參閱建立指標缺席快訊政策和使用 API 建立快訊政策。 | 您希望在資源五分鐘內未回應任何 HTTP 要求時,警報政策會開啟事件,並通知支援團隊。 |
預測指標值條件 | 當快訊政策預測在即將到來的預測時間範圍內,會違反臨界值時,即符合預測指標值條件。預測時間範圍可從 1 小時到 7 天。 詳情請參閱建立預測指標值快訊政策和使用 API 建立快訊政策。 |
您希望建立快訊政策,在資源可能於 24 小時內達到 80% 的磁碟空間用量時,向支援團隊開啟事件。 |
監控記錄項目資料
如要監控個別記錄項目,請使用記錄檔型快訊政策。
當快訊政策偵測到記錄檔項目中的片語符合快訊政策條件時,就會滿足記錄檔快訊政策的條件。舉例來說,您希望在記錄項目包含 message
時,警告政策會向支援團隊回報事件。product_ids=['tier_1_support', 'tier_2_support']
詳情請參閱 Logging 說明文件中的「設定以記錄為準的快訊政策」。
監控 SQL 查詢結果
如要監控 SQL 查詢結果,請使用以 SQL 為基礎的警報政策。
以 SQL 為基礎的警告政策條件會定期分析記錄檔項目資料,並在查詢結果表格符合特定條件時建立事件。如果您需要監控多個記錄項目中資料匯總或複雜模式的快訊政策,這類快訊政策就非常實用。舉例來說,您希望在過去 60 分鐘內,有超過 50 個記錄項目的嚴重程度為 WARNING
時收到通知。
詳情請參閱記錄檔說明文件中的「使用警報政策監控 SQL 查詢結果」。
快訊政策元件
每項警報政策都包含下列元件:
條件,說明資源或資源群組何時處於需要您回應的狀態。條件包括資料來源、靜態或動態門檻,以及資料匯總方法,例如篩選器和 groupby。條件可以監控單一指標、多個指標或指標比率。您也可以使用 Prometheus 查詢語言 (PromQL),納入動態門檻和條件邏輯等複雜運算式。
如果您使用整合功能啟用建議的快訊政策,系統會預先填入快訊政策條件。
通知管道清單,說明需要採取行動時要通知哪些人。詳情請參閱「建立及管理通知管道」。
通知和事件頁面中顯示的說明文件。您可以設定通知的主旨行,並在通知內文中加入實用資訊。舉例來說,您可以設定通知,顯示內部手冊或自訂資訊主頁等 Google Cloud 頁面的連結。如要進一步瞭解說明文件 (包括範例),請參閱「使用自訂說明文件註解事件」。
查詢語言
在快訊政策中使用 Prometheus 查詢語言 (PromQL) 和篩選器,進一步控管指標評估。監控功能支援下列查詢類型:
PromQL 是函式查詢語言,用於即時評估時間序列資料。您可以設定快訊政策,在條件中加入 PromQL 查詢。PromQL 查詢可以使用任何有效運算式,例如指標組合、比率和縮放比例門檻。在 Google Cloud中設定以 PromQL 為基礎的快訊政策,即可減少對外部快訊基礎架構的依附元件。詳情請參閱「在 Cloud Monitoring 中使用 PromQL」和「PromQL 警報總覽」。
監控篩選器可讓您設定快訊政策,以使用以篩選器為準的指標比率。您無法在 Google Cloud 控制台中查看或修改以篩選條件為準的快訊政策。如需使用 Monitoring 篩選器的政策範例,請參閱「指標比率」。
管理快訊政策和事件
啟用警告政策後,監控功能會持續監控該政策的條件。您無法設定警報政策,只監控特定時間範圍內的狀況。如要暫時停用快訊政策,請建立暫緩。
如果事件處於開啟狀態,且 Monitoring 判定不再符合以指標為準的政策條件,Monitoring 就會自動關閉事件,並傳送事件關閉通知。
定價
一般來說,Cloud Monitoring 系統指標是免費的,但外部系統、代理程式或應用程式的指標則否。系統會根據擷取的位元組數或樣本數,對可計費指標收費。
詳情請參閱 Google Cloud Observability 定價頁面的 Cloud Monitoring 部分。
如要瞭解如何監控擷取的追蹤跨度或記錄數量,或在記錄項目中包含特定內容時收到通知,請參閱下列文件:
後續步驟
如要瞭解通知延遲,以及快訊政策參數的選擇如何影響通知傳送時間,請參閱「以指標為基礎的快訊政策行為」。
如需以指標為基礎的政策範例清單,請參閱範例快訊政策摘要。