Knowledge Catalog (舊稱 Dataplex Universal Catalog) 可協助您找出 BigQuery 資料表中資料欄的常見統計特徵 (常見值、資料分布、空值計數)。這項資訊有助於您更有效地瞭解及分析資料。
如要進一步瞭解 Knowledge Catalog 資料剖析掃描作業,請參閱「關於資料剖析檔」。
事前準備
啟用 Dataplex API。
啟用 API 時所需的角色
如要啟用 API,您需要服務使用情形管理員 IAM 角色 (roles/serviceusage.serviceUsageAdmin),其中包含 serviceusage.services.enable 權限。瞭解如何授予角色。
必要角色和權限
本節說明使用 Knowledge Catalog 資料剖析掃描作業所需的 IAM 角色和權限。
使用者角色和權限
如要取得建立及管理資料剖析掃描作業所需的權限,請要求系統管理員授予您下列 IAM 角色:
-
建立、執行、更新及刪除資料剖析檔掃描作業:
在包含資料掃描作業的專案中,具有 Dataplex DataScan 編輯者 (
roles/dataplex.dataScanEditor) 角色 -
查看資料剖析掃描結果、工作和記錄:
Dataplex DataScan 檢視者 (
roles/dataplex.dataScanViewer) 在包含資料掃描作業的專案中 -
將資料剖析掃描結果發布至 Knowledge Catalog:
Dataplex Catalog 編輯者 (
roles/dataplex.catalogEditor) 在@bigquery項目群組上 -
在「資料剖析檔」分頁中,查看 BigQuery 中發布的資料剖析掃描結果:
資料表的「BigQuery 資料檢視者」 (
roles/bigquery.dataViewer)
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。
這些預先定義的角色具備建立及管理資料剖析掃描作業所需的權限。如要查看確切的必要權限,請展開「Required permissions」(必要權限) 部分:
所需權限
如要建立及管理資料剖析掃描作業,必須具備下列權限:
-
建立、執行、更新及刪除資料剖析掃描作業:
-
專案的
dataplex.datascans.create -
dataplex.datascans.update資料掃描 -
dataplex.datascans.delete資料掃描 -
dataplex.datascans.run資料掃描 -
dataplex.datascans.get資料掃描 -
專案的
dataplex.datascans.list -
dataplex.dataScanJobs.get資料掃描工作 -
dataplex.dataScanJobs.list資料掃描
-
專案的
-
查看資料剖析掃描結果、工作和記錄:
-
dataplex.datascans.getData資料掃描 -
專案的
dataplex.datascans.list -
dataplex.dataScanJobs.get資料掃描工作 -
dataplex.dataScanJobs.list資料掃描
-
-
將資料剖析掃描結果發布至 Knowledge Catalog:
-
dataplex.entryGroups.useDataProfileAspect項目群組 -
bigquery.tables.update在桌上 -
dataplex.entries.updateon entry
-
-
在 BigQuery 或 Knowledge Catalog 中查看資料表已發布的資料剖析檔結果:
-
bigquery.tables.get在桌上 -
bigquery.tables.getData在桌上
-
Knowledge Catalog 服務帳戶角色和權限
為確保 Knowledge Catalog 服務帳戶具備必要權限,能執行資料剖析掃描並匯出結果,請要求管理員將下列 IAM 角色授予 Knowledge Catalog 服務帳戶:
-
對 BigQuery 資料執行資料剖析掃描:
-
BigQuery 工作使用者 (
roles/bigquery.jobUser) 在執行掃描的專案中 -
BigQuery 資料檢視者 (
roles/bigquery.dataViewer) 掃描中的資料表
-
BigQuery 工作使用者 (
-
針對使用 Cloud Storage 資料的 BigQuery 外部資料表執行資料剖析掃描:
-
Storage 物件檢視者 (
roles/storage.objectViewer) 在 Cloud Storage 值區上 -
Storage 舊版值區讀取者 (
roles/storage.legacyBucketReader) 在 Cloud Storage bucket 上
-
Storage 物件檢視者 (
-
將資料剖析掃描結果匯出至 BigQuery 資料表:
資料表的 BigQuery 資料編輯者 (
roles/bigquery.dataEditor)
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。
這些預先定義的角色具備執行資料剖析掃描作業及匯出結果所需的權限。如要查看確切的必要權限,請展開「Required permissions」(必要權限) 部分:
所需權限
如要執行資料剖析掃描作業及匯出結果,您必須具備下列權限:
-
對 BigQuery 資料執行資料剖析掃描:
-
專案的
bigquery.jobs.create -
bigquery.tables.get在桌上 -
bigquery.tables.getData在桌上
-
專案的
-
針對使用 Cloud Storage 資料的 BigQuery 外部資料表執行資料剖析掃描:
-
storage.buckets.get在 bucket 上 -
storage.objects.get物件
-
-
將資料剖析掃描結果匯出至 BigQuery 資料表:
-
bigquery.tables.create資料集 -
bigquery.tables.updateData在桌上
-
管理員或許還可透過自訂角色或其他預先定義的角色,授予 Knowledge Catalog 服務帳戶這些權限。
如果資料表使用 BigQuery 資料列層級安全防護機制,Knowledge Catalog 只能掃描 Knowledge Catalog 服務帳戶可見的資料列。如要允許 Knowledge Catalog 掃描所有資料列,請將其服務帳戶新增至述詞為 TRUE 的資料列篩選器。
如果資料表使用 BigQuery 資料欄層級安全防護機制,Knowledge Catalog 就必須有權掃描受保護的資料欄。如要授予存取權,請將資料表中使用的所有政策標記的「Data Catalog 細部讀取者」 (roles/datacatalog.fineGrainedReader) 角色,授予 Knowledge Catalog 服務帳戶。建立或更新資料掃描的使用者也需要受保護資料欄的權限。
將角色授予 Knowledge Catalog 服務帳戶
如要執行資料剖析掃描,Knowledge Catalog 會使用服務帳戶,該帳戶必須具備執行 BigQuery 工作和讀取 BigQuery 資料表資料的權限。如要授予必要角色,請按照下列步驟操作:
取得 Knowledge Catalog 服務帳戶的電子郵件地址。如果您尚未在這個專案中建立資料剖析檔或資料品質掃描作業,請執行下列
gcloud指令來產生服務身分:gcloud beta services identity create --service=dataplex.googleapis.com指令會傳回服務帳戶電子郵件,格式如下: service-PROJECT_ID@gcp-sa-dataplex.iam.gserviceaccount.com。
如果服務帳戶已存在,請在 Google Cloud 主控台的「IAM」(身分與存取權管理) 頁面,查看具有「Dataplex」名稱的主體,即可找到服務帳戶的電子郵件地址。
在專案中授予服務帳戶 BigQuery 工作使用者 (
roles/bigquery.jobUser) 角色。服務帳戶可透過這個角色執行掃描的 BigQuery 工作。gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \ --role="roles/bigquery.jobUser"更改下列內容:
PROJECT_ID:您的 Google Cloud 專案 ID。service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com:知識目錄服務帳戶的電子郵件地址。
針對要剖析的每個資料表,授予服務帳戶「BigQuery 資料檢視者」(
roles/bigquery.dataViewer) 角色。這個角色可授予資料表的唯讀存取權。gcloud bigquery tables add-iam-policy-binding DATASET_ID.TABLE_ID \ --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \ --role="roles/bigquery.dataViewer"更改下列內容:
DATASET_ID:包含表格的資料集 ID。TABLE_ID:要分析的資料表 ID。service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com:知識目錄服務帳戶的電子郵件地址。
設定執行身分
根據預設,資料剖析掃描作業會使用 Knowledge Catalog 服務代理程式執行。您可以覆寫這項設定,改用自訂服務帳戶或您自己的使用者憑證 (EUC)。
使用自訂執行身分會影響掃描的計費方式。指定自訂執行身分時,與掃描作業相關的運算和儲存空間費用會直接計入 BigQuery 專案,略過標準 Knowledge Catalog Premium SKU。
自訂執行身分所需的權限
如要設定自訂服務帳戶或使用使用者憑證,您必須具備下列額外的 IAM 權限:
- 如要使用自訂服務帳戶,您需要下列權限:
- 授予包含服務帳戶的專案 (例如
roles/iam.serviceAccountUser) 的iam.serviceAccounts.actAs權限。 - 專案的服務代理 (
service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) 必須具備自訂服務帳戶的iam.serviceAccounts.getAccessToken權限 (例如具備roles/iam.serviceAccountTokenCreator角色)。 - 自訂服務帳戶需要具備掃描資料表的
bigquery.tables.getData權限、掃描專案的bigquery.jobs.insert權限,以及匯出資料集的bigquery.dataEditor權限 (如要匯出資料)。
- 授予包含服務帳戶的專案 (例如
- 如要使用使用者憑證,請務必符合下列條件:
bigquery.tables.getData放在要掃描的桌面上。- 掃描專案的
bigquery.jobs.insert。 - 匯出資料集上的
bigquery.dataEditor(如要匯出)。
控制台
如要在 Google Cloud 控制台中設定執行身分,請在建立資料剖析掃描時選取身分。
- 在「執行身分」部分中,選取下列其中一個選項:
- Dataplex 服務帳戶:預設行為。
- 特定服務帳戶:輸入要使用的服務帳戶電子郵件地址。
- 使用者憑證:使用自己的憑證執行掃描。
Google Cloud CLI
如要使用自訂服務帳戶,請將含有服務帳戶電子郵件地址的 execution_identity JSON 物件新增至建立酬載,或使用標記傳遞 (如果 gcloud CLI 版本支援)。
舉例來說,透過 curl 使用 REST API 和 JSON 酬載:
"execution_identity": { "service_account": { "email": "YOUR_SERVICE_ACCOUNT_EMAIL" } }
如要使用使用者憑證,請改為指定 user_credential 物件:
"execution_identity": { "user_credential": {} }
API
如要使用自訂服務帳戶,請在 create 要求期間,將 executionIdentity 物件新增至 DataScan 資源定義。
"executionIdentity": { "serviceAccount": { "email": "YOUR_SERVICE_ACCOUNT_EMAIL" } }
如要使用使用者憑證,請改為指定 userCredential 物件:
"executionIdentity": { "userCredential": {} }
建立資料剖析掃描
控制台
在 Google Cloud 控制台,前往「Knowledge Catalog」的「Data profiling & quality」(資料剖析與品質) 頁面。
按一下「建立資料剖析掃描」。
(選用) 輸入「Display name」(顯示名稱)。
輸入 ID。請參閱「資源命名慣例」。
選用:輸入說明。
在「Table」(資料表) 欄位中,按一下「Browse」(瀏覽)。選擇要掃描的資料表,然後按一下「選取」。
如為多區域資料集內的資料表,請選擇要建立資料掃描的區域。
如要瀏覽 Knowledge Catalog 湖泊中整理的資料表,請按一下「Browse within Knowledge Catalog Lakes」(在 Knowledge Catalog 湖泊中瀏覽)。
在「模式」部分,選取下列任一選項:
標準:使用可自訂的掃描設定剖析資料。此為預設模式。
輕量級:提供低延遲、低保真度的掃描,可快速取得洞察資料。
如果選擇「標準」模式,請設定下列選項。選取「輕量」模式時,不會顯示這些選項。
在「範圍」欄位中,選擇「增量」或「完整資料」。
如果選擇「增量資料」,請在「時間戳記資料欄」欄位中,從 BigQuery 資料表選取
DATE或TIMESTAMP類型的資料欄。知識目錄會使用這個資料欄,在新增記錄時識別新記錄。如果資料表是依據DATE或TIMESTAMP類型的資料欄分區,建議使用這個資料欄做為分區資料欄。選用:如要篩選資料,請執行下列任一操作:
如要依資料列篩選,請選取「篩選資料列」核取方塊。 輸入有效的 SQL 運算式,該運算式可搭配 GoogleSQL 語法中的
WHERE子句使用。例如:col1 >= 0。篩選器可以是多個資料欄的 SQL 條件組合。例如:
col1 >= 0 AND col2 < 10。如要依資料欄篩選,請選取「篩選資料欄」核取方塊。
如要在剖析掃描中加入資料欄,請在「Include columns」(包含資料欄) 欄位中,按一下「Browse」(瀏覽)。選取要納入的資料欄,然後按一下「選取」。
如要從剖析掃描中排除資料欄,請在「排除資料欄」欄位中按一下「瀏覽」。選取要排除的資料欄,然後按一下「選取」。
如要對資料剖析掃描作業套用取樣,請在「取樣大小」清單中選取取樣百分比。請選擇介於 0.0% 至 100.0% 之間的百分比值,最多可有 3 位小數。
如果是較大的資料集,請選擇較低的取樣百分比。舉例來說,如果資料表大小為 1 PB,且您輸入的值介於 0.1% 到 1.0% 之間,資料剖析檔就會取樣 1 到 10 TB 的資料。
樣本資料中必須至少有 100 筆記錄,才能傳回結果。
如果是增量資料掃描,資料剖析掃描會對最新增量套用取樣。
選用步驟:在來源資料表的Google Cloud 控制台中,將資料剖析掃描結果發布至 BigQuery 和 Knowledge Catalog 頁面。勾選「將結果發布至知識目錄」核取方塊。
您可以在來源資料表的 BigQuery 和 Knowledge Catalog 頁面中,透過「資料剖析檔」分頁標籤查看最新的掃描結果。如要讓使用者存取已發布的掃描結果,請參閱本文的「授予資料剖析掃描結果的存取權」一節。
在下列情況下,可能無法使用發布選項:
- 您沒有資料表的必要權限。
- 已將另一項資料剖析掃描設為發布結果。
在「時間表」部分,選擇下列其中一個選項:
按一下「繼續」。
選用步驟:將掃描結果匯出至 BigQuery 標準資料表。在「將掃描結果匯出至 BigQuery 資料表」部分,執行下列操作:
在「選取 BigQuery 資料集」欄位中,按一下「瀏覽」。選取要用來儲存資料剖析掃描結果的 BigQuery 資料集。
在「BigQuery table」(BigQuery 資料表) 欄位中,指定要儲存資料設定檔掃描結果的資料表。如果使用現有資料表,請確認該資料表與匯出資料表結構定義相容。如果指定的資料表不存在,知識目錄會為您建立。
選用:新增標籤。標籤是鍵/值組合,可用來將相關物件分組,或與其他 Google Cloud 資源組合。
如要建立掃描作業,請按一下「建立」。
如果將排程設為隨選,您也可以按一下「執行掃描」立即執行掃描。
gcloud
如要建立資料剖析掃描,請使用 gcloud dataplex datascans create data-profile 指令。
如果來源資料是儲存在 Knowledge Catalog lake 中,請加入 --data-source-entity 旗標:
gcloud dataplex datascans create data-profile DATASCAN \ --location=LOCATION \ --data-source-entity=DATA_SOURCE_ENTITY
如果來源資料並未整理到 Knowledge Catalog lake,請加入 --data-source-resource 旗標:
gcloud dataplex datascans create data-profile DATASCAN \ --location=LOCATION \ --data-source-resource=DATA_SOURCE_RESOURCE
請替換下列變數:
DATASCAN:資料剖析掃描的名稱。LOCATION:建立資料剖析掃描的 Google Cloud 區域。DATA_SOURCE_ENTITY:包含資料剖析掃描資料的知識目錄實體。例如:projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity。DATA_SOURCE_RESOURCE:資源名稱,其中包含資料剖析掃描的資料。例如://bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table。
C#
C#
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 C# 設定說明操作。詳情請參閱 Knowledge Catalog C# API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Go
Go
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Go 設定說明操作。詳情請參閱 Knowledge Catalog Go API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Java
Java
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Java 設定說明操作。詳情請參閱 Knowledge Catalog Java API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Python
Python
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Python 設定說明操作。詳情請參閱 Knowledge Catalog Python API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Ruby
Ruby
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Ruby 設定說明操作。詳情請參閱 Knowledge Catalog Ruby API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
REST
如要建立資料剖析掃描作業,請使用 dataScans.create 方法。
匯出資料表結構定義
如要將資料剖析掃描結果匯出至現有的 BigQuery 資料表,請確認該資料表與下列資料表結構定義相容:
| 資料欄名稱 | 資料欄的資料類型 | 子欄位名稱 (如適用) | 子欄位資料類型 | 模式 | 範例 |
|---|---|---|---|---|---|
| data_profile_scan | struct/record |
resource_name |
string |
可為空值 | //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan |
project_id |
string |
可為空值 | test-project |
||
location |
string |
可為空值 | us-central1 |
||
data_scan_id |
string |
可為空值 | test-datascan |
||
| data_source | struct/record |
resource_name |
string |
可為空值 |
實體案例:
表格案例:
|
dataplex_entity_project_id |
string |
可為空值 | test-project |
||
dataplex_entity_project_number |
integer |
可為空值 | 123456789012 |
||
dataplex_lake_id |
string |
可為空值 |
(僅在來源為實體時有效)
|
||
dataplex_zone_id |
string |
可為空值 |
(僅在來源為實體時有效)
|
||
dataplex_entity_id |
string |
可為空值 |
(僅在來源為實體時有效)
|
||
table_project_id |
string |
可為空值 | dataplex-table |
||
table_project_number |
int64 |
可為空值 | 345678901234 |
||
dataset_id |
string |
可為空值 |
(僅在來源為資料表時有效)
|
||
table_id |
string |
可為空值 |
(僅在來源為資料表時有效)
|
||
| data_profile_job_id | string |
可為空值 | caeba234-cfde-4fca-9e5b-fe02a9812e38 |
||
| data_profile_job_configuration | json |
trigger |
string |
可為空值 | ondemand/schedule |
incremental |
boolean |
可為空值 | true/false |
||
sampling_percent |
float |
可為空值 |
(0-100)
|
||
row_filter |
string |
可為空值 | col1 >= 0 AND col2 < 10 |
||
column_filter |
json |
可為空值 | {"include_fields":["col1","col2"], "exclude_fields":["col3"]} |
||
| job_labels | json |
可為空值 | {"key1":value1} |
||
| job_start_time | timestamp |
可為空值 | 2023-01-01 00:00:00 UTC |
||
| job_end_time | timestamp |
可為空值 | 2023-01-01 00:00:00 UTC |
||
| job_rows_scanned | integer |
可為空值 | 7500 |
||
| column_name | string |
可為空值 | column-1 |
||
| column_type | string |
可為空值 | string |
||
| column_mode | string |
可為空值 | repeated |
||
| percent_null | float |
可為空值 |
(0.0-100.0)
|
||
| percent_unique | float |
可為空值 |
(0.0-100.0)
|
||
| min_string_length | integer |
可為空值 |
(僅在資料欄類型為字串時有效)
|
||
| max_string_length | integer |
可為空值 |
(僅在資料欄類型為字串時有效)
|
||
| average_string_length | float |
可為空值 |
(僅在資料欄類型為字串時有效)
|
||
| min_value | float |
可為空值 | (僅在資料欄類型為數值 (整數/浮點數) 時有效) | ||
| max_value | float |
可為空值 | (僅在資料欄類型為數值 (整數/浮點數) 時有效) | ||
| average_value | float |
可為空值 | (僅在資料欄類型為數值 (整數/浮點數) 時有效) | ||
| standard_deviation | float |
可為空值 | (僅在資料欄類型為數值 (整數/浮點數) 時有效) | ||
| quartile_lower | integer |
可為空值 | (僅在資料欄類型為數值 (整數/浮點數) 時有效) | ||
| quartile_median | integer |
可為空值 | (僅在資料欄類型為數值 (整數/浮點數) 時有效) | ||
| quartile_upper | integer |
可為空值 | (僅在資料欄類型為數值 (整數/浮點數) 時有效) | ||
| top_n | struct/record - repeated |
value |
string |
可為空值 | "4009" |
count |
integer |
可為空值 | 20 |
||
percent |
float |
可為空值 | 10 (表示 10%) |
設定匯出資料表
如要將資料匯出至 BigQueryExport 資料表,請遵循下列準則:
- 針對
resultsTable欄位,請使用下列格式://bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}。 - 使用 BigQuery 標準資料表。
- 如果建立或更新掃描作業時資料表不存在,知識目錄會為您建立資料表。
- 根據預設,資料表會依
job_start_time資料欄每日分區。 - 如要以其他設定將資料表分區,或是不想分區,請使用所需結構定義和設定重新建立資料表,然後將預先建立的資料表做為結果資料表。
- 請確認結果資料表與來源資料表位於相同位置。
- 如果專案已設定 VPC-SC,結果資料表必須與來源資料表位於同一個 VPC-SC 範圍。
- 如果在掃描執行階段修改資料表,目前執行的工作會匯出至先前的結果資料表,且資料表變更會從下一個掃描工作生效。
- 請勿修改資料表結構定義。如需自訂資料欄,請在表格上建立檢視畫面。
- 為降低費用,請根據用途設定分區的到期時間。詳情請參閱「如何設定分區期限」。
建立多項資料剖析掃描作業
您可以使用 Google Cloud 控制台,同時為 BigQuery 資料集中的多個資料表設定資料剖析掃描作業。
在 Google Cloud 控制台,前往「Knowledge Catalog」的「Data profiling & quality」(資料剖析與品質) 頁面。
按一下「建立資料剖析掃描」。
選取「多項資料剖析掃描作業」選項。
輸入 ID 前置字串。Knowledge Catalog 會使用您提供的前置字元和專屬後置字元,自動產生掃描 ID。
為所有資料剖析掃描作業輸入說明。
在「Dataset」(資料集) 欄位中,按一下「Browse」(瀏覽)。選取要從中挑選資料表的資料集。按一下「選取」。
如果資料集屬於多區域,請選取要建立資料剖析掃描作業的區域。
在「模式」部分,選擇下列任一選項:
標準:使用可自訂的掃描設定剖析資料。此為預設模式。
輕巧:提供低延遲、低保真度的掃描,可快速取得洞察資訊。這項功能為預先發布版。
如果選擇「標準」模式,請為掃描設定下列項目。選取「輕量」模式時,系統不會顯示這些設定。
在「範圍」欄位中,選擇「增量」或「完整資料」。
如果選擇「增量」資料,則只能選取依
DATE或TIMESTAMP類型資料欄分區的資料表。如要對資料剖析掃描套用取樣,請在「取樣大小」清單中選取取樣百分比。
請選擇介於 0.0% 和 100.0% 之間的百分比值,最多可有 3 位小數。
選用步驟:在來源資料表的Google Cloud 控制台中,將資料剖析掃描結果發布至 BigQuery 和 Knowledge Catalog 頁面。勾選「將結果發布至 Knowledge Catalog」核取方塊。
您可以在來源資料表的 BigQuery 和 Knowledge Catalog 頁面中,透過「資料剖析檔」分頁標籤查看最新的掃描結果。如要讓使用者存取已發布的掃描結果,請參閱本文的「授予資料剖析掃描結果的存取權」一節。
在「時間表」部分,選擇下列其中一個選項:
按一下「繼續」。
在「選擇資料表」欄位中,按一下「瀏覽」。選擇要掃描的一或多個表格,然後按一下「選取」。
按一下「繼續」。
選用步驟:將掃描結果匯出至 BigQuery 標準資料表。在「將掃描結果匯出至 BigQuery 資料表」部分,執行下列操作:
在「選取 BigQuery 資料集」欄位中,按一下「瀏覽」。選取要用來儲存資料剖析掃描結果的 BigQuery 資料集。
在「BigQuery table」(BigQuery 資料表) 欄位中,指定要儲存資料設定檔掃描結果的資料表。如果使用現有資料表,請確認該資料表與匯出資料表結構定義相容。如果指定的資料表不存在,Knowledge Catalog 會為您建立。
知識目錄會對所有資料設定檔掃描作業使用相同的結果資料表。
選用:新增標籤。標籤是鍵/值組合,可用來將相關物件分組,或與其他 Google Cloud 資源組合。
如要建立掃描作業,請按一下「建立」。
如果將排程設為「按需求」,您也可以點選「執行掃描」立即執行掃描。
執行資料剖析掃描
控制台
-
在 Google Cloud 控制台,前往「Knowledge Catalog」的「Data profiling & quality」(資料剖析與品質) 頁面。
- 按一下要執行的資料剖析掃描。
- 按一下「立即執行」。
gcloud
如要執行資料剖析掃描,請使用 gcloud dataplex datascans run 指令:
gcloud dataplex datascans run DATASCAN \ --location=LOCATION
請替換下列變數:
DATASCAN:資料剖析掃描的名稱。LOCATION:建立資料剖析掃描作業的 Google Cloud 區域。
C#
C#
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 C# 設定說明操作。詳情請參閱 Knowledge Catalog C# API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Go
Go
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Go 設定說明操作。詳情請參閱 Knowledge Catalog Go API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Java
Java
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Java 設定說明操作。詳情請參閱 Knowledge Catalog Java API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Python
Python
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Python 設定說明操作。詳情請參閱 Knowledge Catalog Python API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Ruby
Ruby
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Ruby 設定說明操作。詳情請參閱 Knowledge Catalog Ruby API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
REST
如要執行資料剖析掃描,請使用 dataScans.run 方法。
查看資料剖析掃描結果
控制台
在 Google Cloud 控制台,前往「Knowledge Catalog」的「Data profiling & quality」(資料剖析與品質) 頁面。
按一下資料剖析掃描的名稱。
「總覽」部分會顯示最近一次工作的相關資訊,包括掃描執行時間、掃描的資料表記錄數和工作狀態。
「資料剖析掃描設定」部分會顯示掃描的詳細資料。
如要查看工作的詳細資訊,例如掃描的資料表欄、掃描中找到的欄統計資料和工作記錄,請按一下「工作記錄」分頁標籤。然後按一下工作 ID。
gcloud
如要查看資料剖析掃描工作的結果,請使用 gcloud dataplex datascans jobs describe 指令:
gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
請替換下列變數:
JOB:資料剖析掃描工作的 ID。LOCATION:建立資料剖析掃描作業的 Google Cloud 區域。DATASCAN:作業所屬資料剖析掃描的名稱。--view=FULL:如要查看掃描工作結果,請指定FULL。
C#
C#
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 C# 設定說明操作。詳情請參閱 Knowledge Catalog C# API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Go
Go
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Go 設定說明操作。詳情請參閱 Knowledge Catalog Go API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Java
Java
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Java 設定說明操作。詳情請參閱 Knowledge Catalog Java API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Python
Python
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Python 設定說明操作。詳情請參閱 Knowledge Catalog Python API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Ruby
Ruby
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Ruby 設定說明操作。詳情請參閱 Knowledge Catalog Ruby API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
REST
如要查看資料剖析掃描結果,請使用 dataScans.get 方法。
查看已發布的結果
如果資料剖析掃描結果發布至 Google Cloud 控制台的 BigQuery 和 Knowledge Catalog 頁面,您可以在來源資料表的「資料剖析檔」分頁中查看最新的掃描結果。
在 Google Cloud 控制台,前往 Knowledge Catalog 的「Search」(搜尋) 頁面。
搜尋並選取資料表。
按一下「資料剖析檔」分頁標籤。
系統會顯示最新發布的結果。
查看最近一次的資料剖析掃描工作
控制台
在 Google Cloud 控制台,前往「Knowledge Catalog」的「Data profiling & quality」(資料剖析與品質) 頁面。
按一下資料剖析掃描的名稱。
按一下「最近一次的工作結果」分頁標籤。
如果至少有一項工作成功完成,最近一次的工作結果分頁就會提供最近一次工作的相關資訊。這份報表會列出掃描的資料表欄,以及掃描時發現的欄統計資料。
gcloud
如要查看最近一次成功的資料剖析掃描,請使用 gcloud dataplex datascans describe 指令:
gcloud dataplex datascans describe DATASCAN \ --location=LOCATION \ --view=FULL
請替換下列變數:
DATASCAN:要查看最新作業的資料剖析掃描名稱。LOCATION:建立資料剖析掃描的 Google Cloud 區域。--view=FULL:如要查看掃描工作結果,請指定FULL。
REST
如要查看最近的掃描作業,請使用 dataScans.get 方法。
查看歷來掃描結果
知識目錄會儲存最近 300 項工作或過去一年的資料剖析掃描記錄 (以先到者為準)。
控制台
在 Google Cloud 控制台,前往「Knowledge Catalog」的「Data profiling & quality」(資料剖析與品質) 頁面。
按一下資料剖析掃描的名稱。
按一下「工作記錄」分頁標籤。
「工作記錄」分頁會提供過去工作相關資訊,例如每項工作掃描的記錄數量、工作狀態,以及工作執行時間。
如要查看工作的詳細資訊,請按一下「工作 ID」欄中的任何工作。
gcloud
如要查看歷來資料剖析掃描工作,請使用 gcloud dataplex datascans jobs list 指令:
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN
請替換下列變數:
LOCATION:建立資料剖析掃描的 Google Cloud 區域。DATASCAN:要查看作業的資料剖析掃描名稱。
C#
C#
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 C# 設定說明操作。詳情請參閱 Knowledge Catalog C# API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Go
Go
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Go 設定說明操作。詳情請參閱 Knowledge Catalog Go API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Java
Java
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Java 設定說明操作。詳情請參閱 Knowledge Catalog Java API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Python
Python
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Python 設定說明操作。詳情請參閱 Knowledge Catalog Python API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Ruby
Ruby
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Ruby 設定說明操作。詳情請參閱 Knowledge Catalog Ruby API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
REST
如要查看歷來資料剖析掃描工作,請使用 dataScans.jobs.list 方法。
授予資料剖析掃描結果的存取權
如要允許貴機構使用者查看掃描結果,請按照下列步驟操作:
在 Google Cloud 控制台,前往「Knowledge Catalog」的「Data profiling & quality」(資料剖析與品質) 頁面。
按一下要分享結果的資料剖析掃描。
按一下「Permissions」(權限) 分頁標籤。
請執行下列步驟:
- 如要授予主體存取權,請按一下「授予存取權」。將「Dataplex DataScan 資料檢視者」角色授予相關聯的主體。
- 如要移除主體的存取權,請選取要移除「Dataplex DataScan DataViewer」角色的主體。依序點選 「移除存取權」,然後在系統提示時確認。
管理特定資料表的資料剖析掃描
本文將說明如何使用 Google Cloud 控制台的「Knowledge Catalog」資料剖析與品質頁面,管理專案中的資料剖析掃描作業。
使用特定資料表時,您也可以建立及管理資料剖析掃描作業。在 Google Cloud 控制台的資料表「Knowledge Catalog」(知識目錄) 頁面,使用「資料剖析檔」分頁標籤。請執行下列步驟:
在 Google Cloud 控制台,前往 Knowledge Catalog 的「Search」(搜尋) 頁面。
搜尋並選取資料表。
按一下「資料剖析檔」分頁標籤。
視資料表是否已發布資料剖析掃描結果而定,您可以透過下列方式使用資料表的資料剖析掃描:
已發布資料剖析掃描結果:頁面會顯示最新發布的掃描結果。
如要管理這個資料表的資料剖析掃描作業,請按一下「資料剖析掃描」,然後選取下列其中一個選項:
建立新的掃描作業:建立新的資料剖析掃描作業。詳情請參閱本文的「建立資料剖析掃描」一節。從資料表的詳細資料頁面建立掃描時,系統會預先選取該資料表。
「立即執行」:執行掃描。
編輯掃描設定:編輯設定,包括顯示名稱、篩選器、取樣大小和時間表。
管理掃描作業權限:控管哪些人可以存取掃描結果。 詳情請參閱本文的「授予資料剖析掃描結果的存取權」一節。
查看歷來結果:查看先前資料剖析掃描工作的詳細資訊。詳情請參閱本文的「查看資料剖析掃描結果」和「查看歷來掃描結果」一節。
查看所有掃描作業:查看適用於這個資料表的資料剖析掃描作業清單。
資料剖析掃描結果未發布:按一下「快速資料剖析檔」旁邊的選單,然後選取下列選項:
自訂資料剖析檔:建立新的資料剖析掃描。詳情請參閱本文的「建立資料剖析掃描」一節。從資料表的詳細資料頁面建立掃描時,系統會預先選取該資料表。
查看先前的剖析檔:查看適用於這個資料表的資料剖析掃描清單。
更新資料剖析掃描
控制台
在 Google Cloud 控制台,前往「Knowledge Catalog」的「Data profiling & quality」(資料剖析與品質) 頁面。
按一下資料剖析掃描的名稱。
按一下「編輯」,然後編輯值。
按一下 [儲存]。
gcloud
如要更新資料剖析掃描,請使用 gcloud dataplex datascans update data-profile 指令:
gcloud dataplex datascans update data-profile DATASCAN \ --location=LOCATION \ --description=DESCRIPTION
請替換下列變數:
DATASCAN:要更新的資料剖析掃描名稱。LOCATION:建立資料剖析掃描的 Google Cloud 區域。DESCRIPTION:資料剖析掃描的新說明。
C#
C#
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 C# 設定說明操作。詳情請參閱 Knowledge Catalog C# API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Go
Go
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Go 設定說明操作。詳情請參閱 Knowledge Catalog Go API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Java
Java
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Java 設定說明操作。詳情請參閱 Knowledge Catalog Java API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Python
Python
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Python 設定說明操作。詳情請參閱 Knowledge Catalog Python API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Ruby
Ruby
在試用這個範例之前,請先按照「使用用戶端程式庫的 Knowledge Catalog 快速入門導覽課程」中的 Ruby 設定說明操作。詳情請參閱 Knowledge Catalog Ruby API 參考文件。
如要向 Knowledge Catalog 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
REST
如要編輯資料剖析掃描,請使用 dataScans.patch 方法。
刪除資料剖析掃描
控制台
在 Google Cloud 控制台,前往「Knowledge Catalog」的「Data profiling & quality」(資料剖析與品質) 頁面。
按一下要刪除的掃描結果。
按一下「刪除」,然後在系統提示時確認刪除。
gcloud
如要刪除資料剖析掃描作業,請使用 gcloud dataplex datascans delete 指令:
gcloud dataplex datascans delete DATASCAN \ --location=LOCATION --async
請替換下列變數:
DATASCAN:要刪除的資料剖析掃描名稱。LOCATION:建立資料剖析掃描的 Google Cloud 區域。
REST
如要刪除資料剖析掃描作業,請使用 dataScans.delete 方法。
後續步驟
- 瞭解如何生成資料洞察以探索資料。
- 瞭解資料剖析。
- 瞭解自動分析資料品質。
- 瞭解如何使用自動分析資料品質。