ETLエディターを使用した パイプラインの開発とデバッグLakeflow Pipelines
プレビュー
この機能は パブリック プレビュー段階です。
この記事では、 Lakeflow Pipelines エディターを使用して、宣言型パイプラインで ETL (抽出、変換、読み込み) パイプラインを開発およびデバッグする方法について説明します Lakeflow 。
LakeFlow Pipelines Editor は、もちろん有効になっています。 オフにすることも、オフになっている場合は再度有効にすることもできます。LakeFlow Pipelines Editor の有効化」と「モニタリングの更新」を参照してください。
Lakeflow Pipelinesエディターとは何ですか?
Lakeflow Pipelines エディタは、宣言型パイプラインを開発するために構築されたLakeflowIDE です。すべてのパイプライン開発タスクを 1 つのサーフェスに組み合わせ、コードファーストのワークフロー、フォルダベースのコード編成、選択的な実行、データ プレビュー、パイプライン グラフをサポートします。Databricks プラットフォームと統合されているため、バージョン管理、コードレビュー、スケジュールされた実行も可能になります。
Lakeflow Pipelines エディタ UI の概要
次の画像はLakeFlow Pipelinesエディターを示しています。
画像には次の機能が表示されます。
- パイプライン アセット ブラウザ: パイプライン アセットを作成、削除、名前変更、整理します。 パイプライン構成へのショートカットも含まれています。
- タブ付きのマルチファイル コード エディター: パイプラインに関連付けられた複数のコード ファイルで作業します。
- パイプライン固有のツールバー: パイプライン構成オプションとパイプラインレベルの実行アクションが含まれています。
- インタラクティブな有向非巡回グラフ (DAG) : テーブルの概要を取得し、データ プレビューの下部バーを開いて、その他のテーブル関連のアクションを実行します。
- データ プレビュー: ストリーミング テーブルとマテリアライズドビューのデータを検査します。
- テーブル レベルの実行に関する情報: パイプライン内のすべてのテーブルまたは単一のテーブルに関する実行に関する情報を取得します。 最新のパイプライン実行の知見を参照してください。
- 問題パネル: この機能は、パイプライン内のすべてのファイルのエラーを要約し、特定のファイル内でエラーが発生した場所に移動できます。コードに添付されたエラーインジケーターを補完します。
- 選択的実行: コード エディターには、 ファイルの実行 アクションまたは 1 つのテーブルを使用して現在のファイル内のテーブルのみを更新する機能など、段階的な開発のための機能があります。
- もちろんパイプライン フォルダー構造: 新しいパイプラインには、パイプラインの開始点として使用できる事前定義されたフォルダー構造とサンプル コードが含まれています。
- 簡素化されたパイプライン作成: デフォルトでテーブルを作成する名前、カタログ、スキーマを指定すると、デフォルト設定を使用してパイプラインが作成されます。後でパイプライン エディターのツールバーから設定を調整できます。
新しいETLパイプラインを作成する
エディタを使用して新しいETL パイプラインを作成するには、次の手順を実行します。Lakeflow Pipelines
-
サイドバーの上部にある
新規 を選択し、
ETL パイプライン 。
-
上部で、パイプラインに一意の名前を付けることができます。
-
名前のすぐ下に、選択されたデフォルトのカタログとスキーマが表示されます。これらを変更して、パイプラインに異なるデフォルトを設定します。
デフォルトのカタログとデフォルトのスキーマは、コード内でカタログまたはスキーマを使用してデータセットを修飾していない場合に、データセットの読み取りまたは書き込みが行われる場所です。詳細については、 Databricksのデータベース オブジェクト」を参照してください。
-
次のいずれかのオプションを選択して、パイプラインを作成するための希望するオプションを選択します。
- SQL のサンプル コードから開始して、 SQL のサンプル コードを含む新しいパイプラインとフォルダー構造を作成します。
- Python のサンプル コードから始めて、 Python のサンプル コードを含む新しいパイプラインとフォルダー構造を作成します。
- 単一の変換から始めて、 新しい空のコード ファイルを使用して、新しいパイプラインとフォルダー構造を作成します。
- 既存のアセットを追加して 、ワークスペース内の既存のコード ファイルに関連付けることができるパイプラインを作成します。
ETL パイプラインには、SQL と Python の両方のソース コード ファイルを含めることができます。新しいパイプラインを作成し、サンプル コードの言語を選択すると、その言語はデフォルトでパイプラインに含まれるサンプル コードのみに適用されます。
-
選択すると、新しく作成されたパイプラインにリダイレクトされます。
ETL パイプラインは、次のデフォルト設定で作成されます。
- Unity Catalog
- 現在のチャンネル
- サーバーレスコンピュート
- 開発モードはオフです。この設定は、パイプラインのスケジュールされた実行にのみ影響します。エディターからパイプラインを実行すると、常にデフォルトで開発モードが使用されます。
これらの設定はパイプライン ツールバーから調整できます。
あるいは、ワークスペース ブラウザから ETL パイプラインを作成することもできます。
- 左側のパネルで ワークスペース をクリックします。
- Git フォルダーを含む任意のフォルダーを選択します。
- 右上隅の [作成] をクリックし、 [ETL パイプライン] をクリックします。
[ジョブとパイプライン] ページからETLパイプラインを作成することもできます。
- ワークスペースで、サイドバーの
ジョブ & パイプライン をクリックします。
- [新規] の下で、 [ETL パイプライン] をクリックします。
既存のETLパイプラインを開く
LakeFlow Pipelinesエディターで既存のETLパイプラインを開く方法は複数あります。
-
パイプラインに関連付けられているソース ファイルを開きます。
- サイドパネルの ワークスペース をクリックします。
- パイプラインのソース コード ファイルがあるフォルダーに移動します。
- ソース コード ファイルをクリックすると、エディターでパイプラインが開きます。
-
最近編集したパイプラインを開きます。
- エディターから、アセット ブラウザーの上部にあるパイプラインの名前をクリックし、表示される最近のリストから別のパイプラインを選択することで、最近編集した他のパイプラインに移動できます。
- エディターの外部の左側のサイドバーの [ 最近] ページから、パイプラインまたはパイプラインのソース コードとして構成されたファイルを開きます。
-
製品全体のパイプラインを表示するときに、パイプラインを編集することを選択できます。
- パイプラインモニタリングページで、 をクリックします。
パイプラインを編集します 。
- 左側のサイドバーの 「ジョブ実行」 ページで、 「ジョブとパイプライン 」タブをクリックし、
そして パイプラインを編集します 。
- ジョブを編集してパイプライン タスクを追加する場合、
パイプライン の下でパイプラインを選択するときに、 ボタンをクリックします。
- パイプラインモニタリングページで、 をクリックします。
-
アセット ブラウザーで すべてのファイルを 参照しているときに、別のパイプラインからソース コード ファイルを開くと、エディターの上部にバナーが表示され、関連付けられているパイプラインを開くように求められます。
パイプラインアセットブラウザ
パイプラインを編集しているとき、左側のワークスペース サイドバーでは 、パイプライン アセット ブラウザー と呼ばれる特別なモードが使用されます。デフォルトでは、パイプライン アセット ブラウザはパイプラインのルートと、ルート内のフォルダーとファイルに焦点を合わせます。パイプラインのルート外のファイルを表示するには、 [すべてのファイル を表示] を選択することもできます。特定のパイプラインを編集しているときにパイプライン エディターで開いたタブは記憶され、別のパイプラインに切り替えると、そのパイプラインを最後に編集したときに開いたタブが復元されます。
エディターには、SQL ファイルを編集するためのコンテキスト ( Databricks SQL エディター と呼ばれる) と、SQL ファイルやパイプライン ファイルではないワークスペース ファイルを編集するための一般的なコンテキストもあります。これらの各コンテキストは、そのコンテキストを最後に使用したときに開いていたタブを記憶し、復元します。左サイドバーの上部からコンテキストを切り替えることができます。ヘッダーをクリックして、ワークスペース、SQL エディター、または最近編集したパイプラインのいずれかを選択します。
ワークスペース ブラウザ ページからファイルを開くと、そのファイルに対応するエディターでファイルが開きます。ファイルがパイプラインに関連付けられている場合、それはLakeFlow Pipelines Editor です。
パイプラインの一部ではないがパイプラインのコンテキストを保持するファイルを開くには、アセット ブラウザの [すべてのファイル] タブからファイルを開きます。
パイプライン アセット ブラウザには 2 つのタブがあります。
- パイプライン : ここには、パイプラインに関連付けられたすべてのファイルがあります。 フォルダーを作成、削除、名前変更、整理することができます。このタブには、パイプライン構成のショートカットと最近の実行のグラフィカル ビューも含まれています。
- すべてのファイル : 他のすべてのワークスペース アセットはここから入手できます。これは、パイプラインに追加するファイルを検索したり、パイプラインに関連する他のファイル (Databricks アセット バンドルを定義する YAML ファイルなど) を表示したりするのに役立ちます。
パイプラインには次の種類のファイルを含めることができます。
- ソース コード ファイル: これらのファイルはパイプラインのソース コード定義の一部であり、 [設定] で確認できます。 Databricks では、ソース コード ファイルを常にパイプラインのルート フォルダー内に保存することを推奨しています。そうしないと、ブラウザーの下部にある外部ファイルセクションに表示され、機能セットがあまり充実しなくなります。
- 非ソース コード ファイル: これらのファイルはパイプラインのルート フォルダー内に保存されますが、パイプラインのソース コード定義の一部ではありません。
パイプラインのファイルとフォルダーを管理するには、「パイプライン 」タブの下にあるパイプライン アセット ブラウザーを使用する必要があります。 これにより、パイプライン設定が正しく更新されます。ワークスペース ブラウザまたは [すべてのファイル] タブからファイルやフォルダを移動したり名前を変更したりすると、パイプラインの構成が壊れるため、 [設定] で手動で解決する必要があります。
ルートフォルダ
パイプライン アセット ブラウザーは、パイプラインのルート フォルダーに固定されています。新しいパイプラインを作成すると、パイプライン ルート フォルダーがユーザーのホーム プランに作成され、パイプライン名と同じ名前が付けられます。
パイプライン アセット ブラウザーでルート フォルダーを変更できます。これは、フォルダー内にパイプラインを作成し、後ですべてを別のフォルダーに移動する場合に便利です。たとえば、通常のフォルダーにパイプラインを作成し、バージョン管理のためにソース コードを Git フォルダーに移動するとします。
- クリック
ルート フォルダーのオーバーフロー メニュー。
- 新しいルート フォルダーの構成を クリックします。
- パイプライン ルート フォルダ で
をクリックし、別のフォルダをパイプライン ルート フォルダとして選択します。
- 保存 をクリックします。
の中でルート フォルダーの場合は、 [ルート フォルダーの名前を変更] をクリックしてフォルダー名を変更することもできます。ここで、 「ルート フォルダーの移動」 をクリックして、ルート フォルダーを Git フォルダーなどに移動することもできます。
設定でパイプラインのルート フォルダーを変更することもできます。
- 設定 をクリックします。
- コードアセット で、 パスの構成 をクリックします。
- [
] をクリックして、 パイプライン ルート フォルダー の下のフォルダーを変更します。
- 保存 をクリックします。
パイプラインのルート フォルダーを変更すると、以前のルート フォルダー内のファイルが外部ファイルとして表示されるため、パイプライン アセット ブラウザーに表示されるファイル リストが影響を受けます。
ルートフォルダのない既存のパイプライン
従来のノートブック編集エクスペリエンスを使用して作成された既存のパイプラインには、ルート フォルダーは構成されません。ルート フォルダーが設定されていないパイプラインを開くと、ルート フォルダーを作成し、その中にソース ファイルを整理するように求められます。
これを無視して、ルート フォルダーを設定せずにパイプラインの編集を続行できます。
後でパイプラインのルート フォルダーを構成したい場合は、次のステップに従ってください。
- パイプラインアセットブラウザで、 設定 をクリックします。
- [
] をクリックして、 パイプライン ルート フォルダー の下のルート フォルダーを選択します。
- 保存 をクリックします。
デフォルトのフォルダ構造
新しいパイプラインを作成すると、デフォルトのフォルダー構造が作成されます。これは、以下で説明するように、パイプラインのソース コード ファイルと非ソース コード ファイルを整理するための推奨構造です。
このフォルダー構造には、少数のサンプル コード ファイルが作成されます。
フォルダ名 | これらの種類のファイルの推奨場所 |
---|---|
| パイプラインのすべてのフォルダーとファイルが含まれるルート フォルダー。 |
| テーブル定義を含む Python または SQL コード ファイルなどのソース コード ファイル。 |
| 探索的データ分析に使用されるノートブック、クエリ、コード ファイルなどの非ソース コード ファイル。 |
| 他のコード ファイルからインポートできる Python モジュールを含む非ソース コード ファイル。サンプル コードの言語として SQL を選択した場合、このフォルダーは作成されません。 |
ワークフローに合わせてフォルダー名を変更したり、構造を変更したりできます。新しいソース コード フォルダーを追加するには、次のステップに従います。
- パイプラインアセットブラウザで 追加 をクリックします。
- パイプライン ソース コード フォルダの作成 をクリックします。
- フォルダ名を入力し、 「作成」 をクリックします。
ソースコードファイル
ソース コード ファイルは、パイプラインのソース コード定義の一部です。 パイプラインを実行すると、これらのファイルが評価されます。ソース コード定義の一部であるファイルとフォルダーには、ミニ パイプライン アイコンが重ねて表示された特別なアイコンが表示されます。
新しいソース コード ファイルを追加するには、次のステップに従います。
- パイプラインアセットブラウザで 追加 をクリックします。
- 変換 をクリックします。
- ファイルの 名前 を入力し、 言語 として Python または SQL を選択します。
- 作成 をクリックします。
クリックすることもできますパイプライン アセット ブラウザー内の任意のフォルダーにソース コード ファイルを追加します。
新しいパイプラインを作成すると、ソース コード用のtransformations
フォルダーがデフォルトで作成されます。このフォルダーは、パイプライン テーブル定義を含む Python または SQL コード ファイルなどのパイプライン ソース コードの推奨される場所です。
ソースコード以外のファイル
ソース コード ファイル以外のファイルは、パイプラインのルート フォルダー内に格納されますが、パイプラインのソース コード定義の一部ではありません。これらのファイルは、パイプラインの実行時には評価されません。ソース コード ファイル以外のファイルを 外部ファイルにすることはできません。
ソース コードと一緒に保存したいパイプラインでの作業に関連するファイルにこれを使用できます。例えば:
- 非Lakeflow 宣言型パイプライン コンピュートで実行されるアドホック探索に使用するノートブック パイプラインのライフサイクル外。
- ソース コード ファイル内にこれらのモジュールを明示的にインポートしない限り、ソース コードでは評価されない Python モジュール。
新しい非ソース コード ファイルを追加するには、次のステップに従います。
- パイプラインアセットブラウザで 追加 をクリックします。
- [Exploration] または [Utility] をクリックします。
- ファイルの 名前 を入力します。
- 作成 をクリックします。
クリックすることもできますパイプラインのルート フォルダーまたは非ソース コード ファイルを指定すると、非ソース コード ファイルがフォルダーに追加されます。
新しいパイプラインを作成すると、ソース コード以外のファイル用の次のフォルダーがデフォルトで作成されます。
フォルダ名 | 説明 |
---|---|
| このフォルダは、ノートブック、クエリ、ダッシュボード、およびその他のファイルの場所として推奨され、パイプラインの実行ライフサイクルの外部で通常行うのと同様に、非Lakeflow 宣言型パイプラインコンピュートで実行します。 |
| このフォルダーは、親フォルダーが階層的にルート フォルダーの下にある限り、 |
ルート フォルダーの外部にある Python モジュールをインポートすることもできますが、その場合は Python コードのsys.path
にフォルダー パスを追加する必要があります。
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*
外部ファイル
パイプライン ブラウザーの 外部ファイル セクションには、ルート フォルダーの外部にあるソース コード ファイルが表示されます。
外部ファイルをtransformations
フォルダーなどのルート フォルダーに移動するには、次の手順に従います。
- クリック
アセット ブラウザでファイルを選択し、 [移動] をクリックします。
- ファイルの移動先のフォルダを選択し、 移動 をクリックします。
複数のパイプラインに関連付けられたファイル
ファイルが複数のパイプラインに関連付けられている場合は、ファイルのヘッダーにバッジが表示されます。関連付けられているパイプラインの数があり、他のパイプラインに切り替えることができます。
すべてのファイルセクション
パイプライン セクションに加えて、ワークスペース内の任意のファイルを開くことができる すべてのファイル セクションがあります。ここでは次のことができます:
- ルートフォルダの外部にあるファイルをタブ内で開き、 Lakeflow Pipelines エディタを離れることなく開きます。
- 別のパイプラインのソース コード ファイルに移動して開きます。これにより、エディターでファイルが開き、エディターでフォーカスをこの 2 番目のパイプラインに切り替えるオプションを含むバナーが表示されます。
- ファイルをパイプラインのルート フォルダーに移動します。
- パイプラインのソース コード定義にルート フォルダー外のファイルを含めます。
パイプラインのソースファイルを編集する
ワークスペース ブラウザーまたはパイプライン アセット ブラウザーからパイプライン ソース ファイルを開くと、 LakeFlow Pipelinesエディターのエディター タブで開きます。 複数のファイルを開くと個別のタブが開き、複数のファイルを一度に編集できるようになります。
ワークスペース ブラウザからパイプラインに関連付けられていないファイルを開くと、別のコンテキストでエディター (一般的な ワークスペース エディター、またはSQLファイルの場合は SQLエディター ) が開きます。
パイプライン アセット ブラウザーの [すべてのファイル] タブからパイプライン以外のファイルを開くと、パイプライン コンテキストの新しいタブで開きます。
パイプラインのソース コードには複数のファイルが含まれています。デフォルトでは、ソース ファイルはパイプライン アセット ブラウザーの 変換 フォルダーにあります。ソース コード ファイルは、Python ( *.py ) または SQL ( *.sql ) ファイルになります。ソースでは、1 つのパイプラインに Python ファイルと SQL ファイルの両方を混在させることができ、1 つのファイル内のコードは別のファイルで定義されたテーブルまたはビューを参照できます。
変換 フォルダーにマークダウン ( *.md )ファイルを含めることもできます。Markdown ファイルはドキュメントやメモに使用できますが、パイプラインの更新を実行するときには無視されます。
以下の機能はLakeFlow Pipelinesエディターに固有のものです。
-
接続 - サーバーレスまたはクラシック コンピュートに接続してパイプラインを実行します。 パイプラインに関連付けられたすべてのファイルは同じコンピュート接続を使用するため、一度接続すると、同じパイプライン内の他のファイルに接続する必要はありません。 コンピュート オプションの詳細については、 「コンピュート構成オプション」を参照してください。
探索的ノートブックなどのパイプライン以外のファイルの場合、接続オプションは使用できますが、その個々のファイルにのみ適用されます。
-
ファイルを実行 - コードを実行して、このソース ファイルで定義されているテーブルを更新します。次のセクションでは、パイプライン コードを実行するさまざまな方法について説明します。
-
編集 - Databricks Assistantを使用して、ファイル内のコードを編集または追加します。
-
クイック修正 - コードにエラーがある場合は、アシスタントを使用してエラーを修正します。
下部のパネルも現在のタブに基づいて調整されます。下部パネルでパイプライン情報をいつでも表示できます。SQL エディター ファイルなどのパイプラインに関連しないファイルも、別のタブの下部パネルに出力が表示されます。次の画像は、下部のパネルでパイプライン情報の表示と選択したノートブックの情報の表示を切り替える垂直タブ セレクターを示しています。
パイプラインコードを実行する
パイプライン コードを実行するには、次の 4 つのオプションがあります。
-
パイプライン内のすべてのソースコードファイルを実行する
[パイプライン] または [完全なテーブル更新でパイプラインを実行] をクリックして、パイプライン ソース コードとして定義されているすべてのファイル内のすべてのテーブル定義を実行します。 更新タイプの詳細については、 「パイプライン更新セマンティクス」を参照してください。
ドライラン をクリックして、データを更新せずにパイプラインを検証することもできます。
-
コードを1つのファイルで実行する
[ファイル実行] または [完全なテーブル更新でファイルを実行] をクリックして、現在のファイル内のすべてのテーブル定義を実行します。 パイプライン内の他のファイルは評価されません。
このオプションは、ファイルをすばやく編集して反復処理する場合のデバッグに役立ちます。単一のファイル内のコードのみを実行すると副作用が生じます。
- 他のファイルが評価されない場合、それらのファイル内のエラーは見つかりません。
- 他のファイルでマテリアライズされたテーブルでは、より新しいソース データが存在する場合でも、テーブルの最新のマテリアライズが使用されます。
- 参照先のテーブルがまだマテリアライズされていない場合は、エラーが発生する可能性があります。
- マテリアライズされていない他のファイル内のテーブルでは、DAG が正しくないか、分離されている可能性があります。Databricks はグラフを正確に保つために最善を尽くしますが、そのために他のファイルを評価することはありません。
デバッグとファイルの編集が完了したら、 Databricks 、パイプラインを本番運用する前に、パイプライン内のすべてのソース コード ファイルを実行して、パイプラインがエンドツーエンドで動作することを確認することをお勧めします。
-
単一のテーブルに対してコードを実行する
ソース コード ファイル内のテーブル定義の横にある 実行テーブル アイコン をクリックします。
次に、ドロップダウンから 「テーブルの更新」 または 「テーブルの完全更新」の いずれかを選択します。 単一のテーブルに対してコードを実行すると、単一のファイルでコードを実行した場合と同様の副作用が発生します。
ストリーミングテーブルとマテリアライズドビューでは、単一テーブルのコードを実行できます。 シンクとビューはサポートされていません。
-
テーブルセットのコードを実行する
DAG からテーブルを選択して、実行するテーブルのリストを作成できます。DAGのテーブルにマウスを移動し、
をクリックし、 更新するテーブルを選択 を選択します。更新するテーブルを選択したら、DAG の下部から [ 実行] または [完全更新で実行] オプションを選択します。
パイプライングラフ、有向非巡回グラフ(DAG)
パイプライン内のすべてのソース コード ファイルを実行または検証すると、 パイプライン グラフ と呼ばれる有向非巡回グラフ (DAG) が表示されます。グラフにはテーブル依存関係グラフが表示されます。各ノードには、パイプラインのライフサイクルに沿って、検証済み、実行中、エラーなどのさまざまな状態があります。
右側のパネルのグラフ アイコンをクリックすると、グラフのオンとオフを切り替えることができます。グラフを最大化することもできます。右下にはズームオプションなどの追加オプションがあります。グラフを垂直または水平レイアウトで表示するための その他のオプション 。
ノードにマウスを移動すると、クエリの更新などのオプションを含むツールバーが表示されます。ノードを右クリックすると、コンテキスト メニューに同じオプションが表示されます。
ノードをクリックすると、データのプレビューとテーブル定義が表示されます。ファイルを編集すると、そのファイルで定義されているテーブルがグラフ内で強調表示されます。
データプレビュー
データ プレビュー セクションには、選択したテーブルのサンプル データが表示されます。
有向非巡回グラフ (DAG) 内のノードをクリックすると、テーブルのデータのプレビューが表示されます。
テーブルが選択されていない場合は、 テーブル セクションに移動し、 データ プレビュー の表示 をクリックします。テーブルを選択した場合は、[ すべてのテーブル ] をクリックしてすべてのテーブルに戻ります。
テーブル データをプレビューすると、その場でデータをフィルター処理したり並べ替えたりすることができます。より複雑な分析を行う場合は、 Explorations フォルダー内のノートブックを使用または作成できます (デフォルトのフォルダー構造を維持していると仮定)。デフォルトでは、このフォルダー内のソース コードはパイプラインの更新中に実行されないため、パイプラインの出力に影響を与えずにクエリを作成できます。
処理に対する洞察
エディターの下部にあるパネルで、最新のパイプライン更新に関するテーブル実行の知識を確認できます。
パネル | 説明 |
---|---|
テーブル | すべてのテーブルとそのステータスおよびメトリクスをリストします。 1 つのテーブルを選択すると、そのテーブルのメトリクスとパフォーマンス、およびデータ プレビューのタブが表示されます。 |
パフォーマンス | このパイプライン内のすべてのフローのクエリ履歴とプロファイル。実行中および実行後に、実行メトリクスと詳細なクエリプランにアクセスできます。詳細については 、「 Lakeflow 宣言型パイプラインのクエリ履歴にアクセスする 」を参照してください。 |
問題パネル | パネルをクリックすると、パイプラインのエラーと警告が簡略化されて表示されます。エントリをクリックすると詳細が表示され、コード内のエラーが発生した場所に移動できます。エラーが現在表示されているファイル以外のファイルにある場合は、エラーがあるファイルにリダイレクトされます。 「詳細を表示」をクリックすると、対応するイベント ログ エントリの詳細 が表示されます。完全なイベント ログを表示するには、 [ログの表示] をクリックします。 コードの特定の部分に関連するエラーについては、コードに添付されたエラー インジケーターが表示されます。詳細を表示するには、 エラー アイコンをクリックするか、赤い線の上にマウスを置きます。詳細情報を示すポップアップが表示されます。次に、 「クイック修正」 をクリックすると、エラーをトラブルシューティングするための一連のアクションが表示されます。 |
イベントログ | 最後のパイプライン実行中にトリガーされたすべてのイベント。問題トレイ内の ログまたは任意のエントリの表示 をクリックします。 |
パイプライン構成
パイプライン エディターからパイプラインを構成できます。パイプラインの設定、スケジュール、または権限を変更できます。
これらはそれぞれ、エディターのヘッダーにあるボタン、またはアセット ブラウザー (左側のサイドバー) のアイコンからアクセスできます。
-
設定 (または選択
アセットブラウザ内):
設定パネルからパイプラインの設定を編集できます。これには、一般情報、ルート フォルダーとソース コードの構成、コンピュートの構成、通知、詳細設定などが含まれます。
-
スケジュール (または選択)
アセットブラウザ内):
スケジュール ダイアログから、パイプラインのスケジュールを 1 つ以上作成できます。たとえば、毎日実行したい場合は、ここで設定できます。選択したスケジュールでパイプラインを実行するジョブを作成します。スケジュール ダイアログから新しいスケジュールを追加したり、既存のスケジュールを削除したりできます。
-
シェア (または、
アセットブラウザのメニューから
):
パイプライン権限ダイアログから、ユーザーとグループのパイプラインの権限を管理できます。
イベントログ
パイプラインのイベント ログを Unity Catalog に公開できます。デフォルトでは、パイプラインのイベント ログは UI に表示され、所有者がクエリのためにアクセスできます。
- 設定 を開きます。
- クリック
詳細設定の 横にある矢印。
- 詳細設定の編集を クリックします。
- [イベント ログ] の下で、 [カタログに公開] をクリックします。
- イベント ログの名前、カタログ、スキーマを指定します。
- 保存 をクリックします。
パイプライン イベントは、指定したテーブルに公開されます。
パイプライン イベント ログの使用の詳細については、 「イベント ログのクエリ」を参照してください。
パイプライン環境
設定 で依存関係を追加することで、ソースコード用の環境を作成できます。
- 設定 を開きます。
- [環境] の下で、 [環境の編集] を クリックします。
- 選択
依存関係を追加するには、
requirements.txt
ファイルに追加するのと同じように依存関係 を追加します 。依存関係の詳細については、 「ノートブックに依存関係を追加する」を参照してください。
Databricks では、 ==
を使用してバージョンをピン留めすることをお勧めします。PyPI パッケージを参照してください。
環境はパイプライン内のすべてのソース コード ファイルに適用されます。
通知
パイプライン設定 を使用して通知を追加できます。
- 設定 を開きます。
- [通知] セクションで、 [通知を追加] をクリックします。
- 1 つ以上の電子メール アドレスと、そのアドレスを送信するイベントを追加します。
- [通知を追加]を クリックします。
Pythonイベント フックを使用して、通知やカスタム処理などのイベントに対するカスタム応答を作成します。
モニタリングパイプライン
Databricks は、実行中のパイプラインを監視する機能も提供します。エディターには、最新の実行に関する結果と実行に関する知識が表示されます。 パイプラインをインタラクティブに開発しながら効率的に反復できるように最適化されています。
パイプライン モニタリング ページでは、実行履歴を表示できます。これは、ジョブを使用してパイプラインがスケジュールに従って実行されている場合に役立ちます。
残りのモニタリング エクスペリエンスと、更新されたプレビュー モニタリング エクスペリエンスがあります。 次のセクションでは、プレビューモニタリングエクスペリエンスを有効または無効にする方法について説明します。 両方のエクスペリエンスに関する情報については、 「UI でLakeFlow宣言型パイプラインを監視する」を参照してください。
モニタリング体験は、ワークスペースの左側にある ジョブとパイプライン ボタンから利用できます。 パイプライン アセット ブラウザーで実行結果をクリックして、エディターからモニタリング ページに直接ジャンプすることもできます。
モニタリング ページの詳細については、 「UI でLakeFlow宣言型パイプラインを監視する」を参照してください。 モニタリング UI には、UI のヘッダーから [パイプラインの編集] を 選択することで、 LakeFlow Pipelinesエディターに戻る機能が含まれています。
LakeFlow Pipelines Editor と更新されたモニタリングを有効にする
LakeFlow Pipelines Editor のプレビューは、当然により有効になります。 以下の手順に従って無効にしたり、再度有効にしたりすることができます。LakeFlow Pipelinesエディターのプレビューが有効になっている場合は、更新されたモニタリング エクスペリエンス (プレビュー) も有効にすることができます。
ワークスペースの LakeFlow Pipelines Editor オプションを設定して、プレビューを有効にする必要があります。 オプションの編集方法の詳細については、 Databricksプレビューの管理」を参照してください。
プレビューが有効になったら、 LakeFlow Pipelinesエディターを複数の方法で有効にできます。
-
新しいETLパイプラインを作成するときは、 LakeFlow LakeFlow Pipelines 宣言型パイプラインのエディターを有効にします。
エディターを初めて有効にするときに、パイプラインの詳細設定ページが使用されます。次回新しいパイプラインを作成するときには、簡略化されたパイプライン作成ウィンドウが使用されます。
-
既存のパイプラインの場合は、パイプラインで使用されているノートブックを開き、ヘッダーで LakeFlow Pipelines Editor の 切り替えを有効にします。 パイプライン監視ページに移動し、 [設定] をクリックしてLakeFlow Pipelines Editor を有効にすることもできます。
-
ユーザー設定からLakeFlow Pipelinesエディターを有効にすることができます。
- ワークスペースの右上にある ユーザー バッジ をクリックし、 [設定] と [開発者] をクリックします。
- LakeFlow Pipelinesエディター を有効にします。
LakeFlow Pipelinesエディターの 切り替えを有効にすると、すべてのETLパイプラインは事実上LakeFlow Pipelinesエディターを使用します。 LakeFlow Pipelinesエディターはエディターからオンとオフを切り替えることができます。
新しいパイプライン エディターを無効にする場合は、無効にした理由を説明するフィードバックを残していただくと役立ちます。新しいエディターに関するフィードバックがある場合は、トグルに [フィードバックを送信] ボタンがあります。
新しいパイプラインモニタリングページを有効にする
プレビュー
この機能は パブリック プレビュー段階です。
LakeFlow Pipelines Editor プレビューの一部として、パイプラインの新しいパイプライン モニタリング ページを有効にすることもできます。 パイプラインモニタリングページを有効にするには、 LakeFlow Pipelines Editor プレビューを有効にする必要があります。 エディターのプレビューが有効になっていると、新しいモニタリング ページも当然有効になります。
-
[ジョブとパイプライン] をクリックします。
-
パイプラインの詳細を表示するには、パイプラインの名前をクリックします。
-
ページの上部で、 [新しいパイプライン] ページの 切り替えを使用して、更新されたモニタリング UI を有効にします。
制限事項と既知の問題
宣言型パイプラインの ETL パイプライン エディターに関する次の制限事項と既知の問題 Lakeflow を参照してください。
-
explorations
フォルダー内のファイルまたはノートブックを開いて開始した場合、ワークスペース ブラウザのサイドバーはパイプラインにフォーカスしません。これらのファイルまたはノートブックはパイプライン ソース コード定義の一部ではないためです。ワークスペース ブラウザでパイプライン フォーカス モードに入るには、パイプラインに関連付けられているファイルを開きます。
-
通常のビューではデータプレビューはサポートされていません。
-
Python モジュールは、ルート フォルダー内または
sys.path
上にある場合でも、UDF 内からは見つかりません。これらのモジュールにアクセスするには、UDF 内からsys.path
にパスを追加します。次に例を示します。sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))
-
%pip install
ファイル (新しいエディターのデフォルトのアセット タイプ) からはサポートされません。設定で依存関係を追加できます。パイプライン環境を参照してください。あるいは、パイプラインに関連付けられたノートブックの
%pip install
ソース コード定義で引き続き使用することもできます。
よくある質問
-
ソースコードにノートブックではなくファイルを使用するのはなぜですか?
ノートブックのセルベースの実行は、 LakeFlow宣言型パイプラインと互換性がありません。 LakeFlow宣言型パイプラインを使用する場合、ノートブックの標準機能が無効になるか変更されるため、ノートブックの動作に慣れているユーザーは混乱します。
Lakeflow Pipelines エディタでは、ファイル エディタは Lakeflow 宣言型パイプラインのファーストクラス エディタの基盤として使用されます。機能は、さまざまな動作を持つ使い慣れた機能をオーバーロードするのではなく、Lakeflow 実行テーブル などの 宣言型パイプラインを明示的に対象としています。
-
ノートブックをソースコードとして使用できますか?
はい、できます。ただし、 実行テーブル などの一部の機能は
または 実行ファイル が存在しません。
ノートブックを使用した既存のパイプラインがある場合、新しいエディターでも引き続き機能します。ただし、Databricks では、新しいパイプラインではファイルに切り替えることを推奨しています。
-
新しく作成したパイプラインに既存のコードを追加するにはどうすればよいですか?
既存のソース コード ファイルを新しいパイプラインに追加できます。既存のファイルを含むフォルダーを追加するには、次のステップに従います。
- 設定 をクリックします。
- [ソース コード] の下で [パスの構成] をクリックします。
- 「パスの追加」 をクリックし、既存のファイルのフォルダーを選択します。
- 保存 をクリックします。
個々のファイルを追加することもできます。
- パイプライン アセット ブラウザで [すべてのファイル] をクリックします。
- ファイルに移動してクリック
をクリックし、 パイプラインに含めるを クリックします。
これらのファイルをパイプラインのルート フォルダーに移動することを検討してください。パイプラインのルート フォルダーの外側に残されている場合は、 外部ファイル セクションに表示されます。
-
パイプラインのソース コードをGitで管理できますか?
パイプラインを最初に作成するときに Git フォルダーを選択することで、Git でパイプライン ソースを管理できます。
ソースを Git フォルダーで管理すると、ソース コードのバージョン管理が追加されます。ただし、構成のバージョン管理を行うには、Databricks では、Databricks アセット バンドルを使用して、Git (または別のバージョン管理システム) に保存できるバンドル構成ファイルでパイプライン構成を定義することをお勧めします。詳細については、 Databricksアセット バンドルとは何ですか?」を参照してください。 。
最初に Git フォルダーにパイプラインを作成しなかった場合は、ソースを Git フォルダーに移動できます。Databricks では、エディター アクションを使用してルート フォルダー全体を Git フォルダーに移動することをお勧めします。これにより、すべての設定がそれに応じて更新されます。ルートフォルダーを参照してください。
パイプライン アセット ブラウザでルート フォルダを Git フォルダに移動するには:
- クリック
ルート フォルダー用。
- ルートフォルダの移動を クリックします。
- ルート フォルダーの新しい場所を選択し、 [移動] をクリックします。
詳細については、 「ルート フォルダー」セクションを参照してください。
移動後、ルート フォルダーの名前の横に、使い慣れた Git アイコンが表示されます。
パイプライン ルート フォルダーを移動するには、パイプライン アセット ブラウザーと上記のステップを使用します。 他の方法で移動するとパイプライン構成が壊れるため、 [設定] で正しいフォルダー パスを手動で構成する必要があります。
-
同じルート フォルダーに複数のパイプラインを配置できますか?
可能ですが、Databricks ではルート フォルダーごとに 1 つのパイプラインのみを使用することをお勧めします。
-
ドライ実行はいつ実行すればよいですか?
ドライラン をクリックして、テーブルを更新せずにコードを確認します。
-
コード内で一時ビューをいつ使用する必要がありますか?また、マテリアライズドビューを使用する必要があるのはどのような場合ですか?
データをマテリアライズしたくない場合は、一時ビューを使用します。たとえば、これは、カタログに登録されているストリーミング テーブルやマテリアライズドビューを使用してデータを実体化する準備ができる前に、データを準備するための一連のステップの中のステップです。