שימוש ב-Spark SQL עם Dataproc Metastore

בדף הזה מוצגת דוגמה לשימוש ב-Spark SQL עם שירות Dataproc Metastore. בדוגמה הזו, מפעילים סשן של Spark SQL באשכול Dataproc ומריצים כמה פקודות לדוגמה כדי ליצור מסד נתונים וטבלה.

לפני שמתחילים

חיבור ל-Spark SQL

כדי להתחיל להשתמש ב-Spark SQL, צריך להשתמש ב-SSH כדי להתחבר לאשכול Dataproc שמשויך לשירות Dataproc Metastore. אחרי שמתחברים לאשכול באמצעות SSH, אפשר להריץ פקודות Spark כדי לנהל את המטא-נתונים.

כדי להתחבר ל-Spark SQL

  1. נכנסים לדף VM Instances במסוף Google Cloud .
  2. ברשימת המכונות הווירטואליות, לוחצים על SSH בשורה של מכונת Dataproc שרוצים להתחבר אליה.

חלון דפדפן נפתח בספריית הבית של הצומת עם פלט שדומה לזה:

Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$

כדי להפעיל את Hive וליצור מסד נתונים וטבלה, מריצים את הפקודות הבאות בסשן SSH:

  1. מפעילים את מעטפת Spark.

    spark-shell
    
  2. יוצרים מסד נתונים בשם myDB.

    spark.sql("create database myDB");
    
  3. משתמשים במסד הנתונים שיצרתם.

    spark.sql("use myDB");
    
  4. יוצרים טבלה בשם myTable.

    spark.sql("create table bar(id int,name string)");
    
  5. מפרטים את הטבלאות בקטע myDatabase.

    spark.sql("show tables").show();
    
  6. הצגת השורות בטבלה שיצרתם.

    desc myTable;
    

הפלט של הפקודות האלה אמור להיראות כך:

$spark-shell

scala>spark.sql("create database myDB");

scala>spark.sql("use myTable");

scala>spark.sql("create table myTable(id int,name string)");

scala>spark.sql("show tables").show();

+--------+---------+-----------+
|database|tableName|isTemporary|
+--------+---------+-----------+
|    myDB|  myTable|      false|
+--------+---------+-----------+
+--------+---------+-------+
|col_name|data_type|comment|
+--------+---------+-------+
|      id|      int|   null|
|    name|   string|   null|
+--------+---------+-------+

המאמרים הבאים