שימוש ב-Spark SQL עם Dataproc Metastore

בדף הזה מוצגת דוגמה לשימוש ב-Spark SQL עם שירות Dataproc Metastore. בדוגמה הזו, מפעילים סשן של Spark SQL באשכול Dataproc ומריצים כמה פקודות לדוגמה כדי ליצור מסד נתונים וטבלה.

לפני שמתחילים

יוצרים שירות Dataproc Metastore.
מצרפים את שירות Dataproc Metastore לאשכול Dataproc.

חיבור ל-Spark SQL

כדי להתחיל להשתמש ב-Spark SQL, צריך להשתמש ב-SSH כדי להתחבר לאשכול Dataproc שמשויך לשירות Dataproc Metastore. אחרי שמתחברים לאשכול באמצעות SSH, אפשר להריץ פקודות Spark כדי לנהל את המטא-נתונים.

כדי להתחבר ל-Spark SQL

נכנסים לדף VM Instances במסוף Google Cloud .
ברשימת המכונות הווירטואליות, לוחצים על SSH בשורה של מכונת Dataproc שרוצים להתחבר אליה.

חלון דפדפן נפתח בספריית הבית של הצומת עם פלט שדומה לזה:

Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$

כדי להפעיל את Hive וליצור מסד נתונים וטבלה, מריצים את הפקודות הבאות בסשן SSH:

מפעילים את מעטפת Spark.
```
spark-shell
```
יוצרים מסד נתונים בשם myDB.
```
spark.sql("create database myDB");
```
משתמשים במסד הנתונים שיצרתם.
```
spark.sql("use myDB");
```

יוצרים טבלה בשם myTable.

spark.sql("create table bar(id int,name string)");

מפרטים את הטבלאות בקטע myDatabase.
```
spark.sql("show tables").show();
```
הצגת השורות בטבלה שיצרתם.
```
desc myTable;
```

הפלט של הפקודות האלה אמור להיראות כך:

$spark-shell

scala>spark.sql("create database myDB");

scala>spark.sql("use myTable");

scala>spark.sql("create table myTable(id int,name string)");

scala>spark.sql("show tables").show();

+--------+---------+-----------+
|database|tableName|isTemporary|
+--------+---------+-----------+
|    myDB|  myTable|      false|
+--------+---------+-----------+
+--------+---------+-------+
|col_name|data_type|comment|
+--------+---------+-------+
|      id|      int|   null|
|    name|   string|   null|
+--------+---------+-------+

שימוש ב-Spark SQL עם Dataproc Metastore קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

לפני שמתחילים

חיבור ל-Spark SQL

המאמרים הבאים

שימוש ב-Spark SQL עם Dataproc Metastore