בדף הזה מוצגת דוגמה לשימוש ב-Spark SQL עם שירות Dataproc Metastore. בדוגמה הזו, מפעילים סשן של Spark SQL באשכול Dataproc ומריצים כמה פקודות לדוגמה כדי ליצור מסד נתונים וטבלה.
לפני שמתחילים
- יוצרים שירות Dataproc Metastore.
- מצרפים את שירות Dataproc Metastore לאשכול Dataproc.
חיבור ל-Spark SQL
כדי להתחיל להשתמש ב-Spark SQL, צריך להשתמש ב-SSH כדי להתחבר לאשכול Dataproc שמשויך לשירות Dataproc Metastore. אחרי שמתחברים לאשכול באמצעות SSH, אפשר להריץ פקודות Spark כדי לנהל את המטא-נתונים.
כדי להתחבר ל-Spark SQL
- נכנסים לדף VM Instances במסוף Google Cloud .
- ברשימת המכונות הווירטואליות, לוחצים על SSH בשורה של מכונת Dataproc שרוצים להתחבר אליה.
חלון דפדפן נפתח בספריית הבית של הצומת עם פלט שדומה לזה:
Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$
כדי להפעיל את Hive וליצור מסד נתונים וטבלה, מריצים את הפקודות הבאות בסשן SSH:
מפעילים את מעטפת Spark.
spark-shellיוצרים מסד נתונים בשם
myDB.spark.sql("create database myDB");משתמשים במסד הנתונים שיצרתם.
spark.sql("use myDB");יוצרים טבלה בשם
myTable.spark.sql("create table bar(id int,name string)");מפרטים את הטבלאות בקטע
myDatabase.spark.sql("show tables").show();הצגת השורות בטבלה שיצרתם.
desc myTable;
הפלט של הפקודות האלה אמור להיראות כך:
$spark-shell
scala>spark.sql("create database myDB");
scala>spark.sql("use myTable");
scala>spark.sql("create table myTable(id int,name string)");
scala>spark.sql("show tables").show();
+--------+---------+-----------+
|database|tableName|isTemporary|
+--------+---------+-----------+
| myDB| myTable| false|
+--------+---------+-----------+
+--------+---------+-------+
|col_name|data_type|comment|
+--------+---------+-------+
| id| int| null|
| name| string| null|
+--------+---------+-------+