Men-deploy layanan Metastore Dataproc
Halaman ini menunjukkan cara membuat layanan Dataproc Metastore dan terhubung ke layanan tersebut dari cluster Dataproc. Setelah itu, Anda akan menggunakan SSH ke dalam cluster, meluncurkan instance Apache Hive, dan menjalankan beberapa kueri dasar.
Dataproc Metastore menyediakan Hive Metastore (HMS) yang sepenuhnya kompatibel, yang merupakan standar yang ditetapkan dalam ekosistem big data open source untuk mengelola metadata teknis. Layanan ini membantu Anda mengelola metadata data lake dan menyediakan interoperabilitas di antara berbagai alat pemrosesan data yang Anda gunakan.
Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc Metastore, Dataproc APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc Metastore, Dataproc APIs.
Peran yang Diperlukan
Untuk mendapatkan izin yang Anda perlukan guna membuat Dataproc Metastore dan cluster Dataproc, minta administrator untuk memberi Anda peran IAM berikut:
-
Untuk memberikan akses penuh ke semua resource Dataproc Metastore, termasuk menetapkan izin IAM:
(
roles/metastore.admin
) di akun pengguna atau akun layanan -
Untuk memberikan kontrol penuh atas resource Dataproc Metastore:
Dataproc Metastore Editor (
roles/metastore.editor
) di akun pengguna atau akun layanan -
Untuk membuat cluster Dataproc:
(
roles/dataproc.worker
) di akun layanan
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Peran bawaan ini berisi izin yang diperlukan untuk membuat Metastore Dataproc dan cluster Dataproc. Untuk melihat izin yang benar-benar diperlukan, luaskan bagian Izin yang diperlukan:
Izin yang diperlukan
Izin berikut diperlukan untuk membuat Dataproc Metastore dan cluster Dataproc:
-
Untuk membuat layanan Dataproc Metastore:
metastore.services.create
di akun pengguna atau akun layanan -
Untuk membuat cluster Dataproc:
Dataproc worker (
di akun layananroles/dataproc.worker
)
Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.
Untuk mengetahui informasi selengkapnya tentang peran dan izin Dataproc Metastore tertentu, lihat Ringkasan IAM Dataproc Metastore.Membuat layanan Metastore Dataproc
Petunjuk berikut menunjukkan cara membuat layanan Dataproc Metastore dasar menggunakan setelan default yang disediakan.
Konsol
Di konsol Google Cloud, buka halaman Dataproc Metastore.
Di menu navigasi, klik +Create.
Dialog Create Metastore service akan terbuka.
Pilih Dataproc Metastore 2.
Di kolom Nama layanan, masukkan
example-service
.Di kolom Data location, pilih
us-central1
.Untuk opsi konfigurasi layanan lainnya, gunakan default yang disediakan.
Untuk membuat dan memulai layanan, klik Kirim.
Layanan metastore baru Anda akan muncul di halaman Dataproc Metastore. Status akan menampilkan Membuat hingga layanan siap digunakan. Jika sudah siap, statusnya akan berubah menjadi Aktif. Penyediaan layanan mungkin memerlukan waktu beberapa menit.
Screenshot berikut menunjukkan contoh halaman Buat layanan menggunakan beberapa setelan default yang disediakan.
gcloud CLI
Untuk membuat layanan metastore menggunakan default yang disediakan, jalankan perintah gcloud metastore services create
berikut:
gcloud metastore services create example-service \ --location=us-central1 \ --instance-size=MEDIUM
Perintah ini membuat layanan bernama example-service
di region default (us-central1
) dan dengan ukuran instance default (MEDIUM
).
REST
Ikuti petunjuk API untuk membuat layanan menggunakan API Explorer.
Membuat cluster Dataproc dan terhubung ke Metastore Dataproc
Selanjutnya, Anda akan membuat cluster Dataproc dan terhubung ke metastore dari cluster. Setelah itu, cluster Anda akan menggunakan layanan metastore sebagai HMS. Cluster yang Anda buat di sini menggunakan setelan default yang disediakan.
Konsol
Di konsol Google Cloud, buka halaman Dataproc Clusters.
Di menu navigasi, pilih +Create cluster.
Dialog Create a cluster akan terbuka dan menyediakan beberapa pilihan infrastruktur yang dapat Anda pilih.
Di baris Cluster on Compute Engine, pilih Create.
Halaman Create a Dataproc cluster on Compute Engine akan terbuka.
Di kolom Cluster Name, masukkan
example-cluster
.Di menu Region dan Zone, pilih
us-central1
.Untuk opsi Siapkan cluster lainnya, gunakan setelan default yang disediakan.
Di menu navigasi, klik tab Customize cluster (optional).
Di bagian Dataproc Metastore, pilih layanan metastore yang Anda buat sebelumnya.
Jika Anda mengikuti tutorial ini apa adanya, nama filenya adalah
example-service
.Untuk opsi konfigurasi layanan lainnya, gunakan setelan default yang disediakan.
Untuk membuat cluster, klik Create.
Cluster baru akan muncul dalam daftar Clusters. Status cluster akan menampilkan Provisioning hingga cluster siap digunakan. Jika sudah siap, statusnya akan berubah menjadi Aktif. Penyediaan cluster mungkin memerlukan waktu beberapa menit.
gcloud CLI
Untuk membuat cluster menggunakan setelan default yang disediakan, jalankan perintah gcloud dataproc clusters create
berikut:
gcloud dataproc clusters create example-cluster \ --dataproc-metastore=projects/PROJECT_ID/locations/us-central1/services/example-service \ --region=us-central1
Ganti PROJECT_ID
dengan project ID project tempat Anda membuat layanan Dataproc Metastore.
REST
Ikuti petunjuk API untuk membuat cluster menggunakan API Explorer.
Menghubungkan ke Apache Hive dengan cluster Dataproc
Langkah berikutnya ini menunjukkan cara menjalankan beberapa contoh perintah di Apache Hive untuk membuat database dan tabel.
Selanjutnya, buka sesi SSH di cluster Dataproc dan luncurkan sesi Hive.
- Di konsol Google Cloud, buka halaman VM Instances.
- Dalam daftar instance virtual machine, klik SSH di samping
example-cluster
.
Jendela browser akan terbuka di direktori beranda Anda di node dengan output yang mirip dengan berikut ini:
Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$
Untuk memulai Hive dan membuat database serta tabel, jalankan perintah berikut dalam sesi SSH:
Mulai Hive.
hive
Buat database dengan nama
myDatabase
.create database myDatabase;
Tampilkan database yang Anda buat.
show databases;
Gunakan database yang Anda buat.
use myDatabase;
Buat tabel bernama
myTable
.create table myTable(id int,name string);
Cantumkan tabel di bagian
myDatabase
.show tables;
Jelaskan skema tabel yang Anda buat.
desc MyTable;
Menjalankan perintah ini akan menampilkan output yang mirip dengan berikut ini:
$hive
hive> show databases;
OK
default
hive> create database myDatabase;
OK
hive> use myDatabase;
OK
hive> create table myTable(id int,name string);
OK
hive> show tables;
OK
myTable
hive> desc myTable;
OK
id int
name string
Pembersihan
Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
- In the Google Cloud console, go to the Manage resources page.
- If the project that you plan to delete is attached to an organization, expand the Organization list in the Name column.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Atau, Anda dapat menghapus resource yang digunakan dalam tutorial ini:
Hapus layanan Dataproc Metastore.
Konsol
Di konsol Google Cloud, buka halaman Dataproc Metastore:
Dalam daftar layanan, pilih
example-service
.Di menu navigasi, klik Hapus.
Dialog Delete service akan terbuka.
Pada dialog, klik Hapus
Layanan Anda tidak lagi muncul di Daftar layanan.
gcloud CLI
Untuk menghapus layanan, jalankan perintah
gcloud metastore services delete
berikut.gcloud metastore services delete example-service \ --location=us-central1
REST
Ikuti petunjuk API untuk menghapus layanan menggunakan API Explorer.
Semua penghapusan akan langsung berhasil.
Hapus bucket Cloud Storage untuk layanan Dataproc Metastore.
Hapus cluster Dataproc yang menggunakan layanan Dataproc Metastore.