Men-deploy layanan Metastore Dataproc

Halaman ini menunjukkan cara membuat layanan Dataproc Metastore dan terhubung ke layanan tersebut dari cluster Dataproc. Setelah itu, Anda akan menggunakan SSH ke dalam cluster, meluncurkan instance Apache Hive, dan menjalankan beberapa kueri dasar.

Dataproc Metastore menyediakan Hive Metastore (HMS) yang sepenuhnya kompatibel, yang merupakan standar yang ditetapkan dalam ekosistem big data open source untuk mengelola metadata teknis. Layanan ini membantu Anda mengelola metadata data lake dan menyediakan interoperabilitas di antara berbagai alat pemrosesan data yang Anda gunakan.


Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:

Pandu saya


Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc Metastore, Dataproc APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc Metastore, Dataproc APIs.

    Enable the APIs

Peran yang Diperlukan

Untuk mendapatkan izin yang Anda perlukan guna membuat Dataproc Metastore dan cluster Dataproc, minta administrator untuk memberi Anda peran IAM berikut:

  • Untuk memberikan akses penuh ke semua resource Dataproc Metastore, termasuk menetapkan izin IAM: (roles/metastore.admin) di akun pengguna atau akun layanan
  • Untuk memberikan kontrol penuh atas resource Dataproc Metastore: Dataproc Metastore Editor (roles/metastore.editor) di akun pengguna atau akun layanan
  • Untuk membuat cluster Dataproc: (roles/dataproc.worker) di akun layanan

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk membuat Metastore Dataproc dan cluster Dataproc. Untuk melihat izin yang benar-benar diperlukan, luaskan bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk membuat Dataproc Metastore dan cluster Dataproc:

  • Untuk membuat layanan Dataproc Metastore: metastore.services.create di akun pengguna atau akun layanan
  • Untuk membuat cluster Dataproc: Dataproc worker (roles/dataproc.worker) di akun layanan

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Untuk mengetahui informasi selengkapnya tentang peran dan izin Dataproc Metastore tertentu, lihat Ringkasan IAM Dataproc Metastore.

Membuat layanan Metastore Dataproc

Petunjuk berikut menunjukkan cara membuat layanan Dataproc Metastore dasar menggunakan setelan default yang disediakan.

Konsol

  1. Di konsol Google Cloud, buka halaman Dataproc Metastore.

    Buka Dataproc Metastore

  2. Di menu navigasi, klik +Create.

    Dialog Create Metastore service akan terbuka.

  3. Pilih Dataproc Metastore 2.

  4. Di kolom Nama layanan, masukkan example-service.

  5. Di kolom Data location, pilih us-central1.

  6. Untuk opsi konfigurasi layanan lainnya, gunakan default yang disediakan.

  7. Untuk membuat dan memulai layanan, klik Kirim.

Layanan metastore baru Anda akan muncul di halaman Dataproc Metastore. Status akan menampilkan Membuat hingga layanan siap digunakan. Jika sudah siap, statusnya akan berubah menjadi Aktif. Penyediaan layanan mungkin memerlukan waktu beberapa menit.

Screenshot berikut menunjukkan contoh halaman Buat layanan menggunakan beberapa setelan default yang disediakan.

Halaman Buat layanan.

gcloud CLI

Untuk membuat layanan metastore menggunakan default yang disediakan, jalankan perintah gcloud metastore services create berikut:

 gcloud metastore services create example-service \
     --location=us-central1 \
     --instance-size=MEDIUM

Perintah ini membuat layanan bernama example-service di region default (us-central1) dan dengan ukuran instance default (MEDIUM).

REST

Ikuti petunjuk API untuk membuat layanan menggunakan API Explorer.

Membuat cluster Dataproc dan terhubung ke Metastore Dataproc

Selanjutnya, Anda akan membuat cluster Dataproc dan terhubung ke metastore dari cluster. Setelah itu, cluster Anda akan menggunakan layanan metastore sebagai HMS. Cluster yang Anda buat di sini menggunakan setelan default yang disediakan.

Konsol

  1. Di konsol Google Cloud, buka halaman Dataproc Clusters.

    Buka Cluster Dataproc

  2. Di menu navigasi, pilih +Create cluster.

    Dialog Create a cluster akan terbuka dan menyediakan beberapa pilihan infrastruktur yang dapat Anda pilih.

  3. Di baris Cluster on Compute Engine, pilih Create.

    Halaman Create a Dataproc cluster on Compute Engine akan terbuka.

  4. Di kolom Cluster Name, masukkan example-cluster.

  5. Di menu Region dan Zone, pilih us-central1.

  6. Untuk opsi Siapkan cluster lainnya, gunakan setelan default yang disediakan.

  7. Di menu navigasi, klik tab Customize cluster (optional).

  8. Di bagian Dataproc Metastore, pilih layanan metastore yang Anda buat sebelumnya.

    Jika Anda mengikuti tutorial ini apa adanya, nama filenya adalah example-service.

  9. Untuk opsi konfigurasi layanan lainnya, gunakan setelan default yang disediakan.

  10. Untuk membuat cluster, klik Create.

    Cluster baru akan muncul dalam daftar Clusters. Status cluster akan menampilkan Provisioning hingga cluster siap digunakan. Jika sudah siap, statusnya akan berubah menjadi Aktif. Penyediaan cluster mungkin memerlukan waktu beberapa menit.

gcloud CLI

Untuk membuat cluster menggunakan setelan default yang disediakan, jalankan perintah gcloud dataproc clusters create berikut:

 gcloud dataproc clusters create example-cluster \
    --dataproc-metastore=projects/PROJECT_ID/locations/us-central1/services/example-service \
    --region=us-central1

Ganti PROJECT_ID dengan project ID project tempat Anda membuat layanan Dataproc Metastore.

REST

Ikuti petunjuk API untuk membuat cluster menggunakan API Explorer.

Menghubungkan ke Apache Hive dengan cluster Dataproc

Langkah berikutnya ini menunjukkan cara menjalankan beberapa contoh perintah di Apache Hive untuk membuat database dan tabel.

Selanjutnya, buka sesi SSH di cluster Dataproc dan luncurkan sesi Hive.

  1. Di konsol Google Cloud, buka halaman VM Instances.
  2. Dalam daftar instance virtual machine, klik SSH di samping example-cluster.

Jendela browser akan terbuka di direktori beranda Anda di node dengan output yang mirip dengan berikut ini:

Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$

Untuk memulai Hive dan membuat database serta tabel, jalankan perintah berikut dalam sesi SSH:

  1. Mulai Hive.

    hive
    
  2. Buat database dengan nama myDatabase.

    create database myDatabase;
    
  3. Tampilkan database yang Anda buat.

    show databases;
    
  4. Gunakan database yang Anda buat.

    use myDatabase;
    
  5. Buat tabel bernama myTable.

    create table myTable(id int,name string);
    
  6. Cantumkan tabel di bagian myDatabase.

    show tables;
    
  7. Jelaskan skema tabel yang Anda buat.

    desc MyTable;
    

Menjalankan perintah ini akan menampilkan output yang mirip dengan berikut ini:

$hive

hive> show databases;
OK
default
hive> create database myDatabase;
OK
hive> use myDatabase;
OK
hive> create table myTable(id int,name string);
OK
hive> show tables;
OK
myTable
hive> desc myTable;
OK
id                      int
name                    string

Pembersihan

Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. If the project that you plan to delete is attached to an organization, expand the Organization list in the Name column.
  3. In the project list, select the project that you want to delete, and then click Delete.
  4. In the dialog, type the project ID, and then click Shut down to delete the project.

Atau, Anda dapat menghapus resource yang digunakan dalam tutorial ini:

  1. Hapus layanan Dataproc Metastore.

    Konsol

    1. Di konsol Google Cloud, buka halaman Dataproc Metastore:

      Buka Dataproc Metastore

    2. Dalam daftar layanan, pilih example-service.

    3. Di menu navigasi, klik Hapus.

      Dialog Delete service akan terbuka.

    4. Pada dialog, klik Hapus

      Layanan Anda tidak lagi muncul di Daftar layanan.

    gcloud CLI

    Untuk menghapus layanan, jalankan perintah gcloud metastore services delete berikut.

     gcloud metastore services delete example-service \
         --location=us-central1

    REST

    Ikuti petunjuk API untuk menghapus layanan menggunakan API Explorer.

    Semua penghapusan akan langsung berhasil.

  2. Hapus bucket Cloud Storage untuk layanan Dataproc Metastore.

  3. Hapus cluster Dataproc yang menggunakan layanan Dataproc Metastore.

Langkah selanjutnya