Menyinkronkan Metastore Dataproc ke Data Catalog

Dokumen ini menunjukkan cara menyinkronkan metadata Dataproc Metastore dengan Data Catalog.

Setelah menyinkronkan kedua layanan ini, Anda dapat menggunakan Data Catalog untuk mengelola metadata Dataproc Metastore. Misalnya, dengan menggunakan Data Catalog, Anda dapat memberi tag dan menelusuri resource Dataproc Metastore tertentu, seperti database dan tabel.

Apa yang dimaksud dengan Data Catalog

Data Catalog adalah layanan pengelolaan metadata yang skalabel dan terkelola sepenuhnya. Data Catalog menyediakan mekanisme pemberian tag dan tampilan terpadu untuk metadata teknis dan bisnis.

Untuk informasi selengkapnya, lihat panduan fitur Data Catalog berikut:

Sebelum memulai

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan guna menyinkronkan metadata Dataproc Metastore dengan Data Catalog, minta administrator untuk memberi Anda peran IAM Lihat entri Dataproc Metastore yang disinkronkan di Data Catalog (roles/metastore.metadataViewer) di project Anda, berdasarkan prinsip hak istimewa minimum. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk menyinkronkan metadata Dataproc Metastore dengan Data Catalog. Untuk melihat izin yang benar-benar diperlukan, luaskan bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk menyinkronkan metadata Dataproc Metastore dengan Data Catalog:

  • Untuk mendapatkan database Dataproc Metastore: metastore.databases.get
  • Untuk membuat daftar database Metastore Dataproc: metastore.databases.list
  • Untuk mendapatkan tabel Dataproc Metastore: metastore.tables.get
  • Untuk mencantumkan tabel Dataproc Metastore: metastore.tables.list

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Untuk mengetahui informasi selengkapnya tentang peran dan izin Dataproc Metastore tertentu, lihat Mengelola akses dengan IAM.

Cara kerja izin antarlayanan

Data Catalog mematuhi izin tingkat Dataproc Metastore. Untuk metadata yang disinkronkan dari Dataproc Metastore ke Data Catalog, izin IAM yang ditentukan di Dataproc Metastore juga berlaku untuk metadata di Data Catalog.

Data Catalog memeriksa izin untuk setiap database dan tabel metastore pada saat akses sehingga hanya pengguna yang memiliki akses ke layanan Dataproc Metastore yang dapat melihat resource layanan yang disinkronkan sebagai entri di Data Catalog.

Cara kerja sinkronisasi Data Catalog dengan Dataproc Metastore

Anda dapat mengaktifkan sinkronisasi Dataproc Metastore ke Data Catalog saat membuat atau memperbarui layanan Dataproc Metastore menggunakan konsol Google Cloud. Anda dapat menonaktifkan sinkronisasi dengan cara yang sama.

Setelah mengaktifkan sinkronisasi Data Catalog, metadata database dan tabel akan otomatis disinkronkan dari Dataproc Metastore ke Data Catalog.

Data Catalog menyinkronkan metadata berikut:

  • Instance.
  • Database, termasuk nama dan deskripsi.
  • Tabel, termasuk nama, deskripsi, dan skema (kolom dengan deskripsi).

Tabel berikut menunjukkan pemetaan resource antara Dataproc Metastore dan Data Catalog:

Resource Dataproc Metastore Referensi Data Catalog
Instance Grup entri
Entri
Database Entri
Tabel Entri
Kolom Skema

Pertimbangan

  • Perlu waktu hingga 6 jam sebelum metadata Dataproc Metastore Anda disinkronkan sepenuhnya dengan Data Catalog. Setelah sinkronisasi awal selesai, perubahan inkremental akan disinkronkan sesuai permintaan (seperti pembaruan tabel atau database). Jika sinkronisasi on demand gagal, sinkronisasi akan disertakan dalam rerun batch yang terjadi setiap 6 jam.

  • Jika Anda mencurigai adanya masalah pada sinkronisasi, periksa log publikasi metadata di Cloud Logging Dataproc Metastore dengan filter textPayload=~".*Publish.*". Untuk mengetahui informasi selengkapnya tentang cara mengakses log, lihat Mengakses log tugas di Logging.

  • Jika Anda menonaktifkan sinkronisasi Data Catalog, metadata Anda akan berhenti disinkronkan dari Dataproc Metastore ke Data Catalog. Namun, metadata yang telah disinkronkan tetap ada di Data Catalog.

  • Jika Anda menghapus instance Dataproc Metastore, entri instance, database, dan tabel yang sesuai juga akan dihapus dari Katalog Data.

  • Metadata Dataproc Metastore yang disimpan di Data Catalog mengikuti periode retensi Google Cloud standar.

  • Tidak ada biaya tambahan untuk mengaktifkan sinkronisasi Katalog Data untuk Dataproc Metastore.

Membuat layanan dengan sinkronisasi Data Catalog diaktifkan

Sinkronisasi Data Catalog dinonaktifkan secara default.

Untuk mengaktifkan sinkronisasi Data Catalog untuk layanan baru, gunakan petunjuk berikut.

Konsol

  1. Di konsol Google Cloud, buka halaman Metastore Dataproc:

    Buka Dataproc Metastore

  2. Di bagian atas halaman Dataproc Metastore, klik Create.

    Halaman Buat layanan akan terbuka.

  3. Pilih versi Dataproc Metastore yang ingin Anda gunakan.

  4. Di bagian Metadata integration, klik Data Catalog sync.

  5. Untuk opsi konfigurasi layanan lainnya, gunakan setelan default yang disediakan. Atau Konfigurasi layanan Anda sesuai kebutuhan.

  6. Klik Kirim.

Mengaktifkan atau menonaktifkan sinkronisasi Data Catalog untuk layanan yang ada

Untuk mengaktifkan atau menonaktifkan sinkronisasi Katalog Data untuk layanan yang ada, gunakan petunjuk berikut.

Konsol

  1. Di konsol Google Cloud, buka halaman Metastore Dataproc:

    Buka Dataproc Metastore

  2. Di halaman Dataproc Metastore, klik layanan yang ingin Anda perbarui.

    Halaman Detail layanan untuk layanan tersebut akan terbuka.

  3. Di tab Configuration, klik Edit.

    Halaman Edit layanan akan terbuka.

  4. Di bagian Integrasi metadata, aktifkan atau nonaktifkan Sinkronisasi Data Catalog.

  5. Klik Kirim.

Menelusuri dengan Data Catalog

Anda dapat menelusuri metadata Dataproc Metastore yang disinkronkan menggunakan Data Catalog.

Meskipun tidak ada opsi penelusuran kustom untuk Dataproc Metastore, ada beberapa cara untuk menelusuri berbagai resource Dataproc Metastore, termasuk yang berikut:

  • Instance Dataproc Metastore
    • Menurut nama tampilan
    • Fungsi Data Catalog standar — misalnya, dengan menggunakan tag.
  • Database
    • Menurut nama tampilan
    • Berdasarkan deskripsi
    • Menurut instance Metastore Dataproc
    • Fungsi Data Catalog standar — misalnya, dengan menggunakan tag.
  • Tabel
    • Menurut nama tampilan
    • Berdasarkan deskripsi
    • Menurut nama kolom
    • Menurut deskripsi kolom
    • Menurut database
    • Menurut instance Metastore Dataproc
    • Fungsi Data Catalog standar — misalnya, dengan menggunakan tag.

Langkah selanjutnya