Sincronizza Dataproc Metastore con Data Catalog

Questo documento mostra come sincronizzare i metadati di Dataproc Metastore con Data Catalog.

Dopo aver sincronizzato questi due servizi, puoi utilizzare Data Catalog per gestire i metadati di Dataproc Metastore. Ad esempio, utilizzando Data Catalog puoi taggare e cercare risorse Dataproc Metastore specifiche, come database e tabelle.

Che cos'è Data Catalog

Data Catalog è un servizio di gestione dei metadati completamente gestito e scalabile. Fornisce una visualizzazione unificata e meccanismi di tagging per i metadati tecnici e aziendali.

Per ulteriori informazioni, consulta le seguenti guide alle funzionalità di Data Catalog:

Prima di iniziare

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per sincronizzare i metadati di Dataproc Metastore con Data Catalog, chiedi all'amministratore di concederti il ruolo IAM Visualizza voci di Dataproc Metastore sincronizzate in Data Catalog (roles/metastore.metadataViewer) nel tuo progetto, in base al principio del privilegio minimo. Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Questo ruolo predefinito contiene le autorizzazioni necessarie per sincronizzare i metadati di Dataproc Metastore con Data Catalog. Per visualizzare le autorizzazioni esatte richieste, espandi la sezione Autorizzazioni richieste:

Autorizzazioni obbligatorie

Per sincronizzare i metadati di Dataproc Metastore con Data Catalog sono necessarie le seguenti autorizzazioni:

  • Per ottenere i database Dataproc Metastore: metastore.databases.get
  • Per elencare i database Dataproc Metastore: metastore.databases.list
  • Per ottenere le tabelle Dataproc Metastore: metastore.tables.get
  • Per elencare le tabelle Dataproc Metastore: metastore.tables.list

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Per ulteriori informazioni su ruoli e autorizzazioni specifici di Dataproc Metastore, consulta Gestire l'accesso con IAM.

Come funzionano le autorizzazioni tra i servizi

Data Catalog rispetta le autorizzazioni a livello di Dataproc Metastore. Per i metadati sincronizzati da Dataproc Metastore a Data Catalog, le autorizzazioni IAM specificate in Dataproc Metastore si applicano anche ai metadati in Data Catalog.

Data Catalog controlla le autorizzazioni per ogni database e tabella del metastore al momento dell'accesso in modo che solo gli utenti con accesso al servizio Dataproc Metastore possano vedere le risorse del servizio sincronizzate come voci in Data Catalog.

Come funziona la sincronizzazione di Data Catalog con Dataproc Metastore

Puoi attivare la sincronizzazione di Dataproc Metastore con Data Catalog quando crei o aggiorni un servizio Dataproc Metastore utilizzando la console Google Cloud. Puoi disattivare la sincronizzazione nello stesso modo.

Dopo aver attivato la sincronizzazione di Data Catalog, i metadati di database e tabelle vengono sincronizzati automaticamente da Dataproc Metastore a Data Catalog.

Data Catalog sincronizza i seguenti metadati:

  • Istanze.
  • Database, inclusi nome e descrizione.
  • Tabelle, inclusi nome, descrizione e schema (colonne con descrizioni).

La seguente tabella mostra la mappatura delle risorse tra Dataproc Metastore e Data Catalog:

Risorsa Dataproc Metastore Risorsa Data Catalog
Istanza Gruppo di voci
Voce
Database Voce
Tabella Voce
Colonna Schema

Considerazioni

  • Possono essere necessarie fino a 6 ore prima che i metadati di Dataproc Metastore siano completamente sincronizzati con Data Catalog. Al termine della sincronizzazione iniziale, le modifiche incrementali vengono sincronizzate su richiesta (ad esempio gli aggiornamenti di tabelle o database). Se una sincronizzazione on demand non va a buon fine, viene inclusa in una nuova esecuzione collettiva che avviene ogni 6 ore.

  • Se sospetti che ci sia un problema con la sincronizzazione, controlla i log di pubblicazione dei metadati in Cloud Logging di Dataproc Metastore con il filtro textPayload=~".*Publish.*". Per ulteriori informazioni sull'accesso ai log, consulta Accedere ai log dei job in Logging.

  • Se disattivi la sincronizzazione di Data Catalog, la sincronizzazione dei metadati da Dataproc Metastore a Data Catalog viene interrotta. Tuttavia, i metadati già sincronizzati rimangono in Data Catalog.

  • Se elimini un'istanza Dataproc Metastore, vengono rimosse anche le voci corrispondenti di istanza, database e tabella da Data Catalog.

  • I metadati di Dataproc Metastore archiviati in Data Catalog rispettano i periodi di conservazione standard di Google Cloud.

  • Non sono previsti costi aggiuntivi per l'attivazione della sincronizzazione di Data Catalog per Dataproc Metastore.

Crea un servizio con la sincronizzazione di Data Catalog abilitata

La sincronizzazione di Data Catalog è disattivata per impostazione predefinita.

Per attivare la sincronizzazione di Data Catalog per un nuovo servizio, segui le seguenti istruzioni.

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore:

    Vai a Dataproc Metastore

  2. Nella parte superiore della pagina Dataproc Metastore, fai clic su Crea.

    Viene visualizzata la pagina Crea servizio.

  3. Seleziona la versione di Dataproc Metastore che vuoi utilizzare.

  4. In Integrazione dei metadati, fai clic su Sincronizzazione di Data Catalog.

  5. Per le restanti opzioni di configurazione del servizio, utilizza i valori predefiniti forniti. In alternativa, configura il servizio in base alle tue esigenze.

  6. Fai clic su Invia.

Attivare o disattivare la sincronizzazione di Data Catalog per un servizio esistente

Per attivare o disattivare la sincronizzazione di Data Catalog per un servizio esistente, segui le istruzioni riportate di seguito.

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore:

    Vai a Dataproc Metastore

  2. Nella pagina Dataproc Metastore, fai clic sul servizio da aggiornare.

    Viene visualizzata la pagina Dettagli del servizio per il servizio in questione.

  3. Nella scheda Configurazione, fai clic su Modifica.

    Viene visualizzata la pagina Modifica servizio.

  4. In Integrazione dei metadati, attiva o disattiva Sincronizzazione di Data Catalog.

  5. Fai clic su Invia.

Ricerca con Data Catalog

Puoi cercare i metadati di Dataproc Metastore sincronizzati utilizzando Data Catalog.

Sebbene non siano disponibili opzioni di ricerca personalizzate per Dataproc Metastore, esistono diversi modi per cercare diverse risorse di Dataproc Metastore, tra cui:

  • Individuare l'istanza Dataproc Metastore
    • Per nome visualizzato
    • Funzioni standard di Data Catalog, ad esempio utilizzando i tag.
  • Database
    • Per nome visualizzato
    • Per descrizione
    • Per istanza Dataproc Metastore
    • Funzioni standard di Data Catalog, ad esempio utilizzando i tag.
  • Tabella
    • Per nome visualizzato
    • Per descrizione
    • Per nome colonna
    • Per descrizione colonna
    • Per database
    • Per istanza Dataproc Metastore
    • Funzioni standard di Data Catalog, ad esempio utilizzando i tag.

Passaggi successivi