Ce document explique comment synchroniser les métadonnées Dataproc Metastore avec Data Catalog.
Une fois ces deux services synchronisés, vous pouvez utiliser Data Catalog pour gérer vos métadonnées Dataproc Metastore. Par exemple, avec Data Catalog, vous pouvez ajouter des tags à des ressources Dataproc Metastore spécifiques, telles que des bases de données et des tables, et les rechercher.
Qu'est-ce que Data Catalog ?
Data Catalog est un service de gestion des métadonnées entièrement géré et évolutif. Il fournit des mécanismes unifiés de visualisation et d'ajout de tags pour les métadonnées techniques et métier.
Pour plus d'informations, consultez les guides de fonctionnalités de Data Catalog suivantes:
Avant de commencer
Rôles requis
Pour obtenir les autorisations dont vous avez besoin pour synchroniser les métadonnées Dataproc Metastore avec Data Catalog, demandez à votre administrateur de vous accorder le rôle IAM Afficher les entrées Dataproc Metastore synchronisées dans Data Catalog (roles/metastore.metadataViewer
) sur votre projet, conformément au principe du moindre privilège.
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Ce rôle prédéfini contient les autorisations requises pour synchroniser les métadonnées Dataproc Metastore avec Data Catalog. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :
Autorisations requises
Les autorisations suivantes sont requises pour synchroniser les métadonnées Dataproc Metastore avec Data Catalog:
-
Pour obtenir des bases de données Dataproc Metastore :
metastore.databases.get
-
Pour lister les bases de données Dataproc Metastore :
metastore.databases.list
-
Pour obtenir des tables Dataproc Metastore :
metastore.tables.get
-
Pour lister les tables Dataproc Metastore :
metastore.tables.list
Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.
Pour en savoir plus sur les rôles et les autorisations spécifiques du métastore Dataproc, consultez Gérer les accès avec IAM.Fonctionnement des autorisations entre les services
Data Catalog respecte les autorisations au niveau de Dataproc Metastore. Pour les métadonnées synchronisées depuis Dataproc Metastore vers Data Catalog, les autorisations IAM spécifiées dans Dataproc Metastore s'appliquent également aux métadonnées de Data Catalog.
Data Catalog vérifie les autorisations pour chaque base de données et table de métastore au moment de l'accès afin que seuls les utilisateurs ayant accès au service Dataproc Metastore puissent voir les ressources du service synchronisé en tant qu'entrées dans Data Catalog.
Fonctionnement de la synchronisation Data Catalog avec Dataproc Metastore
Vous pouvez activer la synchronisation Data Catalog pour Dataproc Metastore lorsque vous créez ou mettez à jour un service Dataproc Metastore à l'aide de Google Cloud Console. Vous pouvez désactiver la synchronisation de la même manière.
Une fois la synchronisation Data Catalog activée, les métadonnées de base de données et de table sont automatiquement synchronisées entre Dataproc Metastore et Data Catalog.
Data Catalog synchronise les métadonnées suivantes:
- Instances.
- Bases de données, y compris le nom et la description
- Tables, y compris le nom, la description et le schéma (colonnes avec descriptions)
Le tableau suivant présente le mappage des ressources entre Dataproc Metastore et Data Catalog:
Ressource Dataproc Metastore | Ressource Data Catalog |
---|---|
Instance | Groupe d'entrées Entrée |
Base de données | Entrée |
Table | Entrée |
Colonne | Schéma |
Remarques
La synchronisation complète des métadonnées Dataproc Metastore avec Data Catalog peut prendre jusqu'à six heures. Une fois la synchronisation initiale terminée, les modifications incrémentielles sont synchronisées à la demande (par exemple, les mises à jour de table ou de base de données). Si une synchronisation à la demande échoue, elle est incluse dans une nouvelle exécution de lot qui a lieu toutes les six heures.
Si vous pensez qu'il existe un problème avec la synchronisation, vérifiez les journaux de publication de métadonnées dans Cloud Logging pour Dataproc Metastore avec le filtre
textPayload=~".*Publish.*"
. Pour en savoir plus sur l'accès aux journaux, consultez la page Accéder aux journaux de tâches dans Logging.Si vous désactivez la synchronisation Data Catalog, vos métadonnées cessent de se synchroniser depuis Dataproc Metastore vers Data Catalog. Toutefois, les métadonnées déjà synchronisées restent dans Data Catalog.
Si vous supprimez une instance Dataproc Metastore, les entrées de table, instances et base de données correspondantes sont également supprimées de Data Catalog.
Les métadonnées Dataproc Metastore stockées dans Data Catalog respectent les durées de conservation standards de Google Cloud.
L'activation de la synchronisation Data Catalog pour Dataproc Metastore n'entraîne aucun coût supplémentaire.
Créer un service avec la synchronisation Data Catalog activée
La synchronisation avec Data Catalog est désactivée par défaut.
Pour activer la synchronisation Data Catalog pour un nouveau service, suivez les instructions ci-dessous.
Console
Dans la console Google Cloud, ouvrez la page "Dataproc Metastore" :
En haut de la page Dataproc Metastore, cliquez sur Créer.
La page Créer un service s'ouvre.
Sélectionnez la version de Dataproc Metastore que vous souhaitez utiliser.
Sous Intégration de métadonnées, cliquez sur Synchronisation Data Catalog.
Pour les autres options de configuration du service, utilisez les valeurs par défaut fournies. Vous pouvez également configurer votre service selon vos besoins.
Cliquez sur Envoyer.
Activer ou désactiver la synchronisation Data Catalog pour un service existant
Pour activer ou désactiver la synchronisation Data Catalog pour un service existant, suivez les instructions ci-dessous.
Console
Dans la console Google Cloud, ouvrez la page "Dataproc Metastore" :
Sur la page Dataproc Metastore, cliquez sur le service que vous souhaitez mettre à jour.
La page Informations sur le service s'ouvre pour ce service.
Dans l'onglet Configuration, cliquez sur Modifier.
La page Modifier le service s'ouvre.
Sous Intégration de métadonnées, activez ou désactivez la synchronisation Data Catalog.
Cliquez sur Envoyer.
Effectuer des recherches avec Data Catalog
Vous pouvez rechercher des métadonnées Dataproc Metastore synchronisées à l'aide de Data Catalog.
Bien qu'il n'existe pas d'options de recherche personnalisées pour Dataproc Metastore, il existe plusieurs façons de rechercher différentes ressources Dataproc Metastore, y compris les suivantes:
- Instance Dataproc Metastore
- Par nom à afficher
- Fonctions Data Catalog standards (par exemple, à l'aide de tags).
- Base de données
- Par nom à afficher
- Par description
- Par instance Dataproc Metastore
- Fonctions Data Catalog standards (par exemple, à l'aide de tags).
- Table
- Par nom à afficher
- Par description
- Par nom de colonne
- Par description de colonne
- Par base de données
- Par instance Dataproc Metastore
- Fonctions Data Catalog standards (par exemple, à l'aide de tags).