Cette page décrit les applications et les data stores Vertex AI Search. Pour en savoir plus sur les data stores des agents Vertex AI, consultez la section Data stores des agents Vertex AI.
Avec Vertex AI Search, vous créez une application de recherche ou de recommandations et la connectez à un data store. Un projet Google Cloud peut contenir plusieurs applications.
Relation entre les applications et les datastores
La relation entre les applications et les data stores dépend du type d'application:
Les applications de recherche génériques ont une relation de plusieurs à plusieurs avec les data stores. Lorsque plusieurs data stores sont connectés à une seule application de recherche générique, on parle de recherche combinée. Pour en savoir plus sur les limites liées à la connexion d'une application de recherche à plusieurs data store, consultez la section À propos de la recherche combinée.
Une application de recommandations génériques est associée à son datastore de manière individuelle.
Une application multimédia entretient une relation de plusieurs à un avec son data store. Une application ne peut se connecter qu'à un seul data store, tandis qu'un data store donné peut être connecté à plusieurs applications. Par exemple, une application de recherche de contenus multimédias et une application de recommandations de contenus multimédias peuvent partager un data store.
Une application de recherche de services de santé a une relation de plusieurs à un avec son data store. Une application ne peut se connecter qu'à un seul data store, tandis qu'un data store donné peut être connecté à plusieurs applications. Par exemple, une application destinée aux patients et une application destinée aux fournisseurs peuvent se connecter au même data store.
Pour une importation de données groupée de données de santé, les données sont importées dans un datastore situé dans une application. Pour une importation de données en streaming (Preview) de données de santé, les données sont importées dans une entité, qui est un type de datastore situé dans un connecteur de données. Un connecteur de données est également un type de data store situé dans une application.
Une fois qu'un data store est connecté à une application, vous ne pouvez plus le dissocier.
Méthode de création d'applications et d'ingestion de données
La manière dont vous créez une application et ingérez des données dépend du type de données dont vous disposez:
Pour les données de site Web, vous devez utiliser la console Google Cloud, et non l'API, pour créer votre application et ingérer les données.
Pour les données structurées ou non structurées, vous pouvez utiliser la console Google Cloud ou l'API.
Pour les données de santé, vous pouvez utiliser la console Google Cloud ou l'API.
Documents
Chaque data store contient un ou plusieurs enregistrements de données, appelés documents. Ce qu'un document représente varie en fonction du type de données dans le data store:
Site Web Un document est une page Web.
Données structurées Un document est une ligne dans un tableau ou un enregistrement JSON qui suit un schéma particulier. Vous pouvez fournir ce schéma vous-même ou laisser Vertex AI Agent Builder le déduire des données ingérées.
Données structurées pour les contenus multimédias Un document est une ligne dans un tableau ou un enregistrement JSON qui suit un schéma spécifique aux contenus multimédias. Les documents sont des enregistrements concernant des contenus multimédias, tels que des vidéos, des articles d'actualité, des fichiers musicaux et des podcasts. Un document contient des informations qui décrivent le contenu multimédia, au minimum: le titre, l'URI de l'emplacement du contenu, les catégories, la durée et la date de disponibilité.
Données structurées pour les sources de données tierces (version Preview avec liste d'autorisation) Un document est une entité spécifique à la source de données tierce, comme un problème Jira ou un espace Confluence.
Données non structurées Un document est un fichier au format HTML, PDF avec texte intégré ou TXT. Les formats PPTX et DOCX sont disponibles en version Preview.
Données FHIR de santé Un document est une ressource FHIR R4 compatible. Pour obtenir la liste des ressources FHIR R4 compatibles avec la recherche Vertex AI, consultez la documentation de référence sur le schéma de données FHIR R4 Healthcare.
Datastores et applications
Vertex AI Agent Builder propose différents types de data stores. Un data store ne peut contenir qu'un seul type de données.
- Données sur le site Web
- Données structurées
- Contenu structuré (multimédia)
- Contenu structuré pour les sources de données tierces
- Données non structurées
- Données FHIR de santé
Données de site Web
Un data store contenant des données de site Web utilise les données indexées à partir de sites Web publics. Vous pouvez fournir un ensemble de formats d'URL que vous souhaitez inclure dans votre data store. Les pages Web qui correspondent aux formats d'URL sont appelées pages Web incluses. Vous pouvez ensuite configurer une recherche ou des recommandations sur les données explorées à partir des pages Web incluses.
Par exemple, vous pouvez fournir des modèles d'URL tels que yourexamplewebsite.com/faq/*
et yourexamplewebsite.com/events/*
, et activer la recherche ou les recommandations sur les données explorées à partir de ces pages Web qui correspondent au modèle. Ces données incluent le texte, les images taguées avec des métadonnées et d'autres données structurées telles que les balises meta
, les attributs PageMap et les données schema.org.
Il existe deux types de magasins de données de site Web:
Recherche de base sur un site Web:
- Fournit des fonctionnalités de recherche sur l'index de recherche Google existant pour les sites Web inclus.
- Ne nécessite pas de validation de domaine.
Indexation avancée de site Web:
- Fournit des fonctionnalités de recherche avancée sur un indice généré en fonction de l'un des éléments suivants: l'index de recherche Google existant pour les sites Web inclus.
- Les propriétaires de l'application Vertex AI Search peuvent contrôler les pages Web qui sont indexées en envoyant des sitemaps et en les gérant. Pour en savoir plus, consultez la page Indexer et actualiser des pages Web à l'aide de sitemaps. Ce processus maintient l'index à jour sans intervention manuelle.
- Les propriétaires de l'application Vertex AI Search peuvent effectuer une indexation initiale qui reflète l'index de recherche Google, puis élargir la couverture de l'index en réexplorant les sites Web chaque fois que nécessaire, afin de le maintenir à jour. Pour en savoir plus, consultez Actualiser les pages Web. Les fonctionnalités avancées de l'indexation avancée de sites Web sont listées dans la section Indexation avancée de sites Web.
- Les propriétaires des data stores Vertex AI Search doivent valider les domaines auxquels appartiennent les sites Web inclus. Pour en savoir plus, consultez Valider les domaines de sites Web.
- Permet d'ajouter des données structurées au schéma du data store.
Un site Web contient des données non structurées, mais vous pouvez ajouter des données structurées sous la forme de balises
meta
, d'attributs PageMap et de données schema.org à vos pages Web. Vous pouvez ensuite utiliser ces données structurées pour modifier le schéma du data store, comme expliqué dans la section Utiliser des données structurées pour l'indexation avancée des sites Web.
- Fournit des fonctionnalités de recherche avancée sur un indice généré en fonction de l'un des éléments suivants: l'index de recherche Google existant pour les sites Web inclus.
Étape suivante
Pour la recherche sur le site Web:
- Pour connaître les conditions préalables à l'indexation, découvrez comment préparer les données pour la recherche sur le site Web.
- Créez un data store à l'aide du contenu de votre site Web.
- Créez une application de recherche.
Pour obtenir des recommandations:
- Créez un datastore de recommandations générique.
- Créez une application de recommandations générique.
Données structurées
Un data store avec des données structurées permet la recherche sémantique ou les recommandations sur les données structurées. Vous pouvez importer des données depuis BigQuery ou Cloud Storage. Vous pouvez également importer manuellement des données JSON structurées via l'API.
Par exemple, vous pouvez activer la recherche ou les recommandations dans un catalogue de produits pour votre expérience d'e-commerce ou dans un annuaire de médecins pour la recherche ou les recommandations de prestataires.
Vertex AI Agent Builder détecte automatiquement le schéma à partir des données que vous importez. Vous pouvez également fournir un schéma pour vos données. Fournir un schéma pour vos données améliore généralement la qualité des résultats.
Étape suivante
Pour la recherche générique:
- Préparer des données structurées pour l'ingestion
- Créez un data store de recherche à l'aide de l'une des méthodes suivantes :
- Créez une application de recherche.
Pour les recommandations génériques:
- Créez un datastore de recommandations générique.
- Créez une application de recommandations générique.
Données structurées pour les contenus multimédias
Les applications multimédias ne peuvent être associées qu'à des data stores de contenus multimédias. Les magasins de données multimédias sont des magasins de données structurées avec un schéma défini par Google ou avec votre propre schéma personnalisé contenant un ensemble spécifique de cinq champs liés aux médias. Pour en savoir plus sur le schéma, consultez la section À propos des documents multimédias et des magasins de données.
Par exemple, vous pouvez activer les recommandations en créant une application de recommandations de contenus multimédias pour un catalogue de films ou un site d'actualités afin de proposer à vos utilisateurs des suggestions adaptées et personnalisées.
En plus des documents multimédias, les data stores multimédias contiennent également les informations sur les événements utilisateur qui permettent à Vertex AI Search de personnaliser les recommandations et de rechercher vos utilisateurs. Les événements utilisateur sont obligatoires pour les applications de recommandations de contenus multimédias et sont recommandés pour les applications de recherche de contenus multimédias. Pour en savoir plus sur les événements utilisateur, consultez Enregistrer des événements utilisateur en temps réel.
Étape suivante
Données structurées pour les entrepôts de données tiers
Les connecteurs de sources de données tierces suivants sont disponibles en version Preview avec liste d'autorisation:
- Confluence
- Jira
- Salesforce
- SharePoint Online
- Slack
Les données de ces tiers sont considérées comme des données structurées.
Lorsque vous configurez un nouveau connecteur, vous sélectionnez une fréquence de synchronisation. Vous pouvez également sélectionner les entités à synchroniser. Les entités varient en fonction de la source, par exemple les problèmes pour Jira, et le contenu et les espaces pour Confluence. Un data store unique est créé pour chaque entité. Les datastores d'entités sont regroupés par instance de connecteur.
Étape suivante
Pour la recherche:
- Préparer les données tierces pour l'ingestion
- Connectez une source de données tierce.
- Créez une application de recherche.
Pour obtenir des recommandations:
- Créez un datastore de recommandations générique.
- Créez une application de recommandations générique.
Données non structurées
Un data store non structurées permet d'effectuer des recherches sémantiques ou des recommandations sur des données telles que des documents et des images.
Les entrepôts de données non structurées acceptent les documents au format HTML, PDF avec texte intégré et TXT. Les formats PPTX et DOCX sont disponibles en version Preview.
La recherche fournit des résultats sous la forme de 10 URL et de réponses résumées pour les requêtes en langage naturel. Les documents doivent être importés dans un bucket Cloud Storage avec les autorisations d'accès appropriées. Par exemple, une institution financière peut activer la recherche ou les recommandations sur son corpus privé de publications de recherche financière, ou une entreprise de biotechnologie peut activer la recherche ou les recommandations sur son dépôt privé de recherches médicales.
Étape suivante
Pour la recherche:
- Préparer les données non structurées pour l'ingestion
- Créez un data store de recherche à l'aide de l'une des méthodes suivantes :
- Créez un data store de recherche pour vos données non structurées.
- Créez une application de recherche.
Pour les recommandations génériques:
- Créez un datastore de recommandations générique.
- Créez une application de recommandations générique.
Données FHIR Healthcare
Une application de recherche de services de santé utilise des données FHIR R4 importées à partir d'un magasin FHIR de l'API Cloud Healthcare. Pour obtenir la liste des ressources FHIR R4 compatibles avec la recherche Vertex AI, consultez la documentation de référence sur le schéma de données FHIR R4 pour le secteur de la santé. Un data store FHIR R4 doit répondre à certaines exigences avant de pouvoir être utilisé comme source de données pour le data store Vertex AI Search. Pour en savoir plus, découvrez comment préparer les données FHIR de santé à l'ingestion.
Étape suivante
- Préparez les données FHIR R4 pour l'ingestion.
- Créez un datastore de recherche dans le secteur de la santé.
- Créez une application de recherche de services de santé.
À propos de la recherche combinée
Vous pouvez créer une application de recherche combinée, dans laquelle plusieurs data stores peuvent être connectés à une seule application de recherche générique. Cette fonctionnalité vous permet d'utiliser une seule application pour effectuer des recherches dans plusieurs sources et types de données.
Pour créer une application de recherche combinée, sélectionnez plusieurs data stores lorsque vous créez une application de recherche générique. Si vous ne sélectionnez pas plusieurs data stores lors de la création, vous ne pourrez pas en ajouter plus tard.
Lorsque vous obtenez des résultats de recherche, vous pouvez effectuer une recherche dans tous les datastores ou filtrer les résultats d'un seul data store.
Les limites suivantes s'appliquent :
- Ajouter et supprimer des magasins de données :
- Pour activer la recherche combinée pour une application, vous devez y associer au moins deux magasins de données lors de la création de l'application.
- Vous pouvez ajouter ou supprimer des data stores d'une application de recherche combinée, mais l'application ne peut pas avoir moins de deux data stores associés à tout moment.
- Si vous associez un seul data store à une application de recherche lors de sa création, vous ne pouvez pas ajouter ni supprimer ce data store.
- L'indexation avancée de site Web doit être activée pour les data stores de site Web afin qu'ils puissent être utilisés pour la recherche combinée. Pour en savoir plus, consultez la page Indexation avancée de site Web.
- Les entrepôts de données contenant des données non structurées importées à l'aide de BigQuery ne sont pas acceptés.
- La recherche combinée autorise les champs suivants dans les requêtes de recherche :
query
pageSize
offset
dataStoreSpecs
pageToken
filter
spellCorrectionSpec
session
contentSearchSpec
summarySpec
extractiveContentSpec
searchResultMode
chunkSpec
- En plus des champs listés précédemment, les champs suivants ne sont compatibles avec les applications de recherche combinée que lorsque les requêtes de recherche sont filtrées pour obtenir des résultats à partir d'un seul data store. Elles ne sont pas acceptées lorsque vous obtenez des résultats à partir de plusieurs data store :
facetSpec
- La recherche combinée autorise les champs suivants dans
dataStoreSpecs
:boostSpec
filter
: si des filtres sont spécifiés pourSearchRequest
etdataStoreSpecs
, les deux filtres sont appliqués aux résultats de recherche.
- Les opérations CRUD (création, lecture, mise à jour et suppression) sur les configurations de diffusion sont compatibles avec les applications combinées. Seuls les champs suivants peuvent être ajoutés ou mis à jour dans une configuration de diffusion :
name
displayName
solutionType
genericConfig
:contentSearchSpec
:summarySpec
extractiveContentSpec
searchResultMode
chunkSpec
boostControlIds
synonymsControlIds
onewaySynonymsControlIds
- Les opérations CRUD sur les commandes suivantes sont acceptées pour les applications de recherche combinée :
boostAction
synonymACtion
- Les applications de recherche combinée ne sont pas compatibles avec les fonctionnalités suivantes :
- Filtrage, redirection, ignorer, remplacement et dissociation des commandes de diffusion
- Extraits utilisant
contentSearchSpec.snippetSpec
dans les requêtes de recherche ou les configurations de diffusion - Recherche avec questions complémentaires