Conjuntos de datos públicos de BigQuery

Un conjunto de datos público es cualquier conjunto de datos que se almacena en BigQuery y que está disponible para el público en general a través del Programa de conjunto de datos públicos de Google Cloud. Se trata de conjuntos de datos que BigQuery aloja de modo que puedas acceder a ellos y, también, integrarlos en tus aplicaciones. Google cubre los costos de almacenamiento de estos conjuntos de datos y proporciona acceso público a los datos a través de un proyecto. Solo se paga por las consultas que realizas en los datos. El primer 1 TB mensual es gratuito, sujeto a los detalles de los precios de consultas.

Los conjuntos de datos públicos están disponibles para que los analices mediante consultas de SQL heredado o de GoogleSQL. Usa un nombre de tabla completamente calificado cuando se consulten conjuntos de datos públicos, por ejemplo bigquery-public-data.bbc_news.fulltext. Si tu organización restringe el acceso a los datos, por ejemplo, con perímetros de seguridad, es posible que debas comunicarte con tu administrador para obtener permiso a fin de acceder a los conjuntos de datos públicos.

Puedes acceder a los conjuntos de datos públicos de BigQuery en la consola de Google Cloud, con la herramienta de línea de comandos de bq o haciendo llamadas a la API de REST de BigQuery con varias bibliotecas cliente como Java, .NET o Python. También puedes ver y consultar los conjuntos de datos públicos a través de Analytics Hub, una plataforma de intercambio de datos que te ayuda a descubrir bibliotecas de datos y acceder a ellas.

De forma predeterminada, no se puede acceder a los conjuntos de datos públicos desde un perímetro de Controles del servicio de VPC. No hay un Acuerdo de Nivel de Servicio (ANS) para el Programa de conjuntos de datos públicos

Ir a Analytics Hub

Puedes encontrar más detalles sobre cada conjunto de datos individual si haces clic en el nombre del conjunto de datos en la sección Conjuntos de datos de Cloud Marketplace.

Ir a Conjuntos de datos en Cloud Marketplace

Antes de comenzar

Para comenzar con un conjunto de datos públicos de BigQuery, debes crear o seleccionar un proyecto. El primer terabyte de datos procesados por mes es gratuito para que puedas comenzar a consultar conjuntos de datos públicos sin habilitar la facturación. Si supones que superarás el nivel gratuito, también debes habilitar la facturación.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. BigQuery se habilita automáticamente en proyectos nuevos. Para activar BigQuery en un proyecto preexistente,

    Enable the BigQuery API.

    Enable the API

Ubicaciones de conjuntos de datos públicos

Cada conjunto de datos públicos se almacena en una ubicación específica como US o EU. En este momento, las tablas de muestra de BigQuery se almacenan en la ubicación de la multirregión US. Cuando consultes una tabla de muestra, ingresa la marca --location=US en la línea de comandos, elige US como la ubicación de procesamiento en la consola de Google Cloud o especifica la propiedad location en la sección jobReference del recurso de trabajo cuando uses la API. Debido a que las tablas de muestra se almacenan en EE.UU., no puedes escribir los resultados de la consulta de la tabla de muestra en una tabla en otra región y no puedes unir tablas de muestra con tablas en otra región.

Accede a conjuntos de datos públicos en la consola de Google Cloud

Puedes acceder a los conjuntos de datos públicos en la consola de Google Cloud a través de los siguientes métodos:

Para saber cuándo se actualizó por última vez una tabla de datos, ve a la sección Detalles de la tabla, como se describe en Obtén información de la tabla, y consulta el Campo Última modificación. Para obtener más información sobre cómo seleccionar y quitar proyectos, consulta Trabaja con proyectos.

Otros conjuntos de datos públicos

Existen muchos otros conjuntos de datos públicos disponibles que puedes consultar, algunos también alojados por Google, pero muchos otros alojados por terceros. Otros conjuntos de datos incluyen lo que se muestran a continuación:

Comparte un conjunto de datos con el público

Se puede compartir cualquiera de tus conjuntos de datos con el público si cambias los controles de acceso del conjunto de datos que permite el acceso de “Todos los usuarios autenticados”. Para obtener más información sobre cómo configurar los controles de acceso al conjunto de datos, consulta Controla el acceso a los conjuntos de datos.

Cuando compartes un conjunto de datos con el público, ocurre lo siguiente:

  • La cuenta de facturación adjunta al proyecto que contiene el conjunto de datos compartidos a nivel público aplica cargos de almacenamiento.
  • La cuenta de facturación adjunta al proyecto en el que se ejecutan los trabajos de consulta aplica cargos de consulta.

Para obtener más información, consulta Descripción general de los precios de BigQuery.

Tablas de muestra

Además de los conjuntos de datos públicos, BigQuery proporciona una cantidad limitada de tablas de muestra que puedes consultar. Estas tablas son parte del conjunto de datos bigquery-public-data:samples.

Los requisitos para consultar las tablas de muestra de BigQuery son los mismos que los requisitos a fin de consultar los conjuntos de datos públicos.

El conjunto de datos bigquery-public-data:samples incluye las tablas siguientes:

Nombre Descripción
gsod Contiene datos de información meteorológica recopilada por la NOAA, entre estos, las cantidades de precipitaciones y la velocidad del viento desde finales de 1929 hasta principios de 2010.
github_nested Contiene un cronograma de acciones, como solicitudes de extracción y comentarios en repositorios de GitHub con un esquema anidado. Creado en septiembre de 2012.
github_timeline Contiene un cronograma de acciones, como solicitudes de extracción y comentarios en repositorios de GitHub con un esquema plano. Se creó en mayo de 2012.
natality Describe todos los nacimientos en los Estados Unidos registrados en los 50 estados, el Distrito de Columbia y la ciudad de Nueva York desde 1969 hasta 2008.
shakespeare Contiene un índice de palabras de las obras de Shakespeare, que indica la cantidad de veces que aparece cada palabra en cada corpus.
trigrams Contiene trigramas en inglés de una muestra de trabajos publicados entre 1520 y 2008.
wikipedia Contiene el historial de revisiones completo de todos los artículos de Wikipedia hasta abril de 2010.

Comunícate con nosotros

Si tienes alguna pregunta sobre el Programa del conjunto de datos públicos de BigQuery, comunícate con nosotros al [email protected].

¿Qué sigue?

Obtén información para consultar una tabla en un conjunto de datos públicos en la Guía de inicio rápido con la consola de Google Cloud.