Öffentliche BigQuery-Datasets
Ein öffentliches Dataset ist ein Dataset, das in BigQuery gespeichert ist und der Allgemeinheit über das Programm für öffentliche Datasets in Google Cloud zugänglich gemacht wird. Die öffentlichen Datasets werden für Sie von BigQuery gehostet, damit Sie auf sie zugreifen und sie in Ihre Anwendungen einbetten können. Google bezahlt die Speicherung dieser Datasets und bietet einen öffentlichen Zugriff auf die Daten über ein Projekt. Sie bezahlen nur für die Abfragen der Daten. Das erste TB pro Monat ist kostenlos. Weitere Informationen erhalten Sie unter Details der Abfragepreise.
Sie können öffentliche Datasets entweder mit Legacy-SQL- oder GoogleSQL-Abfragen analysieren. Verwenden Sie einen vollständig qualifizierten Tabellennamen für die Abfrage öffentlicher Datasets, z. B. bigquery-public-data.bbc_news.fulltext
. Wenn Ihre Organisation den Datenzugriff einschränkt, z. B. mit Sicherheitsperimetern, müssen Sie sich möglicherweise an Ihren Administrator wenden, um die Berechtigung für den Zugriff auf öffentliche Datasets zu erhalten.
Um auf öffentliche BigQuery-Datasets zuzugreifen, verwenden Sie die Google Cloud Console unter Verwendung des bq-Befehlszeilentools oder durch Aufrufen der BigQuery REST API mit verschiedenen Clientbibliotheken, wie z. B. Java, .NET oder Python. Sie können auch öffentliche Datasets über Analytics Hub aufrufen und abfragen, eine Datenaustauschplattform, mit der Sie Datenbibliotheken erkennen und aufrufen können.
Auf öffentliche Datasets kann innerhalb eines VPC Service Controls-Perimeters nicht standardmäßig zugegriffen werden. Es gibt kein Service Level Agreement (SLA) für das Programm für öffentliche Datasets.
Weitere Informationen zu jedem einzelnen Dataset erhalten Sie, wenn Sie im Abschnitt "Datasets" von Cloud Marketplace auf den Namen des Datasets klicken.
Zu den Datasets in Cloud Marketplace
Vorbereitung
Für den Einstieg in die Verwendung eines öffentlichen BigQuery-Datasets müssen Sie zuerst ein Projekt erstellen oder auswählen. Das erste pro Monat verarbeitete Terabyte Daten ist kostenlos, sodass Sie mit dem Abfragen von öffentlichen Datasets beginnen können, ohne die Abrechnung zu aktivieren. Wenn Sie jedoch beabsichtigen, das kostenlose Kontingent zu überschreiten, müssen Sie die Abrechnung aktivieren.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
- BigQuery ist in neuen Projekten automatisch aktiviert.
So aktivieren Sie BigQuery in einem vorhandenen Projekt:
Enable the BigQuery API.
Öffentliche Dataset-Standorte
Jedes öffentliche Dataset wird an einem bestimmten Standort wie US
oder EU
gespeichert. Derzeit werden BigQuery-Beispieltabellen am multiregionalen Standort US
gespeichert.
Wenn Sie eine Beispieltabelle abfragen, geben Sie das Flag --location=US
in der Befehlszeile an, wählen US
als Verarbeitungsstandort in der Google Cloud Console aus oder geben bei Verwendung der API das Attribut location
im jobReference
-Abschnitt der
Jobressource an. Da die Beispieltabellen in den USA gespeichert werden, können Sie Abfrageergebnisse für Beispieltabellen nicht in eine Tabelle in einer anderen Region schreiben und Beispieltabellen nicht mit Tabellen in einer anderen Region zusammenführen.
Auf öffentliche Datasets in der Google Cloud Console zugreifen
Sie haben folgende Möglichkeiten, auf öffentliche Datasets in der Google Cloud Console zuzugreifen:
Rufen Sie im Bereich Explorer das Projekt
bigquery-public-data
auf. Weitere Informationen finden Sie unter Öffentliches Dataset öffnen.Verwenden Sie Analytics Hub, um öffentliche Datasets aufzurufen und zu abonnieren.
Wenn Sie wissen möchten, wann eine Datentabelle zuletzt aktualisiert wurde, wechseln Sie zum Abschnitt Details der Tabelle, wie unter Tabelleninformationen abrufen beschrieben, und sehen Sie sich das Feld Zuletzt geändert an.
Weitere öffentliche Datasets
Es sind viele andere öffentliche Datasets vorhanden, die Sie abfragen können. Einige dieser Datasets werden auch von Google gehostet, viele andere jedoch von Drittanbietern. Zu den anderen Datasets gehören:
- Cloud Life Sciences – öffentliche Datasets
- NIH-Dataset von Röntgenaufnahmen des Brustkorbs
- Dataset von The Cancer Imaging Archive (TCIA)
- Dataset mit Versionshinweisen für die Mehrheit der allgemein verfügbaren Google Cloud-Produkte.
Dataset für die Öffentlichkeit freigeben
Sie können jedes Ihrer Datasets für die Öffentlichkeit freigeben. Ändern Sie dafür die Zugriffssteuerungen des Datasets, um den Zugriff durch "Alle authentifizierten Nutzer" zu erlauben. Weitere Informationen zur Einstellung der Zugriffssteuerungen von Datasets finden Sie unter Zugriff auf Datasets steuern.
Wenn Sie ein Dataset für die Öffentlichkeit freigeben, passiert Folgendes:
- Speichergebühren werden über das Rechnungskonto abgerechnet, das an das Projekt angehängt wurde, welches das öffentlich freigegebene Dataset enthält.
- Abfragegebühren werden über das Rechnungskonto abgerechnet, das an das Projekt angehängt wurde, in dem die Abfragejobs ausgeführt werden.
Weitere Informationen finden Sie unter BigQuery-Preisübersicht.
Beispieltabellen
Zusätzlich zu den öffentlichen Datasets stellt BigQuery eine begrenzte Anzahl von Beispieltabellen bereit, die Sie abfragen können. Diese Tabellen sind im Dataset bigquery-public-data:samples
enthalten.
Die Anforderungen für die Abfrage der BigQuery-Beispieltabellen sind mit denen für die Abfrage der öffentlichen Datasets identisch.
Das Dataset bigquery-public-data:samples
enthält die folgenden Tabellen:
Name | Beschreibung |
---|---|
gsod |
Enthält von der NOAA gesammelte Wetterdaten, wie z. B. Niederschlagsmengen und Windgeschwindigkeiten von Ende 1929 bis Anfang 2010. |
github_nested |
Enthält eine Zeitachse mit Aktionen, wie z. B. Pull-Anfragen und Kommentare, zu GitHub-Repositories mit einem verschachtelten Schema. Erstellt im September 2012. |
github_timeline |
Enthält eine Zeitachse mit Aktionen, wie z. B. Pull-Anforderungen und Kommentare, zu GitHub-Repositories mit einem flachen Schema. Erstellt im Mai 2012. |
natality |
Beschreibt alle Geburten in den USA, die in den 50 Bundesstaaten, im District of Columbia und in New York City zwischen 1969 und 2008 registriert wurden. |
shakespeare |
Enthält einen Wortindex der Werke von Shakespeare und gibt an, wie häufig jedes Wort in jedem Werk vorkommt. |
trigrams |
Enthält englischsprachige Trigramme aus einer Stichprobe von Werken, die zwischen 1520 und 2008 veröffentlicht wurden. |
wikipedia |
Enthält den vollständigen Überarbeitungsverlauf aller Wikipedia-Artikel bis April 2010. |
Kontakt
Bei Fragen zum BigQuery-Programm für öffentliche Datasets kontaktieren Sie uns unter [email protected]
.
Nächste Schritte
Unter Kurzanleitung zur Verwendung der Google Cloud Console wird beschrieben, wie Sie eine Tabelle in einem öffentlichen Dataset abfragen.