BigQuery の一般公開データセット

一般公開データセットは、BigQuery に保存され、Google Cloud 一般公開データセット プログラムを通じて一般提供されているデータセットです。この一般公開データセットは BigQuery でホストされ、ユーザーがアクセスして独自のアプリケーションに統合できます。Google では、これらのデータセットの保存費用を負担しており、プロジェクトを介してデータへの公開アクセスを提供しています。データで実行したクエリにのみ料金が発生します。毎月 1 TB まで無料です。クエリの料金の詳細をご覧ください。

レガシー SQL や GoogleSQL クエリを使用して分析できる一般公開データセットが用意されています。一般公開データセットをクエリする場合は、bigquery-public-data.bbc_news.fulltext などの完全修飾テーブル名を使用します。セキュリティ境界などで組織がデータアクセスを制限している場合は、一般公開データセットへのアクセス権限について管理者に連絡する必要が生じることがあります。

BigQuery には、Google Cloud コンソールまたはbq コマンドライン ツールからアクセスするか、Java.NETPython などのさまざまなクライアント ライブラリを使用して BigQuery REST API を呼び出すことでアクセスできます。データ ライブラリの検出とアクセスに役立つデータ エクスチェンジ プラットフォームである Analytics Hub を介して、一般公開データセットを表示してクエリを実行することもできます。

デフォルトでは、VPC Service Controls 境界内から一般公開データセットにアクセスすることはできません。一般公開データセット プログラムのサービスレベル契約(SLA)はありません。

Analytics Hub に移動

各個別のデータセットの詳細については、Cloud Marketplace の [データセット] セクションで、データセットの名前をクリックしてください。

Cloud Marketplace のデータセットに移動

始める前に

BigQuery の一般公開データセットを使用する前に、プロジェクトを作成または選択する必要があります。毎月、最初の 1 TB のデータの処理については課金されないため、課金を有効にせずに一般公開データセットのクエリを開始できます。無料枠を超える可能性がある場合は、課金を有効にする必要があります。

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. 新しいプロジェクトでは、BigQuery が自動的に有効になります。既存のプロジェクトで BigQuery を有効にするには:

    Enable the BigQuery API.

    Enable the API

一般公開データセットのロケーション

一般公開データセットは、USEU のような特定のロケーションに保存されています。現在、BigQuery のサンプル テーブルは US マルチリージョン ロケーションに保存されています。サンプル テーブルのクエリを実行する場合、コマンドラインで --location=US フラグを指定し、Google Cloud コンソールで処理を行うロケーションに US を選択するか、API を使用するときにジョブリソースjobReference セクションにある location プロパティを指定します。サンプル テーブルは米国内に格納されているため、サンプル テーブルのクエリ結果を別のリージョンにあるテーブルに書き込むことはできません。また、サンプル テーブルのテーブルを別のリージョンにあるテーブルと結合することもできません。

Google Cloud コンソールで一般公開データセットにアクセスする

一般公開データセットは、次の方法を使用して Google Cloud コンソールでアクセスできます。

データテーブルが最後に更新された時間を確認するには、テーブル情報の取得に記載されたテーブルの [詳細] セクションに移動し、[最終更新日] フィールドを表示します。プロジェクトの選択と削除の詳細については、プロジェクトを操作するをご覧ください。

その他の一般公開データセット

照会が可能な一般公開データセットは、他にも数多くあり、一部は Google でもホストされますが、多くはサードパーティでホストされます。その他のデータセットの例:

データセットを一般公開して共有する

データセットのアクセス制御を変更し、アクセス許可を「認証されたすべてのユーザー」にすることで、いずれのデータセットも一般公開データセットと共有できます。データセットのアクセス制御の設定の詳細については、データセットへのアクセスの制御を参照してください。

データセットを一般公開して共有する場合:

  • 一般公開データセットを含むプロジェクトに関連付けられた請求先アカウント単位でストレージの料金が発生します。
  • クエリジョブが実行されているプロジェクトに関連付けられた請求先アカウント単位でクエリ料金が発生します。

詳細については、BigQuery の料金の概要をご覧ください。

サンプル テーブル

BigQuery には、一般公開データセットのほかにも、クエリを実行できるサンプル テーブルがあります。これらのテーブルは、bigquery-public-data:samples データセットに含まれています。

BigQuery サンプル テーブルのクエリ要件は、一般公開データセットにクエリを実行する場合と同じです。

bigquery-public-data:samples データセットには、次のテーブルが含まれています。

名前 説明
gsod NOAA が収集した 1929 年後期から 2010 年初期の気象情報(降水量や風速など)が含まれています。
github_nested ネストされたスキーマを使用した GitHub リポジトリ上のアクション(pull リクエストやコメントなど)のタイムラインが含まれています。2012 年 9 月に作成されました。
github_timeline フラット スキーマを使用した GitHub リポジトリ上のアクション(pull リクエストやコメントなど)のタイムラインが含まれています。2012 年 5 月に作成されました。
natality 米国の出生データは、1969~2008 年に全米 50 州、コロンビア特別区、ニューヨーク市で登録された、米国のすべての出生数を表しています。
shakespeare シェイクスピア作品の単語の索引が含まれていて、それぞれのコーパスで各単語が出現する回数を示しています。
trigrams 1520~2008 年に発行された作品から抽出した英語のトリグラムが含まれています。
wikipedia 2010 年 4 月までの Wikipedia の全記事に関する完全な改訂履歴が含まれています。

お問い合わせ

BigQuery の一般公開データセット プログラムについてご不明な点がありましたら、[email protected] までお問い合わせください。

次のステップ

Google Cloud コンソールを使用したクイックスタートで、一般公開データセット内のテーブルにクエリを実行する方法を学習する。