BigQuery 공개 데이터 세트

공개 데이터 세트는 BigQuery에 저장된 모든 데이터 세트이며 Google Cloud 공개 데이터 세트 프로그램을 통해 일반 대중에게 제공됩니다. 공개 데이터세트는 사용자가 액세스하고 애플리케이션에 통합할 수 있도록 BigQuery가 호스팅하는 데이터세트입니다. 이러한 데이터 세트의 저장 비용은 Google에서 부담하며 프로젝트를 통해 데이터에 대한 공개 액세스 권한을 부여합니다. 사용자에게는 데이터에 대한 쿼리 요금만 부과됩니다. 쿼리 가격 책정 세부정보에 따라 매월 1TB까지는 무료입니다.

공개 데이터 세트는 legacy SQL 또는 GoogleSQL 쿼리를 사용하여 분석할 수 있습니다. 공개 데이터 세트를 쿼리할 때는 정규화된 테이블 이름(예시: bigquery-public-data.bbc_news.fulltext)을 사용합니다. 조직에서 보안 경계와 같이 데이터 액세스를 제한하는 경우 공개 데이터 세트에 액세스할 권한을 얻으려면 관리자에게 문의해야 할 수 있습니다.

Google Cloud 콘솔을 사용하거나, bq 명령줄 도구를 사용하거나, Java, .NET, Python과 같은 다양한 클라이언트 라이브러리를 사용해 BigQuery REST API를 호출하여 BigQuery에 액세스할 수 있습니다. 또한 데이터 라이브러리를 탐색하고 액세스하는 데 도움이 되는 데이터 교환 플랫폼인 Analytics Hub를 통해 공개 데이터 세트를 보고 쿼리할 수 있습니다.

기본적으로 VPC 서비스 제어 경계 내에서는 공개 데이터 세트에 액세스할 수 없습니다. 공개 데이터 세트 프로그램에는 서비스수준계약(SLA)이 없습니다.

Analytics Hub로 이동

Cloud Marketplace의 데이터 세트 섹션에서 데이터 세트 이름을 클릭하면 개별 데이터 세트에 대한 세부정보를 볼 수 있습니다.

Cloud Marketplace에서 데이터 세트로 이동

시작하기 전에

BigQuery 공개 데이터 세트 사용을 시작하려면 프로젝트를 만들거나 선택해야 합니다. 매달 처리되는 데이터 중 최초 1TB는 무료이므로 결제를 사용 설정하지 않고 공개 데이터세트의 쿼리를 시작할 수 있습니다. 데이터 처리량이 무료 등급을 초과하면 결제 기능도 사용 설정해야 합니다.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. BigQuery는 새 프로젝트에서 자동으로 사용 설정됩니다. 기존 프로젝트에서 BigQuery를 활성화하려면 다음을 수행합니다.

    Enable the BigQuery API.

    Enable the API

공개 데이터세트 위치

각 공개 데이터 세트는 US 또는 EU와 같은 특정 위치에 저장됩니다. 현재 BigQuery 샘플 테이블은 US 멀티 리전 위치에 저장되어 있습니다. 샘플 테이블을 쿼리할 때는 명령줄에 --location=US 플래그를 입력하거나 Google Cloud 콘솔에서 처리 위치로 US를 선택하거나 API를 사용할 때 작업 리소스jobReference 섹션에서 location 속성을 지정합니다. 샘플 테이블이 미국에 저장되므로 샘플 테이블 쿼리 결과를 다른 리전의 테이블에 쓸 수 없으며 작업 샘플 테이블을 다른 리전의 테이블에 조인할 수도 없습니다.

Google Cloud 콘솔에서 공개 데이터 세트에 액세스

다음 방법을 통해 Google Cloud 콘솔에서 공개 데이터 세트에 액세스할 수 있습니다.

데이터 테이블이 마지막으로 업데이트된 날짜를 확인하려면 테이블 정보 가져오기에 설명된 대로 테이블의 세부정보 섹션으로 이동하고 최종 수정 시간 필드를 확인합니다. 프로젝트 선택 및 삭제에 관한 자세한 내용은 프로젝트 작업을 참조하세요.

기타 공개 데이터 세트

그 밖에도 쿼리할 수 있는 여러 공개 데이터세트가 있습니다. 그 중 일부는 Google에서 호스팅되지만 타사에서 호스팅되는 데이터세트가 더 많습니다. 기타 데이터 세트에는 다음이 포함됩니다.

데이터 세트 공개 공유

데이터세트의 액세스 제어를 '인증된 모든 사용자'가 액세스할 수 있도록 변경하여 모든 데이터세트를 공개적으로 공유할 수 있습니다. 데이터세트 액세스 제어 설정에 대한 자세한 내용은 데이터세트에 대한 액세스 제어를 참조하세요.

데이터세트를 공개적으로 공유하는 경우:

  • 공개적으로 공유된 데이터세트가 포함된 프로젝트에 연결된 결제 계정에 스토리지 요금이 발생합니다.
  • 쿼리 작업이 실행되는 프로젝트에 연결된 결제 계정에 쿼리 요금이 발생합니다.

자세한 내용은 BigQuery 가격 책정 개요를 참조하세요.

샘플 테이블

공개 데이터세트 외에 BigQuery는 사용자가 쿼리할 수 있는 제한된 수의 샘플 테이블을 제공합니다. 이러한 테이블은 bigquery-public-data:samples 데이터 세트에 포함되어 있습니다.

BigQuery 샘플 테이블 쿼리 요구 사항은 공개 데이터세트 쿼리 요구 사항과 동일합니다.

bigquery-public-data:samples 데이터세트에는 다음 테이블이 포함됩니다.

이름 설명
gsod 1929년 후반부터 2010년 초까지 NOAA에서 수집한 날씨 정보를 포함합니다(예: 강우량, 풍속).
github_nested 중첩된 스키마가 포함된 GitHub 저장소의 주석 및 가져오기 요청과 같은 작업의 타임라인을 포함합니다. 2012년 9월에 생성되었습니다.
github_timeline 평면 스키마가 포함된 GitHub 저장소의 주석 및 가져오기 요청과 같은 작업의 타임라인을 포함합니다. 2012년 5월에 생성되었습니다.
natality 1969년부터 2008년까지 50개 주, 워싱턴 DC, 뉴욕시에 등록된 모든 미국 출생을 설명합니다.
shakespeare 셰익스피어 작품의 단어 색인을 포함하고 있으며 각 전집에서 각 단어가 등장하는 횟수를 제공합니다.
trigrams 1520년부터 2008년까지 발행된 작품 견본의 영어 트리그램을 포함합니다.
wikipedia 2010년 4월까지 모든 위키백과 자료에 대한 전체 업데이트 기록을 포함합니다.

문의하기

BigQuery 공개 데이터 세트 프로그램에 대해 궁금한 점이 있으면 [email protected]에 문의하세요.

다음 단계

빠른 시작: Google Cloud 콘솔 사용에서 공개 데이터 세트의 테이블을 쿼리하는 방법 알아보기