Solusi Praktis: Lakehouse analytics

Last reviewed 2023-11-20 UTC

Panduan ini membantu Anda memahami, men-deploy, dan menggunakan Solusi Praktis Lakehouse Analytics. Solusi ini menunjukkan cara menyatukan data lake dan data warehouse dengan membuat lakehouse analytics guna menyimpan, memproses, menganalisis, dan mengaktifkan data menggunakan data stack terpadu.

Kasus penggunaan umum untuk mem-build lakehouse analytics mencakup hal berikut:

  • Analisis skala besar data telemetri yang digabungkan dengan data pelaporan.
  • Menyatukan analisis data terstruktur dan tidak terstruktur.
  • Memberikan kemampuan analytics real time untuk data warehouse.

Dokumen ini ditujukan bagi developer yang memiliki latar belakang analisis data dan telah menggunakan database atau data lake untuk melakukan analisis. Anda dianggap sudah memahami konsep dasar cloud, meskipun belum tentu memahami Google Cloud. Anda akan terbantu jika Anda memiliki pengalaman dengan Terraform.

Tujuan

  • Mempelajari cara menyiapkan lakehouse analytics.
  • Mengamankan lakehouse analytics menggunakan lapisan tata kelola umum.
  • Membuat dasbor dari data untuk melakukan analisis data.
  • Membuat model machine learning untuk memprediksi nilai data dari waktu ke waktu.

Produk yang digunakan

Solusi ini menggunakan produk-produk Google Cloud berikut ini:

  • BigQuery: Data warehouse yang terkelola sepenuhnya dan sangat skalabel dengan kemampuan machine learning bawaan.
  • Dataproc: Layanan terkelola sepenuhnya untuk modernisasi data lake, ETL, dan data science yang aman, dalam skala besar.
  • Looker Studio: Platform business intelligence mandiri yang membantu Anda membuat dan membagikan insight data.
  • Dataplex: Menemukan, mengelola, memantau, dan mengatur data secara terpusat dalam skala besar.
  • Cloud Storage: Layanan siap digunakan perusahaan yang menyediakan penyimpanan objek berbiaya rendah dan tanpa batas untuk berbagai jenis data. Data dapat diakses dari dalam dan dari luar Google Cloud serta direplikasi secara geo-redundan.
  • BigLake: BigLake adalah mesin penyimpanan yang menyatukan data warehouse dan data lake dengan memungkinkan BigQuery serta framework open source seperti Spark untuk mengakses data dengan kontrol akses yang mendetail.

Produk Google Cloud berikut digunakan untuk melakukan tahapan data dalam solusi untuk penggunaan pertama:

  • Alur kerja: Platform orkestrasi terkelola sepenuhnya yang mengeksekusi layanan dalam urutan yang ditentukan sebagai alur kerja. Alur kerja dapat menggabungkan berbagai layanan, termasuk layanan kustom yang dihosting di Cloud Run atau fungsi Cloud Run, layanan Google Cloud seperti BigQuery, dan API berbasis HTTP apa pun.

Arsitektur

Contoh arsitektur lakehouse yang di-deploy oleh solusi ini akan menganalisis set data e-commerce untuk memahami performa retailer dari waktu ke waktu. Diagram berikut menunjukkan arsitektur resource Google Cloud yang di-deploy oleh solusi tersebut.

Arsitektur infrastruktur untuk solusi data warehouse.

Alur solusi

Arsitektur ini mewakili aliran data umum untuk mengisi dan mengubah data dalam arsitektur lakehouse analisis:

  1. Data disimpan di bucket Cloud Storage.
  2. Data lake dibuat di Dataplex. Data dalam bucket disusun menjadi entity, atau tabel, di data lake.
  3. Tabel di data lake langsung tersedia di BigQuery sebagai tabel BigLake:.
  4. Transformasi data menggunakan Dataproc atau BigQuery, dan menggunakan format file terbuka termasuk Apache Iceberg.
  5. Data dapat diamankan menggunakan tag kebijakan dan kebijakan akses baris
  6. Machine learning dapat diterapkan pada tabel.
  7. Dasbor dibuat dari data untuk menjalankan lebih banyak analisis dengan menggunakan Looker Studio.

Biaya

Untuk mengetahui estimasi biaya resource Google Cloud yang digunakan oleh solusi lakehouse analisis, lihat estimasi yang sudah dihitung sebelumnya di Kalkulator Harga Google Cloud.

Gunakan estimasi sebagai titik awal untuk menghitung biaya deployment Anda. Anda dapat mengubah perkiraan biaya untuk mencerminkan setiap perubahan konfigurasi yang Anda rencanakan untuk memastikan resource yang digunakan dalam solusi.

Perkiraan yang telah dihitung sebelumnya didasarkan pada asumsi untuk faktor-faktor tertentu, termasuk hal-hal berikut:

  • Lokasi Google Cloud tempat resource di-deploy.
  • Durasi waktu resource tersebut digunakan.

Sebelum memulai

Untuk men-deploy solusi ini, Anda memerlukan project Google Cloud dan beberapa izin IAM terlebih dahulu.

Membuat atau memilih project Google Cloud

Saat men-deploy solusi, Anda perlu menentukan di mana project Google Cloud resource akan di-deploy. Anda dapat membuat project baru atau menggunakan project yang ada untuk deployment.

Jika Anda ingin membuat project baru, lakukan sebelum memulai deployment. Menggunakan project dapat membantu menghindari konflik dengan resource yang telah disediakan sebelumnya, seperti resource yang digunakan untuk workload produksi.

Untuk membuat project, selesaikan langkah-langkah berikut ini:

  1. In the Google Cloud console, go to the project selector page.

    Go to project selector

  2. Click Create project.

  3. Name your project. Make a note of your generated project ID.

  4. Edit the other fields as needed.

  5. Click Create.

Mendapatkan izin IAM yang diperlukan

Untuk memulai proses deployment, Anda memerlukan izin Identity and Access Management (IAM) yang terdaftar dalam tabel berikut ini.

Jika Anda membuat project baru untuk solusi ini, Anda memiliki peran dasar roles/owner di project tersebut dan memiliki semua izin yang diperlukan. Jika Anda tidak memiliki peran roles/owner, minta administrator Anda untuk memberikan izin ini (atau peran yang menyertakan izin ini) kepada Anda.

Izin IAM diperlukan Peran bawaan yang mencakup izin yang diperlukan

serviceusage.services.enable

Service Usage Admin
(roles/serviceusage.serviceUsageAdmin)

iam.serviceAccounts.create

Service Account Admin
(roles/iam.serviceAccountAdmin)

resourcemanager.projects.setIamPolicy

Project IAM Admin
(roles/resourcemanager.projectIamAdmin)
config.deployments.create
config.deployments.list
Cloud Infrastructure Manager Admin
(roles/config.admin)
iam.serviceAccount.actAs Service Account User
(roles/iam.serviceAccountUser)

Tentang izin akun layanan sementara

Jika Anda memulai proses deployment melalui konsol, Google akan membuat akun layanan untuk men-deploy solusi atas nama Anda (dan akan menghapus deployment jika Anda memilihnya). Akun layanan ini diberi izin IAM tertentu untuk sementara; yaitu, izin tersebut akan otomatis dicabut setelah operasi deployment dan penghapusan solusi selesai. Google merekomendasikan agar setelah Anda menghapus deployment, Anda harus menghapus akun layanan, seperti yang akan dijelaskan dalam panduan ini.

Melihat peran yang ditetapkan ke akun layanan

Peran-peran tersebut tercantum di sini untuk mengantisipasi jika administrator project Google Cloud atau organisasi Anda membutuhkan informasi ini.

  • roles/biglake.admin
  • roles/bigquery.admin
  • roles/compute.admin
  • roles/datalineage.viewer
  • roles/dataplex.admin
  • roles/dataproc.admin
  • roles/iam.serviceAccountAdmin
  • roles/iam.serviceAccountUser
  • roles/resourcemanager.projectIamAdmin
  • roles/servicenetworking.serviceAgent
  • roles/serviceusage.serviceUsageViewer
  • roles/vpcaccess.admin
  • roles/storage.admin
  • roles/workflows.admin

Men-deploy solusi

Bagian ini memandu Anda dalam proses men-deploy solusi.

Untuk membantu Anda men-deploy solusi ini dengan upaya minimal, konfigurasi Terraform disediakan di GitHub. Konfigurasi Terraform menentukan semua resource Google Cloud yang diperlukan untuk solusi.

Anda dapat men-deploy solusi menggunakan salah satu dari metode berikut ini:

  • Melalui konsol: Gunakan metode ini jika Anda ingin mencoba solusi dengan konfigurasi default dan melihat cara kerjanya. Cloud Build men-deploy semua resource yang diperlukan untuk solusi. Jika Anda sudah tidak memerlukan solusi yang di-deploy, Anda dapat menghapusnya melalui konsol. Semua resource yang telah Anda buat setelah men-deploy solusi mungkin perlu dihapus secara terpisah.

    Untuk menggunakan metode deployment ini, ikuti petunjuknya di Deploy melalui konsol.

  • Menggunakan Terraform CLI: Gunakan metode ini jika Anda ingin menyesuaikan solusi atau mengotomatisasi penyediaan dan pengelolaan resource menggunakan pendekatan Infrastructure as Code (IaC). Download konfigurasi Terraform melalui GitHub, sesuaikan kode secara opsional sesuai kebutuhan, kemudian deploy solusi menggunakan Terraform CLI. Setelah men-deploy solusi, Anda dapat terus menggunakan Terraform untuk mengelola solusi tersebut.

    Untuk menggunakan metode deployment ini, ikuti instruksinya di Men-deploy menggunakan Terraform CLI.

Men-deploy melalui konsol

Selesaikan langkah-langkah berikut untuk men-deploy solusi yang telah terkonfigurasi.

  1. Di katalog Solusi Praktis Google Cloud, buka solusi Lakehouse analytics.

    Buka solusi Lakehouse analytics

  2. Tinjau informasi yang diberikan di halaman, seperti perkiraan biaya solusi dan perkiraan waktu deployment.

  3. Jika sudah siap untuk mulai men-deploy solusi, klik Deploy.

    Panel konfigurasi langkah demi langkah akan ditampilkan.

  4. Selesaikan langkah-langkah di panel konfigurasi.

    Catat nama yang Anda masukkan untuk deployment. Nama ini akan diperlukan saat Anda menghapus deployment.

    Saat Anda mengklik Deploy, halaman Deployment solusi akan ditampilkan. Kolom Status di halaman ini menampilkan Men-deploy.

  5. Tunggu hingga solusi berhasil di-deploy.

    Jika deployment gagal, kolom Status akan menampilkan Gagal. Anda dapat menggunakan log Cloud Build untuk mendiagnosis error. Untuk informasi selengkapnya, lihat Error ketika men-deploy melalui konsol.

    Setelah deployment selesai, kolom Status akan berubah menjadi Di-deploy.

  6. Untuk melihat dan menggunakan solusi, kembali ke halaman Deployment solusi di konsol.

    1. Klik menu Tindakan.
    2. Pilih Lihat Dasbor Looker Studio untuk membuka dasbor yang dibuat diatas data sampel yang diubah menggunakan solusi tersebut
    3. Pilih Buka BigQuery Editor untuk menjalankan kueri dan untuk mem-build model machine learning (ML) menggunakan data sampel dalam solusi.
    4. Pilih Lihat Colab untuk menjalankan kueri di lingkungan notebook.

Ketika Anda tidak lagi memerlukan solusi tersebut, Anda dapat menghapus deployment untuk menghindari penagihan berkelanjutan untuk resource Google Cloud tersebut. Untuk informasi selengkapnya, lihat Menghapus deployment.

Men-deploy menggunakan Terraform CLI

Bagian ini menjelaskan cara menyesuaikan solusi atau mengotomatiskan penyediaan dan pengelolaan solusi menggunakan Terraform CLI. Solusi yang Anda deploy menggunakan Terraform CLI tidak ditampilkan di halaman Deployment solusi pada Konsol Google Cloud.

Menyiapkan klien Terraform

Anda dapat menjalankan Terraform baik di Cloud Shell maupun host lokal Anda. Panduan ini menjelaskan cara menjalankan Terraform di Cloud Shell, yang telah menginstal Terraform di Cloud Shell dan dikonfigurasi untuk diautentikasi dengan Google Cloud.

Kode Terraform untuk solusi ini tersedia di repositori GitHub.

  1. Lakukan clone repositori GitHub ke Cloud Shell.

    Buka di Cloud Shell

    Perintah akan ditampilkan untuk mengonfirmasi download repositori GitHub ke Cloud Shell.

  2. Klik Confirm.

    Cloud Shell diluncurkan di tab browser yang terpisah, lalu kode Terraform didownload ke direktori $HOME/cloudshell_open lingkungan Cloud Shell Anda.

  3. Dalam Cloud Shell, periksa apakah direktori yang sedang bekerja adalah $HOME/cloudshell_open/terraform-google-analytics-lakehouse/. Ini merupakan direktori yang berisi file konfigurasi Terraform untuk solusi. Jika Anda perlu mengubah ke direktori tersebut, jalankan perintah berikut:

    cd $HOME/cloudshell_open/terraform-google-analytics-lakehouse/
    
  4. Lakukan inisialisasi Terraform dengan menjalankan perintah berikut:

    terraform init
    

    Tunggu hingga Anda melihat pesan berikut:

    Terraform has been successfully initialized!
    

Mengonfigurasi variabel Terraform

Kode Terraform yang Anda download mencakup variabel yang dapat digunakan untuk menyesuaikan deployment berdasarkan persyaratan Anda. Misalnya, Anda dapat menentukan project Google Cloud dan region tempat Anda ingin men-deploy solusi.

  1. Pastikan direktori kerja saat ini adalah $HOME/cloudshell_open/terraform-google-analytics-lakehouse/. Jika bukan, buka direktori tersebut.

  2. Pada direktori yang sama, buatlah file teks dengan nama terraform.tfvars.

  3. Dalam file terraform.tfvars, salin cuplikan kode berikut dan tetapkan nilai untuk variabel yang diperlukan.

    • Ikuti petunjuk yang disediakan sebagai komentar dalam cuplikan kode.
    • Cuplikan kode ini hanya mencakup variabel yang harus Anda tetapkan nilainya. Konfigurasi Terraform mencakup variabel lain yang memiliki nilai default. Untuk meninjau semua variabel dan nilai default, lihat file variables.tf yang tersedia di direktori $HOME/cloudshell_open/terraform-google-analytics-lakehouse/.
    • Pastikan setiap nilai yang Anda tetapkan dalam file terraform.tfvars cocok dengan jenis variabel seperti yang dideklarasikan dalam file variables.tf. Misalnya, jika jenis yang ditentukan untuk variabel dalam file variables.tf adalah bool, Anda harus menentukan true atau false sebagai nilai variabel tersebut di file terraform.tfvars.
    # This is an example of the terraform.tfvars file.
    # The values in this file must match the variable types declared in variables.tf.
    # The values in this file override any defaults in variables.tf.
    
    # ID of the project in which you want to deploy the solution
    project_id = "PROJECT_ID"
    
    # Google Cloud region where you want to deploy the solution
    # Example: us-central1
    region = "REGION"
    
    # Whether or not to enable underlying apis in this solution.
    # Example: true
    enable_apis = true
    
    # Whether or not to protect Cloud Storage and BigQuery resources from deletion when solution is modified or changed.
    # Example: false
    force_destroy = false
    

Memvalidasi dan meninjau konfigurasi Terraform

  1. Pastikan direktori yang sedang bekerja adalah $HOME/cloudshell_open/terraform-google-analytics-lakehouse/. Jika bukan, buka direktori tersebut.

  2. Pastikan konfigurasi Terraform tidak terdapat error:

    terraform validate
    

    Jika perintah menunjukkan error, lakukan perbaikan yang diperlukan dalam konfigurasi kemudian jalankan kembali perintahterraform validate. Ulangi langkah ini hingga perintah menunjukkan pesan berikut:

    Success! The configuration is valid.
    
  3. Tinjau resource yang ditentukan dalam konfigurasi:

    terraform plan
    
  4. Jika Anda tidak membuat file terraform.tfvars seperti yang dijelaskan sebelumnya, Terraform akan meminta Anda memasukkan nilai untuk variabel yang tidak memiliki nilai default. Masukkan nilai yang diperlukan.

    Output perintah terraform plan adalah daftar resource yang disediakan Terraform ketika Anda menerapkan konfigurasi.

    Jika Anda ingin melakukan perubahan, edit konfigurasi, kemudian jalankan kembali perintah terraform validate dan terraform plan.

Menyediakan resource

Jika tidak ada perubahan lebih lanjut yang diperlukan dalam konfigurasi Terraform, deploy resource.

  1. Pastikan direktori yang sedang bekerja adalah $HOME/cloudshell_open/terraform-google-analytics-lakehouse/. Jika bukan, buka direktori tersebut.

  2. Terapkan konfigurasi Terraform:

    terraform apply
    
  3. Jika Anda tidak membuat file terraform.tfvars seperti yang dijelaskan sebelumnya, Terraform akan meminta Anda memasukkan nilai untuk variabel yang tidak memiliki nilai default. Masukkan nilai yang diperlukan.

    Terraform menampilkan daftar resource yang akan dibuat.

  4. Ketika Anda diminta untuk melakukan tindakan, masukkan yes.

    Terraform menampilkan pesan yang menunjukkan progres deployment.

    Jika deployment tidak dapat diselesaikan, Terraform akan menampilkan error yang menyebabkan kegagalan. Tinjau pesan error dan update konfigurasi untuk memperbaiki error. Kemudian jalankan kembali perintah terraform apply. Untuk bantuan terkait pemecahan masalah error Terraform, lihat Error ketika men-deploy solusi menggunakan Terraform CLI.

    Setelah semua resource dibuat, Terraform akan menampilkan pesan berikut:

    Apply complete!
    

    Output Terraform juga mencantumkan informasi tambahan berikut ini yang akan Anda perlukan:

    • URL Looker Studio dasbor yang di-deploy.
    • Link untuk membuka editor BigQuery untuk beberapa contoh kueri.
    • Link untuk membuka tutorial Colab.

    Contoh berikut ini menunjukkan tampilan output:

    lookerstudio_report_url = "https://lookerstudio.google.com/reporting/create?c.reportId=79675b4f-9ed8-4ee4-bb35-709b8fd5306a&ds.ds0.datasourceName=vw_ecommerce&ds.ds0.projectId=${var.project_id}&ds.ds0.type=TABLE&ds.ds0.datasetId=gcp_lakehouse_ds&ds.ds0.tableId=view_ecommerce"
    bigquery_editor_url = "https://console.cloud.google.com/bigquery?project=my-cloud-project&ws=!1m5!1m4!6m3!1smy-cloud-project!2sds_edw!3ssp_sample_queries"
    lakehouse_colab_url = "https://colab.research.google.com/github/GoogleCloudPlatform/terraform-google-analytics-lakehouse/blob/main/assets/ipynb/exploratory-analysis.ipynb"
    
  5. Untuk melihat dan menggunakan dasbor serta untuk menjalankan kueri di BigQuery, salin URL output dari langkah sebelumnya dan buka URL di tab browser baru.

    Dasbor, notebook, dan editor BigQuery akan muncul di tab baru.

Ketika Anda tidak lagi memerlukan solusi tersebut, Anda dapat menghapus deployment untuk menghindari penagihan berkelanjutan untuk resource Google Cloud tersebut. Untuk mengetahui informasi selengkapnya, lihat Menghapus deployment.

Menyesuaikan solusi

Bagian ini berisi informasi yang dapat digunakan oleh developer Terraform untuk mengubah solusi lakehouse analytics guna memenuhi persyaratan teknis dan bisnis mereka sendiri. Panduan di bagian ini hanya relevan jika Anda men-deploy solusi menggunakan Terraform CLI.

Setelah Anda mengetahui cara kerja solusi menggunakan data sampel, Anda mungkin ingin mulai menggunakan data Anda sendiri. Untuk menggunakan data Anda sendiri, masukkan data tersebut ke dalam bucket Cloud Storage dengan nama edw-raw-hash. Hash adalah sekumpulan karakter acak yang terdiri dari 8 karakter yang dihasilkan selama deployment. Anda dapat mengubah kode Terraform dengan cara berikut

  1. ID Set Data. Ubah kode Terraform, sehingga saat kode membuat set data BigQuery, kode tersebut menggunakan ID set data yang ingin Anda gunakan untuk data Anda.
  2. Skema. Ubah kode Terraform untuk membuat I.D tabel BigQuery yang dapat Anda gunakan untuk menyimpan data Anda. Ini termasuk skema tabel eksternal sehingga BigQuery dapat membaca data dari Cloud Storage.
  3. Zona. Buat zona lake yang sesuai dengan kebutuhan bisnis Anda (biasanya zonasi dua atau tiga tingkat berdasarkan penggunaan dan kualitas data).
  4. Dasbor looker. Ubah kode Terraform yang digunakan untuk membuat dasbor Looker agar dasbor tersebut mencerminkan data yang sedang Anda gunakan.
  5. Tugas PySpark. Ubah kode Terraform untuk menjalankan tugas PySpark menggunakan Dataproc.

Berikut adalah objek lakehouse analytics umum, yang menunjukkan kode contoh Terraform di main.tf.

  • Set data BigQuery: Skema tempat objek database dikelompokkan dan disimpan.

    resource "google_bigquery_dataset" "ds_edw" {
          project = module.project-services.project_id
          dataset_id = "DATASET_PHYSICAL_ID"
          friendly_name = "DATASET_LOGICAL_NAME"
          description = "DATASET_DESCRIPTION"
          location = "REGION"
          labels = var.labels
          delete_contents_on_destroy = var.force_destroy
      }
  • Tabel BigQuery: Objek database yang menunjukkan data yang tersimpan di BigQuery atau yang menunjukkan skema data yang tersimpan di Cloud Storage.

    resource "google_bigquery_table" "tbl_edw_taxi" {
          dataset_id = google_bigquery_dataset.ds_edw.dataset_id
          table_id = "TABLE_NAME"
          project = module.project-services.project_id
          deletion_protection = var.deletion_protection
          ...
      }
  • Prosedur tersimpan BigQuery: Objek database yang menunjukkan satu atau beberapa pernyataan SQL yang akan dieksekusi saat dipanggil. Hal ini bisa dilakukan untuk mengubah data dari satu tabel ke tabel lain atau untuk memuat data dari tabel eksternal ke tabel standar.

    resource "google_bigquery_routine" "sp_sample_translation_queries" {
          project = module.project-services.project_id
          dataset_id = google_bigquery_dataset.ds_edw.dataset_id
          routine_id = "sp_sample_translation_queries"
          routine_type = "PROCEDURE"
          language = "SQL"
          definition_body = templatefile("${path.module}/assets/sql/sp_sample_translation_queries.sql", { project_id = module.project-services.project_id })
        }
  • Alur kerja Cloud Workflows: Alur kerja Workflows mewakili kombinasi langkah-langkah yang akan dijalankan dalam urutan tertentu. Ini dapat digunakan untuk menyiapkan data atau melakukan transformasi data bersama dengan langkah-langkah eksekusi lainnya.

    resource "google_workflows_workflow" "copy_data" {
        name            = "copy_data"
        project         = module.project-services.project_id
        region          = var.region
        description     = "Copies data and performs project setup"
        service_account = google_service_account.workflows_sa.email
        source_contents = templatefile("${path.module}/src/yaml/copy-data.yaml", {
            public_data_bucket    = var.public_data_bucket,
            textocr_images_bucket = google_storage_bucket.textocr_images_bucket.name,
            ga4_images_bucket     = google_storage_bucket.ga4_images_bucket.name,
            tables_bucket         = google_storage_bucket.tables_bucket.name,
            dataplex_bucket       = google_storage_bucket.dataplex_bucket.name,
            images_zone_name      = google_dataplex_zone.gcp_primary_raw.name,
            tables_zone_name      = google_dataplex_zone.gcp_primary_staging.name,
            lake_name             = google_dataplex_lake.gcp_primary.name
        })
        }
        

Untuk menyesuaikan solusi, selesaikan langkah-langkah berikut di Cloud Shell:

  1. Pastikan direktori kerja saat ini adalah $HOME/cloudshell_open/terraform-google-analytics-lakehouse. Jika tidak, buka direktori tersebut:

    cd $HOME/cloudshell_open/terraform-google-analytics-lakehouse
    
  2. Buka main.tf dan lakukan perubahan yang ingin Anda buat.

    Untuk mengetahui informasi selengkapnya tentang efek penyesuaian tersebut terhadap keandalan, keamanan, performa, biaya, dan operasi, lihat Rekomendasi desain.

  3. Validasi dan tinjau konfigurasi Terraform.

  4. Sediakan resource.

Rekomendasi desain

Bagian ini berisi rekomendasi penggunaan solusi lakehouse analytics untuk mengembangkan arsitektur yang memenuhi persyaratan Anda akan keamanan, keandalan, biaya, dan performa.

Saat mulai menskalakan solusi lakehouse, Anda memiliki sejumlah cara untuk membantu meningkatkan performa kueri dan mengurangi total pembelanjaan Anda. Metode ini meliputi mengubah cara data Anda disimpan secara fisik, memodifikasi kueri SQL, dan mengubah cara kueri dijalankan menggunakan berbagai teknologi. Untuk mempelajari lebih lanjut metode pengoptimalan workload Spark, lihat Praktik terbaik Dataproc untuk produksi.

Perhatikan hal-hal berikut:

  • Sebelum membuat perubahan desain apa pun, evaluasi dampak biaya dan pertimbangkan kemungkinan kompromi dengan fitur lain. Anda dapat menilai dampak biaya perubahan desain dengan menggunakan Kalkulator Harga Google Cloud.
  • Untuk menerapkan perubahan desain dalam solusi tersebut, Anda memerlukan keahlian dalam coding Terraform dan pengetahuan tingkat lanjut tentang layanan Google Cloud yang digunakan pada solusi tersebut.
  • Jika Anda memodifikasi konfigurasi Terraform yang disediakan Google, dan kemudian mengalami error, buat masalah di GitHub. Laporan masalah pada GitHub ditinjau berdasarkan upaya terbaik dan tidak ditujukan untuk pertanyaan umum.
  • Untuk informasi selengkapnya mengenai mendesain dan menyiapkan lingkungan tingkat produksi di Google Cloud, lihat Desain zona landing di Google Cloud dan Checklist penyiapan Google Cloud.

Menghapus deployment solusi

Jika Anda tidak lagi memerlukan deployment solusi, hapus deployment tersebut guna menghindari penagihan berkelanjutan untuk resource yang Anda buat.

Menghapus deployment melalui konsol

Gunakan prosedur ini jika Anda men-deploy solusi melalui konsol.

  1. Pada Konsol Google Cloud, buka halaman Deployment solusi.

    Buka Deployment solusi

  2. Pilih project berisi deployment yang ingin Anda hapus.

  3. Cari deployment yang ingin Anda hapus.

  4. Di baris untuk deployment, klik Tindakan, lalu pilih Hapus.

    Anda mungkin perlu men-scroll untuk melihat Tindakan di baris.

  5. Masukkan nama deployment, lalu klik Konfirmasi.

    Kolom Status menampilkan Menghapus.

    Jika penghapusan gagal, lihat panduan pemecahan masalah pada bagian Error saat menghapus deployment.

Jika tidak lagi memerlukan project Google Cloud yang digunakan untuk solusi, Anda dapat menghapus project tersebut. Untuk informasi selengkapnya, lihat Opsional: Menghapus project

Menghapus deployment menggunakan Terraform CLI

Gunakan prosedur ini jika Anda men-deploy solusi menggunakan Terraform CLI.

  1. Di Cloud Shell, pastikan direktori kerja saat ini adalah $HOME/cloudshell_open/terraform-google-analytics-lakehouse/. Jika bukan, buka direktori tersebut.

  2. Hapus resource yang disediakan oleh Terraform:

    terraform destroy
    

    Terraform menampilkan daftar resource yang akan dimusnahkan.

  3. Ketika Anda diminta untuk melakukan tindakan, masukkan yes.

    Terraform menampilkan pesan yang menunjukkan progres. Setelah semua resource dihapus, Terraform akan menampilkan pesan berikut:

    Destroy complete!
    

    Jika penghapusan gagal, lihat panduan pemecahan masalah pada bagian Error saat menghapus deployment.

Jika tidak lagi memerlukan project Google Cloud yang digunakan untuk solusi, Anda dapat menghapus project tersebut. Untuk informasi selengkapnya, lihat Opsional: Menghapus project

Opsional: Menghapus project

Jika Anda men-deploy solusi di project Google Cloud baru, dan tidak lagi memerlukan project tersebut, hapus dengan melakukan langkah-langkah berikut:

  1. Pada Konsol Google Cloud, buka halaman Kelola resource

    Buka Kelola resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Hapus.
  3. Pada layar perintah, ketik project ID, lalu klik Matikan.

Jika Anda memutuskan untuk mempertahankan project, hapus akun layanan yang dibuat untuk solusi ini, seperti yang akan dijelaskan pada bagian selanjutnya.

Opsional: Menghapus akun layanan

Jika Anda menghapus project yang digunakan untuk solusi tersebut, lewati bagian ini.

Seperti yang telah disebutkan dalam panduan ini, ketika men-deploy solusi, akun layanan akan dibuat atas nama Anda. Akun layanan telah diberi izin IAM tertentu untuk sementara; yaitu, izin yang otomatis dicabut setelah operasi deployment dan penghapusan solusi selesai, tetapi akun layanan tidak dihapus. Google merekomendasikan agar Anda menghapus akun layanan ini.

  • Jika Anda men-deploy solusi melalui Konsol Google Cloud, buka halaman Deployment solusi. (Jika Anda sudah berada di halaman tersebut, muat ulang browser.) Proses terpicu di latar belakang untuk menghapus akun layanan. Tidak ada tindakan lebih lanjut yang diperlukan.

  • Jika Anda men-deploy solusi menggunakan Terraform CLI, lakukan langkah-langkah berikut:

    1. Di Konsol Google Cloud, buka halaman Service accounts.

      Buka halaman Service accounts

    2. Pilih project yang Anda gunakan untuk solusi tersebut.

    3. Pilih akun layanan yang ingin Anda hapus.

      ID email akun layanan yang digunakan untuk membuat solusi menggunakan format berikut:

      goog-sc-DEPLOYMENT_NAME-NNN@PROJECT_ID.
      

      ID email berisi nilai-nilai berikut:

      • DEPLOYMENT_NAME: nama deployment.
      • NNN: 3 digit angka acak.
      • PROJECT_ID: ID project tempat Anda men-deploy solusi.
    4. Klik Delete.

Mengatasi error

Tindakan yang dapat Anda lakukan untuk mendiagnosis dan mengatasi error bergantung pada metode deployment dan kompleksitas error.

Error ketika men-deploy solusi melalui konsol

Jika deployment gagal saat Anda menggunakan konsol, lakukan langkah berikut:

  1. Buka halaman Deployment solusi.

    Jika deployment gagal, kolom Status akan menampilkan Gagal.

  2. Lihat detail error yang menyebabkan kegagalan:

    1. Di baris untuk deployment, klik Tindakan.

      Anda mungkin perlu men-scroll untuk melihat Tindakan di baris.

    2. Pilih Lihat log Cloud Build.

  3. Tinjau log Cloud Build dan lakukan tindakan yang sesuai untuk menyelesaikan masalah yang menyebabkan kegagalan.

Error ketika men-deploy solusi menggunakan Terraform CLI

Jika deployment gagal ketika Anda menggunakan Terraform, output perintah terraform apply akan menyertakan pesan error yang dapat Anda tinjau untuk mendiagnosis masalah.

Pada bagian berikut ditunjukkan contoh error deployment yang mungkin Anda alami saat menggunakan Terraform.

Error API dinonaktifkan

Jika Anda membuat project dan segera mencoba men-deploy solusi di project baru, deployment mungkin akan gagal dengan error seperti berikut:

Error: Error creating Network: googleapi: Error 403: Compute Engine API has not
been used in project PROJECT_ID before or it is disabled. Enable it by visiting
https://console.developers.google.com/apis/api/compute.googleapis.com/overview?project=PROJECT_ID
then retry. If you enabled this API recently, wait a few minutes for the action
to propagate to our systems and retry.

Jika error ini terjadi, tunggu beberapa menit, lalu jalankan terraform apply kembali perintah.

Error tidak dapat menetapkan alamat yang diminta

Ketika Anda menjalankan perintah terraform apply, error cannot assign requested address mungkin saja terjadi, dengan pesan seperti berikut:

Error: Error creating service account:
 Post "https://iam.googleapis.com/v1/projects/PROJECT_ID/serviceAccounts:
 dial tcp [2001:db8:ffff:ffff::5f]:443:
 connect: cannot assign requested address

Jika terjadi error ini, jalankan kembali perintah terraform apply.

Error saat mengakses data di BigQuery atau Looker Studio

Ada langkah penyediaan yang berjalan setelah langkah penyediaan Terraform yang memuat data ke lingkungan. Jika Anda mendapatkan error saat data sedang dimuat ke dasbor Looker Studio, atau jika tidak ada objek saat Anda mulai menjelajahi BigQuery, tunggu beberapa menit dan coba lagi.

Error saat menghapus deployment

Dalam kasus tertentu, upaya untuk menghapus deployment mungkin akan gagal:

  • Jika Anda mengubah resource yang disediakan oleh solusi setelah men-deploy solusi melalui konsol, lalu Anda mencoba menghapus deployment, penghapusan mungkin akan gagal. Kolom Status pada halaman Deployment solusi akan menampilkan Gagal, dan log Cloud Build akan menunjukkan penyebab error.
  • Jika Anda mengubah resource dengan menggunakan antarmuka non-Terraform (misalnya, konsol) setelah men-deploy solusi menggunakan Terraform CLI, kemudian Anda mencoba menghapus deployment, penghapusan mungkin akan gagal. Pesan dalam output perintah terraform destroy menunjukkan penyebab error.

Tinjau log dan pesan error serta identifikasi dan hapus resource yang menyebabkan error tersebut. Setelah itu, coba hapus kembali deployment.

Jika deployment berbasis konsol tidak dapat dihapus dan Anda tidak dapat mendiagnosis error menggunakan log Cloud Build, Anda dapat menghapus deployment tersebut menggunakan Terraform CLI yang akan dijelaskan pada bagian berikutnya.

Menghapus deployment berbasis konsol menggunakan Terraform CLI

Bagian ini menjelaskan cara menghapus deployment berbasis konsol jika terjadi error saat Anda mencoba menghapusnya melalui konsol. Dalam pendekatan ini, Anda perlu mendownload konfigurasi Terraform untuk deployment yang ingin dihapus, lalu gunakan Terraform CLI untuk menghapus deployment tersebut.

  1. Identifikasi region tempat kode Terraform, log, dan data deployment lainnya disimpan. Region ini mungkin berbeda dari region yang Anda pilih ketika men-deploy solusi.

    1. Pada Konsol Google Cloud, buka halaman Deployment solusi.

      Buka Deployment solusi

    2. Pilih project berisi deployment yang ingin Anda hapus.

    3. Dalam daftar deployment, identifikasi baris deployment yang ingin Anda hapus.

    4. Klik Lihat semua konten baris.

    5. Pada kolom Lokasi, catat lokasi kedua seperti yang ditandai dalam contoh berikut:

      Lokasi kode deployment, log, dan artefak lainnya.

  2. In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

    At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

  3. Membuat variabel lingkungan untuk project ID, region, dan nama deployment yang ingin Anda hapus:

    export REGION="REGION"
    export PROJECT_ID="PROJECT_ID"
    export DEPLOYMENT_NAME="DEPLOYMENT_NAME"
    

    Dalam perintah ini, ganti kode berikut:

    • REGION: lokasi yang Anda catat sebelumnya dalam prosedur ini.
    • PROJECT_ID: ID project tempat Anda men-deploy solusi.
    • DEPLOYMENT_NAME: nama deployment yang ingin Anda hapus.
  4. Dapatkan ID revisi deployment terbaru yang ingin Anda hapus:

    export REVISION_ID=$(curl \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        -H "Content-Type: application/json" \
        "https://config.googleapis.com/v1alpha2/projects/${PROJECT_ID}/locations/${REGION}/deployments/${DEPLOYMENT_NAME}" \
        | jq .latestRevision -r)
        echo $REVISION_ID
    

    Outputnya mirip dengan yang berikut ini:

    projects/PROJECT_ID/locations/REGION/deployments/DEPLOYMENT_NAME/revisions/r-0
    
  5. Dapatkan lokasi Cloud Storage dari konfigurasi Terraform untuk deployment:

    export CONTENT_PATH=$(curl \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        -H "Content-Type: application/json" \
        "https://config.googleapis.com/v1alpha2/${REVISION_ID}" \
        | jq .applyResults.content -r)
        echo $CONTENT_PATH
    

    Berikut adalah contoh output dari perintah ini:

    gs://PROJECT_ID-REGION-blueprint-config/DEPLOYMENT_NAME/r-0/apply_results/content
    
  6. Download konfigurasi Terraform dari Cloud Storage ke Cloud Shell:

    gcloud storage cp $CONTENT_PATH $HOME --recursive
    cd $HOME/content/
    

    Tunggu hingga pesan Operation completed ditampilkan, seperti yang ditunjukkan dalam contoh berikut:

    Operation completed over 45 objects/268.5 KiB
    
  7. Lakukan inisialisasi Terraform:

    terraform init
    

    Tunggu hingga Anda melihat pesan berikut:

    Terraform has been successfully initialized!
    
  8. Menghapus resource yang di-deploy:

    terraform destroy
    

    Terraform menampilkan daftar resource yang akan dimusnahkan.

    Jika muncul peringatan tentang variabel yang tidak dideklarasikan, abaikan peringatan tersebut.

  9. Ketika Anda diminta untuk melakukan tindakan, masukkan yes.

    Terraform menampilkan pesan yang menunjukkan progres. Setelah semua resource dihapus, Terraform akan menampilkan pesan berikut:

    Destroy complete!
    
  10. Menghapus artefak deployment:

    curl -X DELETE \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        -H "Content-Type: application/json" \
        "https://config.googleapis.com/v1alpha2/projects/${PROJECT_ID}/locations/${REGION}/deployments/${DEPLOYMENT_NAME}?force=true&delete_policy=abandon"
    
  11. Tunggu beberapa detik, lalu verifikasi bahwa artefak deployment telah dihapus:

    curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        -H "Content-Type: application/json" \
        "https://config.googleapis.com/v1alpha2/projects/${PROJECT_ID}/locations/${REGION}/deployments/${DEPLOYMENT_NAME}" \
        | jq .error.message
    

    Jika output menampilkan null, tunggu beberapa detik, lalu jalankan kembali perintah.

    Setelah artefak deployment dihapus, pesan seperti yang ditunjukkan pada contoh yang ditampilkan berikut ini:

    Resource 'projects/PROJECT_ID/locations/REGION/deployments/DEPLOYMENT_NAME' was not found
    

Mengirim masukan

Solusi Praktis hanya untuk keperluan informasi dan bukan produk yang didukung secara resmi. Google dapat mengubah atau menghapus solusi tanpa pemberitahuan.

Untuk mengatasi error, tinjau log Cloud Build dan output Terraform.

Untuk mengirim masukan, lakukan hal-hal berikut:

  • Untuk dokumentasi, tutorial dalam konsol, atau solusi, gunakan tombol Kirim Masukan pada halaman tersebut.
  • Untuk kode Terraform yang tidak dimodifikasi, buat laporan masalah di Repositori GitHub. Laporan masalah pada GitHub ditinjau berdasarkan upaya terbaik dan tidak ditujukan untuk pertanyaan umum.

Langkah berikutnya