Usar o plug-in do JupyterLab do BigQuery
Para solicitar feedback ou suporte para esse recurso, envie um e-mail para [email protected].
Este documento mostra como instalar e usar a API O plug-in do JupyterLab faz o seguinte:
- Explorar seus dados do BigQuery.
- Usar a API DataFrames do BigQuery.
- Implantar um notebook do DataFrames do BigQuery no Cloud Composer.
O plug-in do JupyterLab do BigQuery inclui todos os da função Plug-in Dataproc JupyterLab, como criar um modelo de ambiente de execução sem servidor do Dataproc, iniciar e gerenciar notebooks, desenvolver com o Apache Spark, implantar seu código, e gerenciar seus recursos.
Instalar o plug-in do JupyterLab do BigQuery
Para instalar e usar o plug-in BigQuery JupyterLab, siga estas etapas:
No seu terminal local, verifique se você tem o Python 3.8 ou mais recente. instalados em seu sistema:
python3 --version
No seu terminal local, Inicialize a CLI gcloud:
gcloud init
Instale o Pipenv, uma ferramenta de ambiente virtual do Python:
pip3 install pipenv
Crie um novo ambiente virtual:
pipenv shell
Instale o JupyterLab no novo ambiente virtual:
pipenv install jupyterlab
Instale o plug-in do JupyterLab do BigQuery:
pipenv install bigquery-jupyter-plugin
Se a versão instalada do JupyterLab for anterior que a versão 4.0.0, ative a extensão do plug-in:
jupyter server extension enable bigquery_jupyter_plugin
Inicie o JupyterLab:
jupyter lab
O JupyterLab é aberto no navegador.
Atualizar as configurações de projeto e região
Por padrão, sua sessão é executada no projeto e na região que você definiu quando
executou gcloud init
. Para mudar as configurações de projeto e região do
faça o seguinte:
- No menu do JupyterLab, clique em Configurações > Configurações do Google BigQuery.
É necessário reiniciar o plug-in para que as mudanças entrem em vigor.
Explorar dados
Para trabalhar com os dados do BigQuery no JupyterLab, faça o seguinte:
- Na barra lateral do JupyterLab, abra o painel Explorador de conjunto de dados: clique no ícone dos conjuntos de dados.
Para expandir um projeto, no painel Dataset Explorer, clique em
seta de expansão ao lado do nome do projeto.O painel Explorador de conjunto de dados mostra todos os conjuntos de dados em um projeto que ficam na região do BigQuery que você configurou a sessão. É possível interagir com um projeto e um conjunto de dados de várias maneiras:
- Para exibir informações sobre um conjunto de dados, clique no nome dele.
- Para exibir todas as tabelas em um conjunto de dados, clique no seta de expansão ao lado de conjunto de dados.
- Para visualizar informações sobre uma tabela, clique no nome dela.
- Para alterar o projeto ou a região do BigQuery, atualize suas configurações.
Executar notebooks
Para consultar os dados do BigQuery no JupyterLab, faça o seguinte:
- Para abrir a página de acesso rápido, clique em Arquivo > Nova tela de início.
- Na seção Notebooks do BigQuery, clique em DataFrames do BigQuery cartão de crédito. Um novo notebook é aberto, mostrando como começar a usar o DataFrames do BigQuery.
Os notebooks do DataFrames do BigQuery oferecem suporte ao desenvolvimento em Python em um ambiente kernel do Python. As operações do DataFrames do BigQuery são executadas remotamente o BigQuery, mas o restante do código é executado localmente máquina local. Quando uma operação é executada no BigQuery, um job de consulta O ID e o link para o job aparecem abaixo da célula de código.
- Para abrir o job no console do Google Cloud, clique em Abrir job.
Implantar um notebook do DataFrames do BigQuery
É possível implantar um notebook do DataFrames do BigQuery no Cloud Composer usando um modelo de ambiente de execução sem servidor do Dataproc. Use o do ambiente de execução versão 2.1 ou posterior.
- No notebook do JupyterLab, clique em calendar_monthProgramador de jobs.
- Em Nome do job, insira um nome exclusivo.
- Em Ambiente, insira o nome do Cloud Composer. ambiente em que você quer implantar o job.
- Se o notebook estiver parametrizado, adicione parâmetros.
- Digite o nome do Modelo de ambiente de execução sem servidor:
- Para processar falhas de execução do notebook, insira um número inteiro em Contagem de tentativas. e um valor (em minutos) para Atraso na repetição.
Selecione quais notificações de execução serão enviadas e insira os destinatários.
As notificações são enviadas usando a configuração SMTP do Airflow.
Selecione uma programação para o notebook.
Clique em Criar.
Quando você programa seu notebook, ele aparece na lista de jobs programados no ambiente selecionado do Cloud Composer.
A seguir
- Conheça o guia de início rápido do BigQuery DataFrames.
- Saiba mais sobre a política de API BigQuery DataFrames Python.
- Use o JupyterLab para sessões de notebook e lote sem servidor com o Dataproc.