Usar o plug-in do JupyterLab do BigQuery

Para solicitar feedback ou suporte para esse recurso, envie um e-mail para [email protected].

Este documento mostra como instalar e usar a API O plug-in do JupyterLab faz o seguinte:

Explorar seus dados do BigQuery.
Usar a API DataFrames do BigQuery.
Implantar um notebook do DataFrames do BigQuery no Cloud Composer.

O plug-in do JupyterLab do BigQuery inclui todos os da função Plug-in Dataproc JupyterLab, como criar um modelo de ambiente de execução sem servidor do Dataproc, iniciar e gerenciar notebooks, desenvolver com o Apache Spark, implantar seu código, e gerenciar seus recursos.

Instalar o plug-in do JupyterLab do BigQuery

Para instalar e usar o plug-in BigQuery JupyterLab, siga estas etapas:

No seu terminal local, verifique se você tem o Python 3.8 ou mais recente. instalados em seu sistema:
```
python3 --version
```
Instale a CLI gcloud.
No seu terminal local, Inicialize a CLI gcloud:
```
gcloud init
```
Instale o Pipenv, uma ferramenta de ambiente virtual do Python:
```
pip3 install pipenv
```
Crie um novo ambiente virtual:
```
pipenv shell
```
Instale o JupyterLab no novo ambiente virtual:
```
pipenv install jupyterlab
```
Instale o plug-in do JupyterLab do BigQuery:
```
pipenv install bigquery-jupyter-plugin
```
Se a versão instalada do JupyterLab for anterior que a versão 4.0.0, ative a extensão do plug-in:
```
jupyter server extension enable bigquery_jupyter_plugin
```
Inicie o JupyterLab:
```
jupyter lab
```
O JupyterLab é aberto no navegador.

Atualizar as configurações de projeto e região

Por padrão, sua sessão é executada no projeto e na região que você definiu quando executou gcloud init. Para mudar as configurações de projeto e região do faça o seguinte:

No menu do JupyterLab, clique em Configurações > Configurações do Google BigQuery.

É necessário reiniciar o plug-in para que as mudanças entrem em vigor.

Explorar dados

Para trabalhar com os dados do BigQuery no JupyterLab, faça o seguinte:

Na barra lateral do JupyterLab, abra o painel Explorador de conjunto de dados: clique no ícone dos conjuntos de dados.
Para expandir um projeto, no painel Dataset Explorer, clique em seta de expansão ao lado do nome do projeto.

O painel Explorador de conjunto de dados mostra todos os conjuntos de dados em um projeto que ficam na região do BigQuery que você configurou a sessão. É possível interagir com um projeto e um conjunto de dados de várias maneiras:
- Para exibir informações sobre um conjunto de dados, clique no nome dele.
- Para exibir todas as tabelas em um conjunto de dados, clique no seta de expansão ao lado de conjunto de dados.
- Para visualizar informações sobre uma tabela, clique no nome dela.
- Para alterar o projeto ou a região do BigQuery, atualize suas configurações.

Executar notebooks

Para consultar os dados do BigQuery no JupyterLab, faça o seguinte:

Para abrir a página de acesso rápido, clique em Arquivo > Nova tela de início.
Na seção Notebooks do BigQuery, clique em DataFrames do BigQuery cartão de crédito. Um novo notebook é aberto, mostrando como começar a usar o DataFrames do BigQuery.

Os notebooks do DataFrames do BigQuery oferecem suporte ao desenvolvimento em Python em um ambiente kernel do Python. As operações do DataFrames do BigQuery são executadas remotamente o BigQuery, mas o restante do código é executado localmente máquina local. Quando uma operação é executada no BigQuery, um job de consulta O ID e o link para o job aparecem abaixo da célula de código.

Para abrir o job no console do Google Cloud, clique em Abrir job.

Implantar um notebook do DataFrames do BigQuery

É possível implantar um notebook do DataFrames do BigQuery no Cloud Composer usando um modelo de ambiente de execução sem servidor do Dataproc. Use o do ambiente de execução versão 2.1 ou posterior.

No notebook do JupyterLab, clique em calendar_monthProgramador de jobs.
Em Nome do job, insira um nome exclusivo.
Em Ambiente, insira o nome do Cloud Composer. ambiente em que você quer implantar o job.
Se o notebook estiver parametrizado, adicione parâmetros.
Digite o nome do Modelo de ambiente de execução sem servidor:
Para processar falhas de execução do notebook, insira um número inteiro em Contagem de tentativas. e um valor (em minutos) para Atraso na repetição.
Selecione quais notificações de execução serão enviadas e insira os destinatários.

As notificações são enviadas usando a configuração SMTP do Airflow.
Selecione uma programação para o notebook.
Clique em Criar.

Quando você programa seu notebook, ele aparece na lista de jobs programados no ambiente selecionado do Cloud Composer.

A seguir

Conheça o guia de início rápido do BigQuery DataFrames.
Saiba mais sobre a política de API BigQuery DataFrames Python.
Use o JupyterLab para sessões de notebook e lote sem servidor com o Dataproc.