Se eu fosse Analista de Dados e quisesse migrar para Engenharia de Dados em 2024 eu seguiria essa trilha... 💡 Conceitos e Fundamentos: - Arquitetura de dados: Conceitos sobre Data Warehouse, Data Lake, Data Lakehouse e Data Marts. - Modelagem de Dados: Conceitos sobre Star Schema, Snowflake Schema, OBT, Data Vault. Aqui eu focaria em entender as principais diferenças entre os modelos. Vantagens e Desvantagens - Processamento distribuído: Estudaria sobre processamento distribuído com Spark. Focaria em Spark e leria um livro sobre, um bom livro já cobre os conceitos e a prática de um software tão usado. (Focaria nele, sei que existem outros mas na minha opinião se dominar bem spark está ótimo) - Engenharia de software: Estudaria como implementar códigos robustos com Python com testes, boas práticas de código 💡 Trabalhando com API's: Todo Engenheiro(a) de dados trabalha ou trabalhará com API's. Então é importante aprender sobre: - Como consumir API's. - Métodos de autenticação. - Como funciona basicamente, entender sobre rate limit, backfilling, Webhooks. 💡 Orquestração de Dados Estudaria o principal produto para orquestragem hoje no mercado que é o Apache Airflow. Entenderia como esse software funciona, boas práticas para criação de DAG's, recursos e principais integrações. 💡 Soluções Modernas (modern data stack) Estudaria algumas ferramentas muito faladas ultimamente para compor stacks de dados. São elas: - airbyte - dbt - datahub - airflow + dbt - duckdb Você não precisa ficar expert em todas, é importante entender onde cada uma se encaixa, quando usar e como usar. 💡Cloud Escolha uma das três mais usadas: AWS, Azure e GCP. Escolha uma delas e aprenda os produtos de dados que são mais usados. Pense: como fazer um projeto básico na AWS? por exemplo: Assumindo uma API pública, como posso subir um código python para consumir uma API, escrever no Data Lake, modelar as tabelas e inserir em um Data Warehouse usando 100% a AWS? (ou na Azure, GCP...tanto faz). Depois de pesquisar quais serviços usar para tal tarefa, implemente um pipeline usando uma conta gratuita para aprender na prática. 💡Governança e Qualidade de dados Estudaria sobre Governança de dados e qualidade. Para governança entender as boas práticas, sobre catálogo de dados, documentação. Sobre qualidade, buscaria estudar sobre bibliotecas como great_expectations e SODA. E como aplicar em meus códigos Python. Bom, esse foi um caminho que eu seguiria para migrar para Engenheiro de Dados... Sei que faltou algumas ferramentas ou habilidades na lista, mas tentei considerar que hoje um Analista de Dados ou Desenvolvedor já domina e atua com muita coisa. Então, na minha opinião, já tem um bom background, só precisa focar no que pode completar mesmo. Faz sentido para você? Envie para um Analista de Dados ou Dev que está buscando essa migração. #dataengineering
Aqui tem algo que dever ser lido, vai ajudar muitas pessoas
Faz, faz muito, e diria que depois dos conceitos, saber uma cloud te coloca no jogo de uma forma muito forte.
Rodrigo, obrigado por compartilhar essas orientações. Achei bem útil e tenho certeza de que vão agregar na minha posição atual.
Muito bom. Tem algum livro que indique sobre algum dos conceitos e fundamentos?
Faz e muito!!!
Excelentes dicas, Rodrigo! Vou criar uma trilha de estudos focados nesses pontos. Muito obrigado!
Mãe do Gui | Data & Analytics Manager e Embaixadora na NTT DATA Brasil | People First
2 semObrigada por destacar o Spark como algo importante para dedicar tempo de qualidade no aprendizado. É essencial para trabalhar em grandes projetos e mtas vezes sinto q não se dá a devida importância dentro dos planos de estudo da turma.