O curso é adequado para analistas, desenvolvedores, programadores e até mesmo iniciantes. Você será capaz de utilizar diferentes bibliotecas para visualizar dados de análise com Python. Também saberá comunicar e extrair os dados utilizando SQL a partir de diferentes bases de dados.
São cerca de 40 horas de aulas on-line com três professores ativos no mercado de trabalho, além de projetos para seu portfólio profissional e atividades para preparar o aluno para adentrar no mercado de cientista de dados.
Introdução à programação em Python
Python básico
Python intermediário
Python avançado
Conheça o mercado de ciência de dados, a experiência dos professores em diferentes setores e os primeiros passos para configurar o seu ambiente e iniciar o aprendizado na área.
Conheça os professores e entenda os objetivos do curso
Mercado de ciência de dados e possibilidades de carreira
Como configurar seu ambiente de ciência de dados
Criação de scripts para ciência de dados e publicação de scripts em Streamlit
Atividade
Configurar seu ambiente de ciência de dados integrando a ferramenta Streamlit.
Aprenda as principais etapas do CRISP em um projeto prático de compreensão de negócios e dados com preparação e modelagem de dados para avaliação e implantação. Escolha dados de uma das áreas em que deseja trabalhar.
Visão geral da ciência de dados, classificação de modelos e metodologias existentes
Estágios de mineração de dados para resolução de problemas
Processos e metodologias intersetoriais para mineração de dados
Combinação de modelos: Bagging e floresta aleatória
Planejamento e modelagem de soluções analíticas
Atividade
Execute e teste seu primeiro modelo de classificação.
Conheça o que são árvores de decisão e como elas são usadas para solucionar problemas. Aprenda como realizar tratamento de dados, análise descritiva e técnicas de visualização de dados em ordem para tratar e classificar transações bancárias para detecção de fraude.
Introdução às Árvores
Processo padrão de indústria cruzada para mineração de dados (CRISP-DM)
Python básico
Tratamento de dados: dados estruturados e não estruturados. Leitura de arquivos estruturados e dataframes
Análise de dados e resumo com gráficos
Github para ciência de dados I
Atividades
Desenvolva um modelo de classificação de detecção de doenças utilizando a árvores de decisão.
Saiba como explorar e exibir dados com tabelas e gráficos por meio do Pandas e realizar seleção de variáveis por meio de indicadores. Aprenda regressão básica, melhores práticas de script e como trabalhar com o algoritmo chaid, usar Github e Streamlit para gerenciamento e visualização de projetos de Ciência de Dados.
Exploração de dados básicos no Pandas: tabelas e Gráficos
Seleção de variáveis pela primeira vez – indicadores
Algoritmo de base de árvores de decisão (Chaid) I
Regressão básica
Testes, intervalos e previsões, parametrização de dummies
Github para ciência de dados II
Melhores práticas de script
Publicação de relatórios no Streamlit
Atividade
Desenvolva um modelo de regressão e publique-o com o Streamlit usando suas habilidades em Python.
Aprenda a criar novas variáveis, combinar tabelas, aplicar o algoritmo Chaid em situações mais complexas, o básico de regressão logística e mais componentes de gerenciamento de Github e publicação Streamlit. Descubra como usar os recursos de Terminal e Markdown dos notebooks Jupyter.
Criação de novas variáveis de regressão, mudança de forma e combinação de tabelas
Algoritmo de base de árvores de decisão (Chaid) II
Introdução à Regressão Logística
Componentes Streamlit para publicação de relatórios
Jupyter Markdown e Terminal
Github para ciência de dados III
Atividade
Parte I: Desenvolver um projeto de classificação de dados de cartão de crédito.
Saiba como usar SQL para análise exploratória de ciência de dados, descrever dados com boxplots, gráficos e histogramas e trabalhar com diferentes variações das combinações de algoritmo de Bagging e Boosting. Aprenda a fazer Análise de componentes principais (PCA), conceitos de cálculo e álgebra linear, trabalho com terminal Linux e publicação de relatórios de regressão e clusters em Streamlit.
Análise Exploratória com SQL
Descrever dados com boxplots, gráficos e histogramas
Combinações populares de Bagging (floresta aleatória)
Combinações populares de Boosting (XGBoosting)
Conceitos intuitivos de cálculo e álgebra linear
Terminal Linux I
Análise de componentes principais (PCA)
Publique relatórios de regressão logística e clusters no Streamlit
Atividade
Parte II: Desenvolver um projeto de introdução ao reconhecimento de imagens
Saiba como aplicar diferentes soluções de regressão para compreender e resolver um problema orientado a dados do início ao fim. Aprenda também a diagnosticar, interpretar um problema e realizar previsões de resultados usando regressão logística e suas equações junto com a tabela de contingência.
K-means
Decomposição de valor singular (SVD)
Incorporação vizinha estocástica com distribuição t (t-SNE)
Estimativa de densidade de kernel (KDE) e DBScan
Hierárquicos e Aglomerativos
Análise fatorial exploratória (EFA)
Análise de correspondência múltipla (MCA)
Publicação Streamlit de relatórios de redução de dimensionalidade e relatório final
Atividade
Parte I: Projeto de agrupamento de clientes para a área de marketing.
Aprenda como escolher variáveis de regressão, detectar e lidar com a multicolinearidade, aplicar inferência e probabilidade a problemas de ciência de dados e usar comandos de terminal Linux mais avançados.
Seleção de variáveis de regressão, interações
Probabilidade e inferência
Conceito de cálculo diferencial por trás de algoritmos DS
Diagnóstico, multicolinearidade e resolução de problemas
Interações e diagnósticos em regressão
Variáveis fictícias (Dummy)
Atividade
Parte II: Projeto de classificação para pontuação de crédito bancário.
Introdução à programação em SQL
Descreva dados com SQL
Manipule dados com SQL
SQL Avançado
Análise Exploratória de Dados com Pandas e Seaborn