Atualmente os analistas devem lidar com dados caracterizados por variedade e volume extraordinários, e com muita rapidez. Utilizando a biblioteca Pandas, é possível usar Python para automatizar e executar tarefas de análise de dados de maneira rápida, não importa quão volumosos ou complexos sejam esses dados. O Pandas pode ajudar a garantir a veracidade de seus dados, visualizá-los para uma tomada de decisão eficaz e reproduzir análises em vários conjuntos de dados de modo confiável.
Análise de dados com Python e Pandas reúne conhecimentos práticos e insights para solucionar problemas reais com o Pandas, mesmo que a análise de dados com Python seja novidade para você. Daniel Y. Chen apresenta conceitos essenciais por meio de exemplos simples e práticos, expandindo-os de modo incremental para resolver problemas mais difíceis do mundo real.
Chen oferece um ponto de partida rápido para o Pandas por meio de um conjunto de dados realista, além de abordar a combinação de conjuntos de dados, o tratamento de dados ausentes e a estruturação de conjuntos de dados com o intuito de facilitar a análise e a visualização. Além disso, mostra técnicas eficazes de limpeza de dados que variam da manipulação básica de strings à aplicação simultânea de funções nos dataframes.
Depois que seus dados estiverem prontos, Chen orientará você na adequação de modelos para previsão, clustering, inferência e exploração. O autor apresenta dicas sobre desempenho e escalabilidade, e introduz você ao ecossistema mais amplo da análise de dados com Python.
ASSUNTOS ABORDADOS
Como trabalhar com DataFrames e Series e importar e exportar dados
Criação de plotagens com matplotlib, seaborn e Pandas
Combinação de conjuntos de dados e tratamento de dados ausentes
Reformatação, organização e limpeza de conjuntos de dados para que seja mais fácil trabalhar com eles
Conversão de tipos de dados e manipulação de strings de texto
Aplicação de funções para escalar as manipulações de dados
Agregação, transformação e filtragem de conjuntos de dados volumosos usando groupby
Como tirar proveito dos recursos avançados de data e hora do Pandas
Adequação de modelos lineares usando as bibliotecas statsmodels e scikit-learn
Uso de modelagem linear generalizada para adequação de modelos com diferentes variáveis de resposta
Comparação entre vários modelos para selecionar o “melhor”
Regularização para evitar a superadequação e melhorar o desempenho
Uso de clustering em aprendizado de máquina sem supervisão