Felipe.Martins 24/05/2017
Neste livro você aprende a "reinventar a roda" que é usada para Data Science
O livro Data Science do Zero: Primeiras Regras com o Python de Joel Grus é uma introdução à Ciência de Dados (do inglês, Data Science), que é uma nova área de estudos que surgiu da combinação de outras áreas como álgebra linear, estatística, Big Data e Inteligência Artificial. Hoje em dia, quando precisamos de uma função de ordenação de arrays, chamamos um método sort de alguma biblioteca da sua linguagem de programação favorita. Enquanto isso, nos cursos de Ciência da Computação, estudamos como o sort pode ser implementado. Essa é a ideia do livro de Grus, você vai estudar como implementar as diferentes técnicas usadas em ciência de dados e não apenas chamar um método.
No primeiro capítulo, o autor pede que imaginemos estar numa companhia chamada Data Sciencester, que possui como principal produto uma rede social para cientistas de dados. Nesse cenário, você é um dos cientistas de dados recém-contratado pela companhia. Nos capítulos seguintes, o autor nos convida a desenvolver a ferramenta de ciência de dados para analisar os dados dessa rede social.
No segundo capítulo, o autor oferece uma breve revisão da linguagem Python em sua versão 2.7 (que segundo ele, é a versão mais adequada dessa linguagem para trabalhar com ciência de dados no momento em que o livro foi escrito, e parece que não mudou muito). Em seguida, o autor ensina como visualizar dados por meio da biblioteca matplotlib. Nos quatro capítulos seguintes, o autor também faz uma revisão de assuntos da matemática que servem de base para ciência de dados como Álgebra Linear, Estatística, Probabilidade e Testes de Hipóteses. A parte de Probabilidade, eu acho que poderia ter ficado mais clara em alguns pontos, mas se você domina essa parte da matemática, não será problema para você.
Embora todas as partes sejam importantes, o núcleo do livro é composto por técnicas de ciência de dados. Por exemplo, existem capítulos sobre: aprendizado de máquina, K-vizinhos mais próximos, naive Bayes, árvores de decisão, redes neurais, agrupamentos (clustering), processamento de linguagem natural, sistemas recomendadores, bancos de dados relacionais/não-relacionais e MapReduce. A abordagem usada para apresentar essas técnicas é “Construa você mesmo!” em que implementamos o algoritmo e vemos como cada parte da implementação funciona. Ou seja, este não é um livro do tipo “Use o comando XPTO para alcançar tal objetivo”.
site: https://iascblog.wordpress.com/2017/05/24/resenha-do-livro-data-science-do-zero/