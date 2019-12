Una delle professioni più emergenti nel campo tecnologico è quella del Data Scientist. Ovvero il professionista che è in grado di aggregare e analizzare la grande mole di informazioni di cui oggi una azienda dispone in modo da poterle usare nell’ambito decisionale.

E il linguaggio di programmazione Python è molto utilizzato come strumento software per questa analisi.

Un testo, scritto da specialisti, mostra diversi tool e tecniche per gestire i dati provenienti da varie fonti e database allo scopo di renderli fruibili per successive analisi statistiche e computazionali.

I capitoli sono brevi, centrati su ogni singola tecnica operativa e sempre conclusi con esercizi e codici di esempio.

Oltre a Python vengono quindi descritti una serie di tool e strumenti specifici, perlopiù open source, che supportano il lavoro di sviluppo del software.

Leggendo il libro imparerete a utilizzare Python per leggere e trasformare i dati in diversi formati; utilizzare strumenti avanzati come Jupiter, Spark, Parquet, Pandas e Hadoop; generare statistiche e metriche di base utilizzando i dati su disco; svolgere elaborazioni distribuite su cluster; convertire dati da varie fonti in formati di archiviazione o query; preparare i dati per analisi statistiche, visualizzazioni e machine learning; presentare i dati sotto forma di grafici efficaci.

Chi sono gli autori

Ivan Marin è un architetto di sistemi e data scientist che lavora presso Daitan Group. Progetta sistemi di Big Data e implementa canali di machine learning utilizzando Python e Spark. Ha tenuto corsi di Python per data science a livello universitario.

Ankit Shukla è un data scientist che collabora con World Wide Technology, fornitore di soluzio-ni tecnologiche, dove sviluppa e implementa soluzioni basate sul machine learning e sull’intelli-genza artificiale in ambito aziendale.

Sarang VK è uno dei principali data scientist presso StraitsBridge Advisors; si occupa di sviluppo di soluzioni analitiche per il machine learning scalabile e di intelligenza artificiale che utilizzano tecnologie open source.