Non ho particolari talenti, sono soltanto appassionatamente curioso.
(Albert Einstein)
L’essere umano, come essere senziente, si pone domande sull’ambiente in cui vive, subisce esperienze sia di sensazione che di percezione in maniera soggettiva, e traendone spunto raccoglie informazioni per adeguarsi alle circostanze. La figura dell’uomo di scienza, del sapiente in grado di studiare i fenomeni fisici traendone informazioni utili al progresso della comunità, è sempre stata una delle più importanti e rispettate, fin dagli albori della civiltà, ponendosi come punto di riferimento culturale ed intellettuale del cittadino comune.
Il progresso scientifico e la ricerca tecnologica, in particolare, hanno avuto come conseguenza l’evoluzione del ruolo del sapiente, determinando il passaggio da una figura versatile, legata a diversi ambiti della conoscenza umana, ad una maggiore settorializzazione del sapere focalizzata ad una conoscenza dettagliata di poche branche dello scibile. Un esempio classico di scienziato poliedrico fu Talete, il quale è passato agli annali per essere stato matematico, fisico, filosofo e astronomo, oppure Aristotele, il quale si occupò dalla gnoseologia al volo delle libellule. A partire dal XIX secolo, invece, a causa dell’aumento delle nozioni legate a singole aree tematiche, si è assistito ad una diminuzione del numero di individui capaci di eccellere in una serie di discipline diverse.
Data science, una scienza multidisciplinare
Esiste tuttavia qualche eccezione, dovuta alla nascita di nuovi rami della scienza multidisciplinari. Stiamo parlando di data science, disciplina nata negli ultimi cinquant’anni che riunisce metodi derivanti dalla fisica, dalla matematica, dalla statistica e dall’intelligenza artificiale per trarre informazioni da un qualsiasi set di dati che, da soli, non avrebbero significato.
Le tecniche derivanti dalla data science vengono utilizzate in una miriade di modi diversi per studiare una serie di fenomeni apparentemente slegati tra loro: dalla meteorologia, per la previsione del meteo, alla ristorazione, analizzando i feedback di milioni di turisti culinari, fino alla medicina, valutando il corredo genetico umano per combattere malattie come i tumori.
Nonostante le discipline precedentemente citate siano apparentemente lontane l’una dall’altra, la matrice per analizzarle è la stessa ed è basata sull’apprendimento automatico della macchina sfruttando una delle branche più importanti dell’intelligenza artificiale, il machine learning. Si tratta di un ramo della scienza in cui non vengono date istruzioni esplicite al computer, ma gli si insegna ad imparare traendo quante più informazioni possibili da un set di dati sui quali la macchina costruisce un metodo matematico.
Questo procedimento viene effettuato dividendo il dataset in due parti distinte, in gergo dette addestramento e valutazione, dal momento che l’algoritmo di output del modello deve essere più generale possibile, e non legato solamente al modello stesso preso in considerazione. La procedura più usuale è utilizzare il 70-80% dei dati per l’addestramento, cosicché possa essere generato un modello matematico per l’analisi dei dati la cui veridicità sarà suffragata o meno dalla restante parte delle informazioni, confrontando il risultato con i valori reali del fenomeno preso in considerazione.
La branca della data science che utilizza metodi derivanti dal machine learning si chiama data mining, e studia come determinare andamenti ben precisi in un grande set di dati prendendo in considerazione metodi di statistica, inferenziale e descrittiva, per ottenere informazioni fruibili allo studio.
Il data mining permette di prevedere fenomeni all’interno di un sistema complesso e con un numero di parametri molto elevato, dall’analisi di mercato di prodotti dolciari, valutando in base ai consumi di un flusso di clienti su quali prodotti incentrare maggiormente la produzione, alla valutazione degli infortuni di un giocatore. Esistono infatti aziende che lavorano per squadre di calcio di serie A specializzate nell’implementazione di algoritmi che prevedano, in base alle caratteristiche fisiche, all’utilizzo durante una stagione e altri parametri, la probabilità che un calciatore possa subire una fatalità, prevenendo un danno economico per la società proprietaria del suo cartellino.
Le categorie
Arrivati a questo punto occorre effettuare una divisione ben marcata fra le tre professioni più comuni nell’ambito della data science, ovvero il data analyst, il data engineer ed il data scientist.
- I data analyst analizzano i dati numerici ed utilizzano le competenze di statistica per creare dei modelli matematici per valutarli. Sono i responsabili dell’acquisizione, dello storage e dell’interpretazione dei dati per la compagnia presso la quale lavorano, ed hanno bisogno di conoscere linguaggi di programmazione come SQL, software di data visualization come Tableau, ed Excel. Lo stipendio è mediamente 59.000$ all’anno.
- I data engineer sono i responsabili dei database, ed il loro compito principale è quello di rendere i dati utilizzabili per i clienti. Quindi non sono richieste competenze specifiche legate al mondo matematico, quanto una conoscenza approfondita di linguaggi di programmazione sia di basso che di alto livello. Il data engineer è uno dei ruoli lavorativi emergenti su Linkedin, ed il suo stipendio medio si aggira sui 90.000$ all’anno.
- Quello del data scientist è il lavoro più completo, perché richiede competenze di machine learning e deep learning, conoscenza approfondita di algoritmi matematici, nonché soft skills di comunicazione, poiché si occupano del rapporto diretto fra la società e i clienti. Il data scientist è stato considerato come «lavoro più sexy al mondo» dal Harvard Business Review nel 2012, e porta ad un guadagno medio di 91.000$ all’anno (fonte per il valore degli stipendi: edureka!).
Le nuove frontiere dell’informatica hanno creato tantissime nuove opportunità di lavoro, accessibili a figure con competenze fra le più disparate, aprendo le frontiere a matematici, fisici, filosofi ed economisti, contribuendo così ad una continua interconnessione fra ruoli, storicamente proficua per il progresso umano.