Cosa studiare se ci si vuole avvicinare all’analisi di enormi moli di dati con Python?
Questo il quesito che mi è stato posto da un caro amico, e che mi impegno qui a cercare di rispondere, con le mie limitazioni tecniche, infatti uso Python principalmente per far girare modelli di AI, e non ho necessità del cosìdetto “BIG DATA” nella mia professione abituale.
Python è un linguaggio molto conciso e si impara molto facilmente, qualsiasi strumento usi per impararlo, sia esso un libro, un corso Udemy o siti web. Gioca col linguaggio il più possibile, anche facendoci cose stupide, l’uso fa la conoscenza.
Per il big data, non possiamo ritenere il solo linguaggio sufficiente. Python è adatto per via della sua gestione comoda delle librerie matematiche, per la sua sinteticità e per la comodità con cui permette di gestire strutture dati eterogenee e multidimensionali, ma il big data pretende anche strutture informatiche ad hoc.
Serve un sistema per gestire file molto grandi ad esempio, e servono strutture atte a mappare e ridurre questi file giganteschi.
Questi problemi sono stati affrontati con successo da Apache Hadoop e dal suo file system dedicato HDFS.
Python si interfaccia straordinariamente con esso tramite la libreria Pydoop.
Essere uno sviluppatore non basta: occorre studiare un po’ di matematica adatta allo scopo: Matematics and Big Data può dare le basi minime necessarie. Lo studio poi è piuttosto impegnativo e lungo, dovrai approfondire e non sarai mai arrivato alla fine.
La strada da percorrere è molto complessa, irta di ostacoli e tutt’altro che facile, amico mio ti preavviso che essere produttivo sarà tutt’altro che immediato, che sarà frustrante, che ti verrà più volte voglia di rinunciare.
Gli step che ti consiglio sono i seguenti:
- Inizia su due fronti: studia la matematica necessaria, approfondisci in python ogni aspetto con semplici programmi didattici scritti da te. Approfondirai così contemporaneamente python e la matematica che ti serve, imparerai ad usare la matematica in modo pratico nel codice .
- Solo quando ti sentirai davvero forte sul punto precedente, studia come funziona e come si installa hadoop, inizia a giocarci con pydoop, fai cose molto semplici: nonostante la semplicità teorica di libreria e linguaggio sarà un letto di spine.
- Appena hai comprensione degli strumenti, trova delle applicazioni pratiche e buttatici sopra. Costerà sangue, dolore e rinunce, notti perse e maledizioni di ogni genere. Sarai spesso tentato di lasciar perdere, non farlo.
- Una volta risolti dei problemi reali sarai pronto a confrontarti nel mondo del lavoro con il big data. Sarai molto junior ovviamente e sarà tutto molto difficile all’inizio. Se non hai una strada delineata per lavorare nel settore, usa il tuo caso studio per presentarti.
Buono studio e buona fortuna! Spero di esserti stato utile e di non averti scoraggiato troppo.