Corise — Python per la scienza dei dati
Progetto 1 — Airbnb
Ho iniziato a scrivere codice in Python per il mio progetto della prima settimana per Corise. Ho trovato la lingua incredibilmente versatile e facile da imparare durante l'applicazione di diverse funzioni di Numpy. Ho scoperto che l'utilizzo di Numpy ha semplificato il mio codice e creato un prodotto finale più conciso che mi ha permesso di dedicare più tempo agli algoritmi. Abbiamo elaborato lo spazio di collaborazione di Google per il nostro progetto. Tuttavia, ho scoperto che l'utilizzo di un computer in uno spazio condiviso a volte può essere fonte di distrazione. Ho finito per impostare tutte le mie impostazioni di condivisione dello schermo su privato, il che ha funzionato bene per me poiché mi sono concentrato maggiormente sull'ottenere il codice giusto piuttosto che su ciò che stavano facendo gli altri. Prima di iniziare il progetto avevo pochissima esperienza di programmazione, quindi ero molto nervoso all'idea di creare un semplice programma che utilizzasse Numpy.
Iniziare con Python e Numpy
Per iniziare con Numpy, abbiamo scaricato un set di dati Airbnb da pulire. Il set di dati consisteva in informazioni sulla posizione delle proprietà in affitto raccolte dagli utenti di Airbnb ad Amsterdam. Quando ho scaricato il set di dati non sono stato sorpreso di vedere che si trattava di un file di grandi dimensioni. Dopo che il set di dati è stato caricato, era giunto il momento di ripulirlo. Volevamo sbarazzarci di intestazioni, piè di pagina, ID duplicati e altra spazzatura che rendeva difficile la lettura del file.
- Rimuovi la prima colonna e riga.
- Stampa le prime quattro colonne.
- Sposta la matrice di 90 gradi usando 'matrix. funzione di trasposizione.
- Stampa le prime 5 righe.
- Rimuovi la riga e la colonna di intestazione e stampa le ultime 3 colonne.
Abbiamo quindi aggiunto un'istruzione "print" per visualizzare i risultati per ciascuno dei passaggi precedenti.
Conversione valuta in Numpy
Ora che abbiamo ripulito i dati, volevamo utilizzare il codice "currency_converter" per convertirli nella valuta di nostra scelta. Innanzitutto, ho importato la libreria utilizzando "from currency_converter import CurrencyConverter". Dopo che questo è stato completato, la valuta che ho deciso di utilizzare era "GBP" e convertire la valuta da "USD" a "GBP".
- Il codice utilizzato è stato il seguente:
- gbp_rate = cc.convert(1, 'USD', 'GBP')
- print(gbp_rate) …… seguito dalle istruzioni per moltiplicare la colonna del dollaro per la valuta utilizzata (es: GBP) per calcolare il tasso.)
- print(matrice[:, 1]) …… seguito dall'istruzione per stampare il valore dei dollari nella matrice.
- # Moltiplica la colonna del dollaro per la percentuale di inflazione (1,00 + inflazione)
- matrice[:, 1] = matrice[:, 1] * 1.07
- print(matrice[:, 1]) …… seguito dall'istruzione di stampare il valore dei dollari nella matrice dopo che è stato moltiplicato per la percentuale di inflazione.
Questa sezione è stata abbastanza semplice e veloce. Abbiamo creato un ciclo per calcolare la distanza per la latitudine e la longitudine dal nostro set di dati scaricato. Questa sezione è stata abbastanza semplice e veloce. Per questa parte del progetto abbiamo creato una funzione in grado di scorrere ogni elemento nel vettore di longitudine e latitudine. La funzione creata è stata denominata "distanza" e ha preso due argomenti: latitudine e longitudine. Ho quindi utilizzato questa riga di codice per scorrere i valori in ciascuna colonna del set di dati.
Il codice utilizzato nella funzione timeit è mostrato di seguito:
# Consenti a una funzione Python di essere utilizzata in modo (semi-)vettoriale>> conv_to_meters = np.vectorize(from_location_to_airbnb_listing_in_meters)
# Applica la funzione, usa time>>>> conv_to_meters(latitudine, longitudine, matrice[:, 2], matrice[:, 3])
Creare un'app in Streamlit e distribuirla su GitHub
Utilizzando la piattaforma Streamlit, abbiamo creato un'app per il nostro portfolio per visualizzare il codice sopra che rappresenta i dati di Airbnb. In tal modo, siamo stati in grado di creare un repository su GitHub che ospitava i dati grezzi, l'applicazione semplificata in cui i dati sono stati visualizzati e la pagina Web che ospita l'intero portafoglio di codici. Da qui sono in grado di rendere pubblica l'applicazione in modo che gli utenti possano visitare ciò che è stato creato. Se scelgono di contribuire, possono semplicemente eseguire il fork del progetto sul proprio account GitHub e da lì inviare eventuali modifiche e aggiornamenti apportati al repository o apportare modifiche a loro piacimento purché mantengano il loro account originale collegato al repository originale .
Conclusione
Nel complesso, questo progetto mi ha insegnato le basi di Numpy mentre mostrava le infinite possibilità quando si tratta di manipolare e analizzare i dati utilizzando questo programma e altri software di analisi dei dati come R. Credo che sapere come manipolare e visualizzare i dati così come sono, sia fondamentale per il successo in qualsiasi campo scientifico. Credo anche che avere la capacità di manipolare i dati da fonti così diverse fornisca una maggiore comprensione di come funziona il mondo. Questa settimana iniziamo il nostro viaggio nei Panda di cui sono anche molto entusiasta. Penso che questi strumenti ci aiuteranno a strutturare i nostri dati in modo da poterne estrarre informazioni utili.
Sentiti libero di seguirmi su Medium , Twitter , LinkedIn e Github . Pubblicherò più materiale durante il mio viaggio con i dati qui e sugli altri miei account social.

![Che cos'è un elenco collegato, comunque? [Parte 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)



































