Corise – Python für Data Science

Dec 12 2022
Projekt 1 – Airbnb Ich habe angefangen, Code in Python für mein Projekt der ersten Woche für Corise zu schreiben. Ich fand die Sprache unglaublich vielseitig und einfach zu lernen, während ich verschiedene Numpy-Funktionen anwendete.

Projekt 1 – Airbnb

Ich habe angefangen, Code in Python für mein Projekt der ersten Woche für Corise zu schreiben. Ich fand die Sprache unglaublich vielseitig und einfach zu lernen, während ich verschiedene Numpy-Funktionen anwendete. Ich stellte fest, dass die Verwendung von Numpy meinen Code rationalisierte und ein prägnanteres Endprodukt erstellte, das es mir ermöglichte, mehr Zeit mit den Algorithmen zu verbringen. Wir haben für unser Projekt aus dem Collaboration Space von Google herausgearbeitet. Ich habe jedoch festgestellt, dass die Verwendung eines Computers in einem gemeinsam genutzten Raum manchmal ablenkend sein kann. Am Ende habe ich alle meine Bildschirmfreigabeeinstellungen auf privat umgestellt, was für mich gut funktioniert hat, da ich mich mehr darauf konzentriert habe, den Code richtig zu machen, als darauf, was andere Leute tun. Bevor wir mit dem Projekt begannen, hatte ich sehr wenig Programmiererfahrung, daher war ich sehr nervös, ein einfaches Programm zu erstellen, das Numpy verwendet.

Erste Schritte mit Python und Numpy

Um mit Numpy zu beginnen, haben wir einen Airbnb-Datensatz zum Bereinigen heruntergeladen. Der Datensatz bestand aus Informationen über den Standort von Mietobjekten, die von Airbnb-Nutzern in Amsterdam gesammelt wurden. Als ich den Datensatz herunterlud, war ich nicht überrascht, dass es sich um eine große Datei handelte. Nachdem der Datensatz hochgeladen war, war es Zeit, ihn zu bereinigen. Wir wollten Kopf- und Fußzeilen, doppelte IDs und anderen Müll entfernen, der die Lesbarkeit der Datei erschwerte.

  • Entfernen Sie die erste Spalte und Zeile.
  • Drucken Sie die ersten vier Spalten aus.
  • Verschieben Sie die Matrix um 90 Grad mit der 'matrix. Transpose'-Funktion.
  • Drucken Sie die ersten 5 Zeilen aus.
  • Entfernen Sie die Kopfzeile und -spalte und drucken Sie die letzten 3 Spalten.

Wir haben dann eine 'print'-Anweisung hinzugefügt, um die Ergebnisse für jeden der obigen Schritte anzuzeigen.

Währungsumrechnung in Numpy

Nachdem wir die Daten nun bereinigt haben, wollten wir den Code „currency_converter“ verwenden, um sie in die Währung unserer Wahl umzurechnen. Zuerst habe ich die Bibliothek mit 'from currency_converter import CurrencyConverter' importiert. Nachdem dies abgeschlossen war, entschied ich mich für die Währung „GBP“ und konvertierte die Währung von „USD“ in „GBP“.

  • Der verwendete Code war folgender:
  • gbp_rate = cc.convert(1, 'USD', 'GBP')
  • print(gbp_rate) …… gefolgt von den Anweisungen zum Multiplizieren der Dollar-Spalte mit der verwendeten Währung (z. B. GBP), um den Kurs zu berechnen.)
  • print(matrix[:, 1]) …… gefolgt von der Anweisung, den Wert der Dollars in der Matrix auszudrucken.
  • # Multiplizieren Sie die Dollar-Spalte mit dem Inflationsprozentsatz (1,00 + Inflation)
  • Matrix[:, 1] = Matrix[:, 1] * 1,07
  • print(matrix[:, 1]) …… gefolgt von der Anweisung, den Wert der Dollars in der Matrix zu drucken, nachdem er mit dem Inflationsprozentsatz multipliziert wurde.
  • Dieser Abschnitt war ziemlich einfach und schnell. Wir haben eine Schleife erstellt, um die Entfernung für den Breiten- und Längengrad aus unserem heruntergeladenen Datensatz zu berechnen. Dieser Abschnitt war ziemlich einfach und schnell. Für diesen Teil des Projekts haben wir eine Funktion erstellt, die jedes Element im Längen- und Breitengradvektor durchlaufen konnte. Die erstellte Funktion hieß „Distanz“ und nahm zwei Argumente an: Breitengrad und Längengrad. Ich habe dann diese Codezeile verwendet, um die Werte in jeder Spalte im Datensatz zu durchlaufen.

    Der in der timeit-Funktion verwendete Code ist unten dargestellt:

    # Verwendung einer Python-Funktion auf (semi-)vektorisierte Weise erlauben>> conv_to_meters = np.vectorize(from_location_to_airbnb_listing_in_meters)

    # Funktion anwenden, time>>>> conv_to_meters(latitude, longitude, matrix[:, 2], matrix[:, 3]) verwenden

    Erstellen einer App in Streamlit und Bereitstellen auf GitHub

    Mithilfe der Streamlit-Plattform haben wir eine App für unser Portfolio erstellt, um den obigen Code anzuzeigen, der die Airbnb-Daten darstellt. Auf diese Weise konnten wir ein Repository auf GitHub erstellen, das die Rohdaten, die Streamlit-Anwendung, in der die Daten angezeigt wurden, und die Webseite mit dem gesamten Code-Portfolio enthielt. Von hier aus kann ich die Anwendung öffentlich machen, damit Benutzer das, was erstellt wurde, besuchen können. Wenn sie sich dafür entscheiden, einen Beitrag zu leisten, können sie das Projekt einfach auf ihr eigenes GitHub-Konto verzweigen und von dort alle Änderungen und Aktualisierungen, die sie vorgenommen haben, in das Repository übertragen oder beliebige Anpassungen vornehmen, solange sie ihr ursprüngliches Konto mit dem ursprünglichen Repository verknüpft halten .

    Fazit

    Insgesamt hat mir dieses Projekt die Grundlagen von Numpy beigebracht und gleichzeitig die endlosen Möglichkeiten aufgezeigt, wenn es darum geht, Daten mit diesem Programm und anderer Datenanalysesoftware wie R zu manipulieren und zu analysieren entscheidend für den Erfolg in jedem Wissenschaftsbereich. Ich glaube auch, dass die Möglichkeit, Daten aus so unterschiedlichen Quellen zu manipulieren, ein besseres Verständnis dafür bietet, wie die Welt funktioniert. Diese Woche beginnen wir unsere Reise in die Pandas, auf die ich mich auch sehr freue. Ich denke, diese Tools werden uns helfen, unsere Daten so zu strukturieren, dass wir daraus nützliche Informationen extrahieren können.

    Fühlen Sie sich frei , mir auf Medium , Twitter , LinkedIn und Github zu folgen . Ich werde während meiner Datenreise hier und auf meinen anderen sozialen Konten weiteres Material veröffentlichen.