Corise — Python dla Data Science

Dec 12 2022
Projekt 1 — Airbnb Zacząłem pisać kod w Pythonie do mojego tygodniowego projektu dla Corise. Uważam, że język jest niezwykle wszechstronny i łatwy do nauczenia się, stosując różne funkcje Numpy.

Projekt 1 — Airbnb

Zacząłem pisać kod w Pythonie dla mojego tygodniowego projektu dla Corise. Uważam, że język jest niezwykle wszechstronny i łatwy do nauczenia się, stosując różne funkcje Numpy. Odkryłem, że użycie Numpy usprawniło mój kod i stworzyło bardziej zwięzły produkt końcowy, który pozwolił mi poświęcić więcej czasu na algorytmy. Opracowaliśmy przestrzeń współpracy przez Google dla naszego projektu. Zauważyłem jednak, że korzystanie z komputera we wspólnej przestrzeni może czasem rozpraszać. Skończyło się na tym, że zmieniłem wszystkie moje ustawienia udostępniania ekranu na prywatne, co działało dobrze dla mnie, ponieważ skupiłem się bardziej na poprawieniu kodu niż na tym, co robią inni ludzie. Zanim rozpoczęliśmy projekt, miałem bardzo małe doświadczenie w programowaniu, więc bardzo denerwowałem się tworzeniem prostego programu, który używałby Numpy.

Pierwsze kroki z Pythonem i Numpy

Aby rozpocząć korzystanie z Numpy, pobraliśmy zestaw danych Airbnb do wyczyszczenia. Zbiór danych składał się z informacji o lokalizacji nieruchomości do wynajęcia, które zostały zebrane przez użytkowników Airbnb w Amsterdamie. Kiedy pobrałem zestaw danych, nie zdziwiłem się, widząc, że był to duży plik. Po przesłaniu zestawu danych przyszedł czas na jego uporządkowanie. Chcieliśmy pozbyć się nagłówków, stopek, zduplikowanych identyfikatorów i innych śmieci, które utrudniały odczytanie pliku.

  • Usuń pierwszą kolumnę i wiersz.
  • Wydrukuj pierwsze cztery kolumny.
  • Przesuń macierz o 90 stopni za pomocą funkcji „matrix. funkcja transpozycji.
  • Wydrukuj pierwsze 5 rzędów.
  • Usuń wiersz i kolumnę nagłówka i wydrukuj ostatnie 3 kolumny.

Następnie dodaliśmy instrukcję „print”, aby wyświetlić wyniki dla każdego z powyższych kroków.

Przeliczanie walut w Numpy

Teraz, gdy wyczyściliśmy dane, chcieliśmy użyć kodu „currency_converter”, aby przekonwertować je na wybraną przez nas walutę. Najpierw zaimportowałem bibliotekę za pomocą „ from currency_converter import CurrencyConverter”. Po zakończeniu tego procesu walutą, którą zdecydowałem się użyć, było „GBP” i przeliczenie waluty z „USD” na „GBP”.

  • Użyty kod był następujący:
  • gbp_rate = cc.convert(1, 'USD', 'GBP')
  • print(gbp_rate) …… po której następuje instrukcja pomnożenia kolumny dolarów przez używaną walutę (tj.: GBP) w celu obliczenia kursu.)
  • print(macierz[:, 1]) …… po której następuje instrukcja drukowania wartości dolarów w macierzy.
  • # Pomnóż kolumnę dolara przez procent inflacji (1,00 + inflacja)
  • macierz[:,1] = macierz[:,1] * 1,07
  • print(macierz[:, 1]) …… po której następuje instrukcja drukowania wartości dolara w macierzy po przemnożeniu jej przez procent inflacji.
  • Ta sekcja była dość prosta i szybka. Stworzyliśmy pętlę, aby obliczyć odległość dla szerokości i długości geograficznej z naszego pobranego zestawu danych. Ta sekcja była dość prosta i szybka. W tej części projektu stworzyliśmy funkcję, która była w stanie przechodzić przez każdy element wektora długości i szerokości geograficznej. Utworzona funkcja nosiła nazwę „odległość” i przyjmowała dwa argumenty: szerokość i długość geograficzną. Następnie wykorzystałem ten wiersz kodu, aby przejść przez wartości w każdej kolumnie w zbiorze danych.

    Kod użyty w funkcji timeit pokazano poniżej:

    # Zezwalaj na używanie funkcji Pythona w (częściowo)wektoryzowany sposób>> conv_to_meters = np.vectorize(from_location_to_airbnb_listing_in_meters)

    # Zastosuj funkcję, użyj czasu>>>> conv_to_meters(szerokość geograficzna, długość geograficzna, macierz[:, 2], macierz[:, 3])

    Tworzenie aplikacji w Streamlit i wdrażanie jej na GitHub

    Wykorzystując platformę Streamlit stworzyliśmy aplikację do naszego portfolio, która wyświetla powyższy kod reprezentujący Dane Airbnb. W ten sposób udało nam się stworzyć repozytorium na GitHub, które zawierało surowe dane, usprawnioną aplikację, w której dane były wyświetlane, oraz stronę internetową zawierającą całe portfolio kodu. Stąd mogę upublicznić aplikację, aby użytkownicy mogli odwiedzać to, co zostało utworzone. Jeśli zdecydują się wnieść swój wkład, mogą po prostu rozwidlić projekt na swoim własnym koncie GitHub i stamtąd przesłać wszelkie zmiany i aktualizacje, które wprowadzili do repozytorium lub wprowadzić dowolne poprawki, o ile chcą, o ile utrzymują swoje oryginalne konto połączone z oryginalnym repozytorium .

    Wniosek

    Ogólnie rzecz biorąc, ten projekt nauczył mnie podstaw Numpy, jednocześnie pokazując nieskończone możliwości manipulowania i analizowania danych za pomocą tego programu i innego oprogramowania do analizy danych, takiego jak R. Wierzę, że wiedza, jak manipulować i przeglądać dane takimi, jakie są, jest kluczem do sukcesu w dowolnej dziedzinie nauki. Wierzę również, że możliwość manipulowania danymi z tak różnych źródeł zapewnia lepsze zrozumienie tego, jak działa świat. W tym tygodniu zaczynamy naszą podróż do Pand, z której również jestem bardzo podekscytowany. Myślę, że te narzędzia pomogą nam ustrukturyzować nasze dane w taki sposób, że będziemy mogli wydobyć z nich przydatne informacje.

    Zapraszam do śledzenia mnie na Medium , Twitterze , LinkedIn i Githubie . Będę publikować więcej materiałów podczas mojej podróży po danych tutaj i na innych moich kontach społecznościowych.