Corise — Python untuk Ilmu Data

Dec 12 2022
Proyek 1 — Airbnb Saya mulai menulis kode dengan Python untuk proyek satu minggu saya untuk Corise. Saya menemukan bahasanya sangat serbaguna dan mudah dipelajari sambil menerapkan fungsi Numpy yang berbeda.

Proyek 1 — Airbnb

Saya mulai menulis kode dengan Python untuk proyek satu minggu saya untuk Corise. Saya menemukan bahasanya sangat serbaguna dan mudah dipelajari sambil menerapkan fungsi Numpy yang berbeda. Saya menemukan bahwa menggunakan Numpy merampingkan kode saya dan membuat produk akhir yang lebih ringkas yang memungkinkan saya menghabiskan lebih banyak waktu pada algoritme. Kami mengerjakan ruang kolaborasi oleh google untuk proyek kami. Namun, saya menemukan bahwa menggunakan komputer di ruang bersama terkadang dapat mengganggu. Saya akhirnya mengalihkan semua pengaturan berbagi layar saya ke pribadi yang bekerja dengan baik untuk saya karena saya lebih fokus untuk mendapatkan kode yang benar daripada apa yang dilakukan orang lain. Sebelum kami memulai proyek, saya memiliki sedikit pengalaman pemrograman jadi saya sangat gugup membuat program sederhana yang menggunakan Numpy.

Memulai dengan Python dan Numpy

Untuk memulai dengan Numpy, kami mengunduh kumpulan data Airbnb untuk dibersihkan. Kumpulan data terdiri dari informasi tentang lokasi properti yang disewakan yang dikumpulkan oleh pengguna Airbnb di Amsterdam. Ketika saya mengunduh kumpulan data, saya tidak terkejut melihat bahwa itu adalah file yang besar. Setelah kumpulan data diunggah, saatnya untuk membersihkannya. Kami ingin membuang header, footer, ID duplikat, dan sampah lain yang membuat file sulit dibaca.

  • Hapus kolom dan baris pertama.
  • Cetak empat kolom pertama.
  • Geser matriks sebesar 90 derajat menggunakan 'matrix. fungsi transpose.
  • Cetak 5 baris pertama.
  • Hapus baris dan kolom tajuk dan cetak 3 kolom terakhir.

Kami kemudian menambahkan pernyataan ' print' untuk menampilkan hasil dari setiap langkah di atas.

Konversi Mata Uang di Numpy

Sekarang setelah kami membersihkan data, kami ingin menggunakan kode 'currency_converter' untuk mengubahnya menjadi mata uang pilihan kami. Pertama, saya mengimpor perpustakaan menggunakan 'from currency_converter import CurrencyConverter'. Setelah ini selesai, mata uang yang saya putuskan untuk digunakan adalah “GBP' dan mengkonversi mata uang dari 'USD' ke 'GBP'.

  • Kode yang digunakan adalah sebagai berikut:
  • gbp_rate = cc.convert(1, 'USD', 'GBP')
  • print(gbp_rate) …… diikuti dengan instruksi untuk mengalikan kolom dolar dengan mata uang yang digunakan ( yaitu: GBP) untuk menghitung kurs.)
  • print(matrix[:, 1]) …… diikuti dengan instruksi untuk mencetak nilai dolar pada matriks.
  • # Kalikan kolom dolar dengan persentase inflasi (1,00 + inflasi)
  • matriks[:, 1] = matriks[:, 1] * 1,07
  • print(matrix[:, 1]) …… diikuti dengan instruksi untuk mencetak nilai dolar dalam matriks setelah dikalikan dengan persentase inflasi.
  • Bagian ini cukup sederhana dan cepat. Kami membuat lingkaran untuk menghitung jarak lintang dan bujur dari kumpulan data yang kami unduh. Bagian ini cukup sederhana dan cepat. Untuk bagian proyek ini, kami membuat fungsi yang dapat mengulang setiap elemen dalam vektor bujur dan lintang. Fungsi yang dibuat diberi nama "jarak" dan mengambil dua argumen: lintang dan bujur. Saya kemudian menggunakan baris kode ini untuk mengulangi nilai-nilai di setiap kolom dalam kumpulan data.

    Kode yang digunakan dalam fungsi timeit ditunjukkan di bawah ini:

    # Izinkan fungsi Python untuk digunakan dengan cara (semi-)vektor >> conv_to_meters = np.vectorize(from_location_to_airbnb_listing_in_meters)

    # Terapkan fungsi, gunakan waktu>>>> conv_to_meters(latitude, longitude, matrix[:, 2], matrix[:, 3])

    Membuat aplikasi di Streamlit dan menerapkannya di GitHub

    Dengan menggunakan platform Streamlit, kami membuat aplikasi untuk portofolio kami guna menampilkan kode di atas yang mewakili Data Airbnb. Dengan melakukan itu, kami dapat membuat repositori di GitHub yang menampung data mentah, aplikasi streamlit tempat data ditampilkan, dan halaman web yang menampung seluruh portofolio kode. Dari sini saya dapat membuat aplikasinya menjadi publik sehingga pengguna dapat mengunjungi apa yang telah dibuat. Jika mereka memilih untuk berkontribusi, mereka dapat dengan mudah mentransfer proyek ke akun GitHub mereka sendiri dan dari sana mendorong perubahan dan pembaruan apa pun yang telah mereka buat ke repositori atau melakukan penyesuaian apa pun sesuka mereka selama mereka mempertahankan akun asli mereka ditautkan ke repositori asli .

    Kesimpulan

    Secara keseluruhan, proyek ini mengajari saya dasar Numpy sambil menampilkan kemungkinan tak terbatas dalam hal memanipulasi dan menganalisis data menggunakan program ini dan perangkat lunak analisis data lainnya seperti R. Saya percaya bahwa mengetahui cara memanipulasi dan melihat data sebagaimana adanya, adalah penting untuk sukses dalam bidang sains apa pun. Saya juga percaya bahwa memiliki kemampuan untuk memanipulasi data dari berbagai sumber memberikan pemahaman yang lebih besar tentang bagaimana dunia bekerja. Minggu ini kita memulai perjalanan kita ke Panda yang juga sangat saya sukai. Saya pikir alat ini akan membantu kita untuk dapat menyusun data kita sedemikian rupa sehingga kita dapat mengekstrak informasi yang berguna darinya.

    Jangan ragu untuk mengikuti saya di Medium , Twitter , LinkedIn , dan Github . Saya akan memposting lebih banyak materi selama perjalanan data saya di sini dan di akun sosial saya yang lain.