Corise — Python para ciencia de datos
Proyecto 1 — Airbnb
Empecé a escribir código en Python para mi proyecto de la primera semana para Corise. Encontré el lenguaje increíblemente versátil y fácil de aprender mientras aplicaba diferentes funciones de Numpy. Descubrí que el uso de Numpy simplificó mi código y creó un producto final más conciso que me permitió dedicar más tiempo a los algoritmos. Trabajamos fuera del espacio de colaboración de Google para nuestro proyecto. Sin embargo, descubrí que usar una computadora en un espacio compartido a veces puede ser una distracción. Terminé cambiando todas mis configuraciones para compartir pantalla a privadas, lo que funcionó bien para mí, ya que me concentré más en obtener el código correcto que en lo que otras personas estaban haciendo. Antes de comenzar el proyecto, tenía muy poca experiencia en programación, por lo que estaba muy nervioso por crear un programa simple que usara Numpy.
Primeros pasos con Python y Numpy
Para comenzar con Numpy, descargamos un conjunto de datos de Airbnb para limpiar. El conjunto de datos consistió en información sobre la ubicación de las propiedades en alquiler que recopilaron los usuarios de Airbnb en Ámsterdam. Cuando descargué el conjunto de datos, no me sorprendió ver que era un archivo grande. Después de cargar el conjunto de datos, llegó el momento de limpiarlo. Queríamos deshacernos de los encabezados, pies de página, identificaciones duplicadas y otros elementos no deseados que dificultaban la lectura del archivo.
- Elimina la primera columna y fila.
- Imprime las primeras cuatro columnas.
- Desplace la matriz 90 grados usando la función 'matrix. función de transposición.
- Imprime las primeras 5 filas.
- Elimine la fila y la columna del encabezado e imprima las últimas 3 columnas.
Luego agregamos una declaración de 'impresión' para mostrar los resultados de cada uno de los pasos anteriores.
Conversión de moneda en Numpy
Ahora que hemos limpiado los datos, queríamos utilizar el código 'currency_converter' para convertirlo a la moneda de nuestra elección. Primero, importé la biblioteca usando 'from currency_converter import CurrencyConverter'. Después de completar esto, la moneda que decidí usar fue "GBP" y convertir la moneda de 'USD' a 'GBP'.
- El código utilizado fue el siguiente:
- gbp_rate = cc.convert(1, 'USD', 'GBP')
- print(gbp_rate) …… seguido de las instrucciones para multiplicar la columna del dólar por la moneda utilizada (es decir, GBP) para calcular la tasa).
- print(matriz[:, 1]) …… seguido de la instrucción de imprimir el valor de los dólares en la matriz.
- # Multiplique la columna del dólar por el porcentaje de inflación (1.00 + inflación)
- matriz[:, 1] = matriz[:, 1] * 1,07
- print(matriz[:, 1]) …… seguido de la instrucción de imprimir el valor de los dólares en la matriz después de haberlo multiplicado por el porcentaje de inflación.
Esta sección fue bastante simple y rápida. Creamos un bucle para calcular la distancia para la latitud y la longitud de nuestro conjunto de datos descargados. Esta sección fue bastante simple y rápida. Para esta parte del proyecto, creamos una función que podía recorrer cada elemento en el vector de longitud y latitud. La función creada se denominó “distancia” y tomó dos argumentos: latitud y longitud. Luego utilicé esta línea de código para recorrer los valores en cada columna en el conjunto de datos.
El código utilizado en la función timeit se muestra a continuación:
# Permitir que una función de Python se use de forma (semi-)vectorizada>> conv_to_meters = np.vectorize(from_location_to_airbnb_listing_in_meters)
# Aplicar la función, usar tiempo>>>> conv_to_meters(latitud, longitud, matriz[:, 2], matriz[:, 3])
Crear una aplicación en Streamlit e implementarla en GitHub
Usando la plataforma Streamlit, creamos una aplicación para nuestra cartera para mostrar el código anterior que representa los datos de Airbnb. Al hacerlo, pudimos crear un repositorio en GitHub que albergaba los datos sin procesar, la aplicación optimizada en la que se mostraban los datos y la página web que alberga toda la cartera de códigos. Desde aquí puedo tener la aplicación pública para que los usuarios visiten lo creado. Si eligieron contribuir, simplemente pueden bifurcar el proyecto en su propia cuenta de GitHub y desde allí enviar los cambios y actualizaciones que hayan realizado al repositorio o hacer los ajustes que deseen, siempre y cuando mantengan su cuenta original vinculada al repositorio original. .
Conclusión
En general, este proyecto me enseñó la base de Numpy mientras mostraba las infinitas posibilidades cuando se trata de manipular y analizar datos usando este programa y otro software de análisis de datos como R. Creo que saber cómo manipular y ver datos tal como son, es crítico para el éxito en cualquier campo de la ciencia. También creo que tener la capacidad de manipular los datos de fuentes tan variadas proporciona una mayor comprensión de cómo funciona el mundo. Esta semana comenzamos nuestro viaje hacia Pandas, que también me emociona mucho. Creo que estas herramientas nos ayudarán a poder estructurar nuestros datos de manera que podamos extraer información útil de ellos.
No dude en seguirme en Medium , Twitter , LinkedIn y Github . Publicaré más material durante mi viaje de datos aquí y en mis otras cuentas sociales.

![¿Qué es una lista vinculada, de todos modos? [Parte 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)



































