Corise — Python para Ciência de Dados

Dec 12 2022
Projeto 1 — Airbnb Comecei a escrever código em Python para meu projeto da primeira semana para Corise. Achei a linguagem incrivelmente versátil e fácil de aprender ao aplicar diferentes funções Numpy.

Projeto 1 — Airbnb

Comecei a escrever código em Python para meu projeto da primeira semana para Corise. Achei a linguagem incrivelmente versátil e fácil de aprender ao aplicar diferentes funções Numpy. Descobri que usar o Numpy simplificou meu código e criou um produto final mais conciso que me permitiu gastar mais tempo com os algoritmos. Trabalhamos fora do espaço de colaboração do google para o nosso projeto. No entanto, descobri que usar um computador em um espaço compartilhado às vezes pode ser uma distração. Acabei mudando todas as minhas configurações de compartilhamento de tela para privado, o que funcionou bem para mim, pois me concentrei mais em acertar o código do que no que as outras pessoas estavam fazendo. Antes de iniciarmos o projeto, eu tinha muito pouca experiência em programação, então estava muito nervoso em criar um programa simples que usasse o Numpy.

Introdução ao Python e Numpy

Para começar com o Numpy, baixamos um conjunto de dados do Airbnb para limpar. O conjunto de dados consistia em informações sobre a localização de propriedades para alugar coletadas por usuários do Airbnb em Amsterdã. Quando baixei o conjunto de dados, não fiquei surpreso ao ver que era um arquivo grande. Depois que o conjunto de dados foi carregado, era hora de limpá-lo. Queríamos nos livrar dos cabeçalhos, rodapés, IDs duplicados e outros lixos que dificultavam a leitura do arquivo.

  • Remova a primeira coluna e linha.
  • Imprima as primeiras quatro colunas.
  • Desloque a matriz em 90 graus usando o 'matrix. função de transposição.
  • Imprima as primeiras 5 linhas.
  • Remova a linha e a coluna do cabeçalho e imprima as últimas 3 colunas.

Em seguida, adicionamos uma instrução 'print' para exibir os resultados de cada uma das etapas acima.

Conversão de moeda em Numpy

Agora que limpamos os dados, queríamos utilizar o código 'currency_converter' para convertê-lo na moeda de nossa escolha. Primeiro, importei a biblioteca usando 'fromcurse_converter import CurrencyConverter'. Depois que isso foi concluído, a moeda que decidi usar foi "GBP" e converter a moeda de 'USD' para 'GBP'.

  • O código utilizado foi o seguinte:
  • gbp_rate = cc.convert(1, 'USD', 'GBP')
  • print(gbp_rate) …… seguido pelas instruções para multiplicar a coluna do dólar pela moeda usada (ou seja: GBP) para calcular a taxa.)
  • print(matriz[:, 1]) …… seguido da instrução para imprimir o valor dos dólares na matriz.
  • # Multiplique a coluna do dólar pelo percentual de inflação (1,00 + inflação)
  • matriz[:, 1] = matriz[:, 1] * 1,07
  • print(matriz[:, 1]) …… seguido da instrução para imprimir o valor dos dólares na matriz após ter sido multiplicado pelo percentual de inflação.
  • Esta seção foi bastante simples e rápida. Criamos um loop para calcular a distância da latitude e longitude do nosso conjunto de dados baixado. Esta seção foi bastante simples e rápida. Para esta parte do projeto, criamos uma função capaz de percorrer cada elemento no vetor de longitude e latitude. A função criada recebeu o nome de “distance” e recebeu dois argumentos: latitude e longitude. Em seguida, utilizei essa linha de código para percorrer os valores em cada coluna do conjunto de dados.

    O código usado na função timeit é mostrado abaixo:

    # Permite que uma função Python seja usada de forma (semi-)vetorizada>> conv_to_meters = np.vectorize(from_location_to_airbnb_listing_in_meters)

    # Aplique a função, use time>>>> conv_to_meters(latitude, longitude, matrix[:, 2], matrix[:, 3])

    Criando um aplicativo no Streamlit e implantando-o no GitHub

    Usando a plataforma Streamlit, criamos um aplicativo para nosso portfólio para exibir o código acima representando os dados do Airbnb. Ao fazer isso, conseguimos criar um repositório no GitHub que abrigava os dados brutos, o aplicativo streamlit no qual os dados foram exibidos e a página da Web que hospeda todo o portfólio de códigos. A partir daqui, posso tornar o aplicativo público para que os usuários possam visitar o que foi criado. Se eles optarem por contribuir, eles podem simplesmente bifurcar o projeto em sua própria conta GitHub e, a partir daí, enviar quaisquer alterações e atualizações que tenham feito para o repositório ou fazer quaisquer ajustes que desejarem, desde que mantenham sua conta original vinculada ao repositório original. .

    Conclusão

    No geral, este projeto me ensinou os fundamentos do Numpy enquanto exibia as infinitas possibilidades quando se trata de manipular e analisar dados usando este programa e outro software de análise de dados como o R. Acredito que saber como manipular e visualizar os dados como eles são é crítico para o sucesso em qualquer campo da ciência. Também acredito que ter a capacidade de manipular os dados de fontes tão variadas proporciona uma maior compreensão de como o mundo funciona. Esta semana começamos nossa jornada em Pandas, que também estou muito animado. Acho que essas ferramentas nos ajudarão a estruturar nossos dados de forma que possamos extrair informações úteis deles.

    Sinta-se à vontade para me seguir no Medium , Twitter , LinkedIn e Github . Estarei postando mais material durante minha jornada de dados aqui e em minhas outras contas sociais.