Corise — 데이터 과학용 Python

Dec 12 2022

프로젝트 1 — Airbnb 저는 Corise를 위한 프로젝트 1주차에 Python으로 코드를 작성하기 시작했습니다. 다른 Numpy 기능을 적용하면서 언어가 놀랍도록 다재다능하고 배우기 쉽다는 것을 알았습니다.

프로젝트 1 — 에어비앤비

저는 Corise를 위한 1주차 프로젝트를 위해 Python으로 코드를 작성하기 시작했습니다. 다른 Numpy 기능을 적용하면서 언어가 놀랍도록 다재다능하고 배우기 쉽다는 것을 알았습니다. Numpy를 사용하면 코드가 간소화되고 알고리즘에 더 많은 시간을 할애할 수 있는 보다 간결한 최종 제품을 만들 수 있다는 것을 알게 되었습니다. 우리는 프로젝트를 위해 Google의 협업 공간에서 작업했습니다. 그러나 공유 공간에서 컴퓨터를 사용하는 것이 때때로 주의를 산만하게 할 수 있다는 것을 알게 되었습니다. 다른 사람들이 무엇을 하고 있는지보다 코드를 올바르게 만드는 데 더 집중했기 때문에 결국 모든 화면 공유 설정을 비공개로 전환했습니다. 프로젝트를 시작하기 전에는 프로그래밍 경험이 거의 없었기 때문에 Numpy를 사용하는 간단한 프로그램을 만드는 것이 매우 긴장되었습니다.

Python 및 Numpy 시작하기

Numpy를 시작하기 위해 정리할 Airbnb 데이터 세트를 다운로드했습니다. 데이터 세트는 암스테르담의 에어비앤비 사용자가 수집한 임대용 부동산 위치에 대한 정보로 구성되었습니다. 데이터 세트를 다운로드했을 때 큰 파일이라는 사실에 놀라지 않았습니다. 데이터 세트를 업로드한 후 정리할 시간이었습니다. 파일을 읽기 어렵게 만드는 머리글, 바닥글, 중복 ID 및 기타 정크를 제거하고 싶었습니다.

첫 번째 열과 행을 제거합니다.
처음 네 열을 인쇄하십시오.
'행렬'을 사용하여 행렬을 90도 이동합니다. 트랜스포즈' 기능.
처음 5행을 출력합니다.
머리글 행과 열을 제거하고 마지막 3개 열을 인쇄합니다.

그런 다음 위의 각 단계에 대한 결과를 표시하는 'print' 문을 추가했습니다.

Numpy의 통화 변환

이제 데이터를 정리했으므로 'currency_converter' 코드를 사용하여 선택한 통화로 변환하려고 했습니다. 먼저 'from currency_converter import CurrencyConverter'를 사용하여 라이브러리를 가져왔습니다. 이 작업이 완료된 후 사용하기로 결정한 통화는 "GBP"였으며 통화를 'USD'에서 'GBP'로 변환했습니다.

사용된 코드는 다음과 같습니다.
gbp_rate = cc.convert(1, 'USD', 'GBP')
print(gbp_rate) … 환율을 계산하기 위해 달러 열에 사용된 통화(예: GBP)를 곱하라는 지침이 뒤따릅니다.)
print(matrix[:, 1]) ……행렬에 달러 값을 인쇄하라는 명령이 뒤따릅니다.
# 달러 열에 인플레이션 비율을 곱합니다(1.00 + 인플레이션).
행렬[:, 1] = 행렬[:, 1] * 1.07
print(matrix[:, 1]) … 인플레이션 비율을 곱한 후 행렬의 달러 값을 인쇄하라는 명령이 이어집니다.

이 섹션은 상당히 간단하고 빠릅니다. 다운로드한 데이터 세트에서 위도와 경도의 거리를 계산하기 위해 루프를 만들었습니다. 이 섹션은 상당히 간단하고 빠릅니다. 프로젝트의 이 부분에서는 경도 및 위도 벡터의 각 요소를 반복할 수 있는 함수를 만들었습니다. 생성된 함수의 이름은 "distance"였으며 위도와 경도라는 두 가지 인수를 사용했습니다. 그런 다음 데이터 세트의 각 열에 있는 값을 반복하기 위해 이 코드 줄을 활용했습니다.

timeit 함수에 사용된 코드는 다음과 같습니다.

# 파이썬 함수가 (반)벡터화 방식으로 사용되도록 허용>> conv_to_meters = np.vectorize(from_location_to_airbnb_listing_in_meters)

# 함수 적용, time>>>> conv_to_meters(latitude, longitude, matrix[:, 2], matrix[:, 3]) 사용

Streamlit에서 앱 만들기 및 GitHub에 배포하기

Streamlit 플랫폼을 사용하여 에어비앤비 데이터 를 나타내는 위의 코드를 표시하는 포트폴리오용 앱을 만들었습니다 . 그렇게 함으로써 우리는 원시 데이터, 데이터가 표시되는 능률적인 애플리케이션, 전체 코드 포트폴리오를 수용하는 웹페이지를 보관하는 GitHub에 리포지토리를 만들 수 있었습니다. 여기에서 사용자가 생성된 항목을 방문할 수 있도록 응용 프로그램을 공개할 수 있습니다. 기여하기로 선택한 경우 프로젝트를 자신의 GitHub 계정으로 포크하고 거기에서 변경 사항 및 업데이트를 저장소에 푸시하거나 원래 저장소에 연결된 원래 계정을 유지하는 한 원하는 대로 조정할 수 있습니다. .

결론

전반적으로 이 프로젝트는 Numpy의 기초를 배우면서 이 프로그램과 R과 같은 다른 데이터 분석 소프트웨어를 사용하여 데이터를 조작하고 분석할 수 있는 무한한 가능성을 보여주었습니다. 데이터를 있는 그대로 조작하고 보는 방법을 아는 것은 모든 과학 분야에서 성공하는 데 중요합니다. 또한 이렇게 다양한 출처의 데이터를 조작할 수 있는 능력이 있으면 세상이 어떻게 돌아가는지 더 잘 이해할 수 있다고 믿습니다. 이번 주에 우리는 Pandas로의 여정을 시작하는데 저 역시 매우 기대하고 있습니다. 이러한 도구는 데이터에서 유용한 정보를 추출할 수 있는 방식으로 데이터를 구조화하는 데 도움이 될 것이라고 생각합니다.

Medium , Twitter , LinkedIn 및 Github 에서 저를 팔로우해 주세요 . 데이터 여행 중에 여기와 다른 소셜 계정에 더 많은 자료를 게시할 예정입니다.