Python-팬더

Pandas는 강력한 데이터 구조를 사용하여 고성능 데이터 조작 및 데이터 분석에 사용되는 오픈 소스 Python 라이브러리입니다. Python with Pandas는 금융, 경제학, 통계, 광고, 웹 분석 등을 포함한 다양한 학술 및 상업 분야에서 사용되고 있습니다. Pandas를 사용하면 데이터의 출처에 관계없이 데이터를로드, 구성, 조작, 모델링 및 분석하는 5 가지 일반적인 데이터 처리 및 분석 단계를 수행 할 수 있습니다.

다음은 데이터 처리 및 데이터 분석 작업에 특별히 사용되는 Pandas의 몇 가지 중요한 기능입니다.

Pandas의 주요 기능

  • 기본 및 사용자 지정 인덱싱을 사용하는 빠르고 효율적인 DataFrame 개체입니다.
  • 다양한 파일 형식에서 메모리 내 데이터 개체로 데이터를로드하기위한 도구입니다.
  • 누락 된 데이터의 데이터 정렬 및 통합 처리.
  • 날짜 세트의 모양 변경 및 피벗.
  • 대규모 데이터 세트의 레이블 기반 슬라이싱, 인덱싱 및 부분 집합 화.
  • 데이터 구조의 열을 삭제하거나 삽입 할 수 있습니다.
  • 집계 및 변환을 위해 데이터별로 그룹화합니다.
  • 고성능 데이터 병합 및 결합.
  • 시계열 기능.

Pandas는 다음 세 가지 데이터 구조를 다룹니다.

  • Series
  • DataFrame

이러한 데이터 구조는 Numpy 배열 위에 구축되어 빠르고 효율적입니다.

치수 및 설명

이러한 데이터 구조를 생각하는 가장 좋은 방법은 고차원 데이터 구조가 저 차원 데이터 구조의 컨테이너라는 것입니다. 예를 들어 DataFrame은 Series의 컨테이너이고 Panel은 DataFrame의 컨테이너입니다.

데이터 구조 치수 기술
시리즈 1 1D 레이블이 지정된 동종 배열, 크기 불변.
데이터 프레임 2 유형이 다른 열이있는 일반 2D 레이블, 크기 변경 가능한 표 구조.

DataFrame은 널리 사용되며 가장 중요한 데이터 구조입니다.

시리즈

시리즈는 동일한 데이터가있는 구조와 같은 1 차원 배열입니다. 예를 들어, 다음 시리즈는 정수 10, 23, 56,…

10 23 56 17 52 61 73 90 26 72

시리즈의 요점

  • 동종 데이터
  • 크기 불변
  • 가변 데이터의 가치

DataFrame

DataFrame은 이기종 데이터가 포함 된 2 차원 배열입니다. 예를 들면

이름 나이 성별 평가
스티브 32 남성 3.45
리아 28 여자 4.6
45 남성 3.9
케이티 38 여자 2.78

이 표는 전체 성과 등급과 함께 조직의 영업 팀 데이터를 나타냅니다. 데이터는 행과 열로 표시됩니다. 각 열은 속성을 나타내고 각 행은 사람을 나타냅니다.

열의 데이터 유형

네 열의 데이터 유형은 다음과 같습니다.

기둥 유형
이름
나이 정수
성별
평가 흙손

데이터 프레임의 요점

  • 이기종 데이터
  • 크기 변경 가능
  • 데이터 변경 가능

다음 장에서 데이터 과학 작업에서 Python의 pandas 라이브러리 사용에 대한 많은 예제를 볼 수 있습니다.