Python Pandas-연결

Pandas는 쉽게 결합 할 수있는 다양한 기능을 제공 Series, DataFrame, 및 Panel 사물.

pd.concat(objs,axis=0,join='outer',join_axes=None,
ignore_index=False)
  • objs − 이것은 Series, DataFrame 또는 Panel 개체의 시퀀스 또는 매핑입니다.

  • axis − {0, 1, ...}, 기본값 0. 함께 연결할 축입니다.

  • join− { 'inner', 'outer'}, 기본 'outer'. 다른 축에서 인덱스를 처리하는 방법. 결합은 외부, 교차는 내부입니다.

  • ignore_index− 부울, 기본값은 False. True이면 연결 축에서 인덱스 값을 사용하지 마십시오. 결과 축은 0, ..., n-1로 레이블이 지정됩니다.

  • join_axes− Index 개체의 목록입니다. 내부 / 외부 집합 논리를 수행하는 대신 다른 (n-1) 축에 사용할 특정 인덱스입니다.

개체 연결

그만큼 concat함수는 축을 따라 연결 작업을 수행하는 모든 무거운 작업을 수행합니다. 다른 객체를 만들고 연결해 보겠습니다.

import pandas as pd

one = pd.DataFrame({
   'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5'],
   'Marks_scored':[98,90,87,69,78]},
   index=[1,2,3,4,5])

two = pd.DataFrame({
   'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5'],
   'Marks_scored':[89,80,79,97,88]},
   index=[1,2,3,4,5])
print pd.concat([one,two])

이것의 output 다음과 같습니다-

Marks_scored     Name   subject_id
1             98     Alex         sub1
2             90      Amy         sub2
3             87    Allen         sub4
4             69    Alice         sub6
5             78   Ayoung         sub5
1             89    Billy         sub2
2             80    Brian         sub4
3             79     Bran         sub3
4             97    Bryce         sub6
5             88    Betty         sub5

잘게 잘린 DataFrame의 각 조각과 특정 키를 연결하려고한다고 가정합니다. 우리는keys 인수-

import pandas as pd

one = pd.DataFrame({
   'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5'],
   'Marks_scored':[98,90,87,69,78]},
   index=[1,2,3,4,5])

two = pd.DataFrame({
   'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5'],
   'Marks_scored':[89,80,79,97,88]},
   index=[1,2,3,4,5])
print pd.concat([one,two],keys=['x','y'])

이것의 output 다음과 같습니다-

x  1  98    Alex    sub1
   2  90    Amy     sub2
   3  87    Allen   sub4
   4  69    Alice   sub6
   5  78    Ayoung  sub5
y  1  89    Billy   sub2
   2  80    Brian   sub4
   3  79    Bran    sub3
   4  97    Bryce   sub6
   5  88    Betty   sub5

결과의 색인이 중복됩니다. 각 인덱스가 반복됩니다.

결과 객체가 자체 인덱싱을 따라야하는 경우 ignore_index ...에 True.

import pandas as pd

one = pd.DataFrame({
   'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5'],
   'Marks_scored':[98,90,87,69,78]},
   index=[1,2,3,4,5])

two = pd.DataFrame({
   'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5'],
   'Marks_scored':[89,80,79,97,88]},
   index=[1,2,3,4,5])
print pd.concat([one,two],keys=['x','y'],ignore_index=True)

이것의 output 다음과 같습니다-

Marks_scored     Name    subject_id
0             98     Alex          sub1
1             90      Amy          sub2
2             87    Allen          sub4
3             69    Alice          sub6
4             78   Ayoung          sub5
5             89    Billy          sub2
6             80    Brian          sub4
7             79     Bran          sub3
8             97    Bryce          sub6
9             88    Betty          sub5

색인이 완전히 변경되고 키도 재정의됩니다.

두 개체를 함께 추가해야하는 경우 axis=1이면 새 열이 추가됩니다.

import pandas as pd

one = pd.DataFrame({
   'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5'],
   'Marks_scored':[98,90,87,69,78]},
   index=[1,2,3,4,5])

two = pd.DataFrame({
   'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5'],
   'Marks_scored':[89,80,79,97,88]},
   index=[1,2,3,4,5])
print pd.concat([one,two],axis=1)

이것의 output 다음과 같습니다-

Marks_scored    Name  subject_id   Marks_scored    Name   subject_id
1           98      Alex      sub1         89         Billy         sub2
2           90       Amy      sub2         80         Brian         sub4
3           87     Allen      sub4         79          Bran         sub3
4           69     Alice      sub6         97         Bryce         sub6
5           78    Ayoung      sub5         88         Betty         sub5

추가를 사용하여 연결

concat에 대한 유용한 단축키는 Series 및 DataFrame의 append 인스턴스 메서드입니다. 이 메서드는 실제로 concat보다 선행되었습니다. 그들은 함께 연결axis=0, 즉 인덱스-

import pandas as pd

one = pd.DataFrame({
   'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5'],
   'Marks_scored':[98,90,87,69,78]},
   index=[1,2,3,4,5])

two = pd.DataFrame({
   'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5'],
   'Marks_scored':[89,80,79,97,88]},
   index=[1,2,3,4,5])
print one.append(two)

이것의 output 다음과 같습니다-

Marks_scored    Name  subject_id
1           98      Alex      sub1
2           90       Amy      sub2
3           87     Allen      sub4
4           69     Alice      sub6
5           78    Ayoung      sub5
1           89     Billy      sub2
2           80     Brian      sub4
3           79      Bran      sub3
4           97     Bryce      sub6
5           88     Betty      sub5

그만큼 append 함수도 여러 객체를 취할 수 있습니다.

import pandas as pd

one = pd.DataFrame({
   'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5'],
   'Marks_scored':[98,90,87,69,78]},
   index=[1,2,3,4,5])

two = pd.DataFrame({
   'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5'],
   'Marks_scored':[89,80,79,97,88]},
   index=[1,2,3,4,5])
print one.append([two,one,two])

이것의 output 다음과 같습니다-

Marks_scored   Name    subject_id
1           98     Alex          sub1
2           90      Amy          sub2
3           87    Allen          sub4
4           69    Alice          sub6
5           78   Ayoung          sub5
1           89    Billy          sub2
2           80    Brian          sub4
3           79     Bran          sub3
4           97    Bryce          sub6
5           88    Betty          sub5
1           98     Alex          sub1
2           90      Amy          sub2
3           87    Allen          sub4
4           69    Alice          sub6
5           78   Ayoung          sub5
1           89    Billy          sub2
2           80    Brian          sub4
3           79     Bran          sub3
4           97    Bryce          sub6
5           88    Betty          sub5

시계열

Pandas는 특히 금융 부문에서 시계열 데이터로 작업 시간을위한 강력한 도구를 제공합니다. 시계열 데이터로 작업하는 동안 우리는 자주 다음을 발견합니다.

  • 시간 순서 생성
  • 시계열을 다른 주파수로 변환

Pandas는 위 작업을 수행하기 위해 비교적 간결하고 독립적 인 도구 세트를 제공합니다.

현재 시간 가져 오기

datetime.now() 현재 날짜와 시간을 제공합니다.

import pandas as pd

print pd.datetime.now()

이것의 output 다음과 같습니다-

2017-05-11 06:10:13.393147

타임 스탬프 생성

타임 스탬프가있는 데이터는 값을 특정 시점과 연결하는 가장 기본적인 유형의 시계열 데이터입니다. pandas 객체의 경우 시점을 사용하는 것을 의미합니다. 예를 들어 보겠습니다.

import pandas as pd

print pd.Timestamp('2017-03-01')

이것의 output 다음과 같습니다-

2017-03-01 00:00:00

정수 또는 부동 epoch 시간을 변환 할 수도 있습니다. 기본 단위는 나노초입니다 (타임 스탬프가 저장되는 방식이므로). 그러나 종종 epoch는 지정할 수있는 다른 단위에 저장됩니다. 다른 예를 들어 봅시다

import pandas as pd

print pd.Timestamp(1587687255,unit='s')

이것의 output 다음과 같습니다-

2020-04-24 00:14:15

시간 범위 만들기

import pandas as pd

print pd.date_range("11:00", "13:30", freq="30min").time

이것의 output 다음과 같습니다-

[datetime.time(11, 0) datetime.time(11, 30) datetime.time(12, 0)
datetime.time(12, 30) datetime.time(13, 0) datetime.time(13, 30)]

시간의 빈도 변경

import pandas as pd

print pd.date_range("11:00", "13:30", freq="H").time

이것의 output 다음과 같습니다-

[datetime.time(11, 0) datetime.time(12, 0) datetime.time(13, 0)]

타임 스탬프로 변환

시리즈 또는 날짜와 유사한 객체의 목록과 유사한 객체 (예 : 문자열, 에포크 또는 혼합)를 변환하려면 다음을 사용할 수 있습니다. to_datetime함수. 전달되면 시리즈 (인덱스가 동일 함)가 반환되고list-like 로 변환됩니다 DatetimeIndex. 다음 예를 살펴보십시오-

import pandas as pd

print pd.to_datetime(pd.Series(['Jul 31, 2009','2010-01-10', None]))

이것의 output 다음과 같습니다-

0  2009-07-31
1  2010-01-10
2         NaT
dtype: datetime64[ns]

NaT 방법 Not a Time (NaN과 동일)

다른 예를 들어 보겠습니다.

import pandas as pd

print pd.to_datetime(['2005/11/23', '2010.12.31', None])

이것의 output 다음과 같습니다-

DatetimeIndex(['2005-11-23', '2010-12-31', 'NaT'], dtype='datetime64[ns]', freq=None)