일치하는 데이터를 찾아 반환하는 Pandas 열 만들기

Nov 13 2020

큰 DataFrame (150,000 x 25)의 금융 거래가 있습니다. 이 DataFrame은 거래가 종종이 원장을 "통과"하는 일종의 재무 보유 계정을 나타냅니다. 예를 들어 (아래) 위치 0의 행은-$123.21 transaction. The row in position 2 is the corresponding (or "coupled") transaction for +$123.21 및 카테고리, 유형 및 소스와 일치합니다.

내 목표는 "결합 된"트랜잭션의 키를 식별하는 새 열을 만드는 것입니다. 따라서 행 0의 "커플 링 키"는 행 2의 키이고 그 반대의 경우도 마찬가지입니다.

위치 9-14의 행은 최소 및 최대 일치를 검색하는 솔루션을 배제합니다 ( @David Erickson은 이전에 해당 행을 따라 훌륭한 답변을 제공 했습니다). 위치 9의 행은 +$10 transaction. It is coupled with the first -$10, 위치 11에서 발견되었습니다 (위치 14에서 발견 된 트랜잭션이 아님). 이러한 방식으로 각 트랜잭션은 0 개 또는 하나의 다른 트랜잭션과 결합되지만 둘 이상은 아닙니다.

import pandas as pd

d_in = {'key' : ['80000001', '80000002', '80000003', '80000004', '80000005', '80000006', '80000007', '80000008', '80000009', '80000010', '80000011', '80000012', '80000013', '80000014', '80000015'], 
        'date' : ['20200901', '20200901', '20200902', '20200902', '20200902','20200903', '20200904', '20200905', '20200905', '20200906', '20200906', '20200906', '20200906', '20200906', '20200906'],
        'category' : ['Z293', 'B993', 'Z293', 'B993', 'W884', 'C123', 'V332', 'C123', 'V332', 'Z213', 'Z213', 'Z213', 'Z213', 'Z213', 'Z213'], 
        'type' : ['tools', 'supplies', 'tools', 'supplies', 'repairs', 'custom', 'misc', 'custom', 'misc', 'technology', 'technology', 'technology', 'technology', 'technology', 'technology'], 
        'source' : ['Q112', 'E443', 'Q112', 'E443', 'P443', 'B334', 'E449', 'B334', 'E449', 'QQ32', 'QQ32', 'QQ32', 'QQ32', 'QQ32', 'QQ32'], 
        'amount' : [-123.21, 3.12, 123.21, -3.12, 9312.00, 312.23, -13.23, -312.23, 13.23, 10, 10, -10, -10, 10, -10]}

df_in = pd.DataFrame(data=d_in)


d_out = {'key' : ['80000001', '80000002', '80000003', '80000004', '80000005', '80000006', '80000007', '80000008', '80000009', '80000010', '80000011', '80000012', '80000013', '80000014', '80000015'], 
        'date' : ['20200901', '20200901', '20200902', '20200902', '20200902','20200903', '20200904', '20200905', '20200905', '20200906', '20200906', '20200906', '20200906', '20200906', '20200906'],
        'category' : ['Z293', 'B993', 'Z293', 'B993', 'W884', 'C123', 'V332', 'C123', 'V332', 'Z213', 'Z213', 'Z213', 'Z213', 'Z213', 'Z213'], 
        'type' : ['tools', 'supplies', 'tools', 'supplies', 'repairs', 'custom', 'misc', 'custom', 'misc', 'technology', 'technology', 'technology', 'technology', 'technology', 'technology'], 
        'source' : ['Q112', 'E443', 'Q112', 'E443', 'P443', 'B334', 'E449', 'B334', 'E449', 'QQ32', 'QQ32', 'QQ32', 'QQ32', 'QQ32', 'QQ32'], 
        'amount' : [-123.21, 3.12, 123.21, -3.12, 9312.00, 312.23, -13.23, -312.23, 13.23, 10, 10, -10, -10, 10, -10], 
    'coupling_key' : ['80000003', '80000004', '80000001', '80000002', 'none', '80000008', '80000009', '80000006', '80000007', '80000012', '80000013', '80000010', '80000011', '80000015', '80000014']}

df_out = pd.DataFrame(data=d_out)

내가 탐색 한 대부분의 솔루션에는 pandas groupby 함수가 포함됩니다. 현재 groupby (...). nth (...) 함수를 고려 중입니다. 솔루션에 .mask 또는 .duplicated ()가 포함될 수도 있다고 생각합니다.