선형 회귀의 기초

Nov 27 2022
정의 선형 회귀는 두 가지 현상을 연관시킬 수 있는 방법론입니다. 이 접근 방식을 사용하면 실제 데이터를 기반으로 규칙을 식별하여 새 값을 예측할 수 있습니다.

정의

선형 회귀는 두 가지 현상을 연관시킬 수 있는 방법론입니다. 이 접근 방식을 사용하면 실제 데이터를 기반으로 규칙을 식별하여 새 값을 예측할 수 있습니다. 간단한 방법으로 선형 회귀를 수행하는 알고리즘과 패키지가 있지만 커튼 뒤에서 무슨 일이 일어나고 있는지 이해하지 못합니다. 이 프레젠테이션의 목적은 선형 회귀의 수학적 기초를 드러내는 것입니다.

방법

이 방법은 세 단계로 나눌 수 있습니다.

  • 데이터의 초기 보기
  • 매개변수 결정
  • 곡선 발견 매개변수를 생성합니다.

이 단계의 목적은 데이터가 대략 선형 동작을 따르는지 확인하는 것입니다. 그렇지 않으면 선형 회귀 방법을 적용하면 안 됩니다. 다음 날짜 집합을 고려해 보겠습니다.

이러한 데이터를 플롯하고 동작을 확인할 수 있습니다. 아래 이미지에서 그래프가 선형 동작을 보여주므로 선형 회귀 기술의 적용이 정당함을 알 수 있습니다.

이 리포지토리에서 선형 회귀를 사용하여 커브 피팅을 생성하는 Python 코드를 제공했습니다. 제가 말했듯이 수학적 기초가 억제되어 내부적으로 어떤 일이 발생하는지 알 수 없습니다. 코드는 아래 이미지를 생성합니다.

매개변수 결정

곡선의 매개변수 a와 b를 결정하기 위해 최소 제곱법을 사용합니다. 이 방법에서는 Y의 관측값과 동일한 X값에 대해 조정된 곡선에서 얻은 값의 차이의 제곱합이 최소가 되도록 값 a와 b를 구합니다. 수학적으로 이 아이디어는 다음과 같이 나타낼 수 있습니다.

최소 구성을 찾기 위해 매개변수 a 및 b와 관련하여 위의 식을 유도하고 이를 0으로 설정할 수 있습니다.

n이 관측치의 수임을 알면 다음과 같이 방정식 (I)과 (II)를 방정식 (III)과 (IV)로 쓸 수 있습니다.

매개변수 b를 결정하기 위해 첫 번째 방정식을 n으로 나누고 두 번째 방정식에서 대체하기 위해 a를 분리합니다.

두 번째 방정식으로 대체:

선의 선형 계수는 위에서 이미 정의한 방정식으로 쉽게 결정할 수 있습니다.

아래 코드를 통해 scipy 패키지를 사용하지 않고 데이터에서 직접 이러한 매개 변수를 계산할 수 있습니다.

마지막으로 선형 계수 a와 각도 계수 b를 구한 후 적합 곡선을 그릴 수 있습니다.