Python을 사용한 AI – 기계 학습
학습은 학습이나 경험을 통해 지식이나 기술을 습득하는 것을 의미합니다. 이를 바탕으로 다음과 같이 기계 학습 (ML)을 정의 할 수 있습니다.
그것은 컴퓨터 과학 분야,보다 구체적으로 인공 지능의 응용으로 정의 될 수 있는데, 이는 컴퓨터 시스템이 명시 적으로 프로그래밍되지 않고도 데이터로 학습하고 경험을 통해 향상시킬 수있는 능력을 제공합니다.
기본적으로 기계 학습의 주요 초점은 컴퓨터가 사람의 개입없이 자동으로 학습 할 수 있도록하는 것입니다. 이제 그러한 학습이 어떻게 시작되고 수행 될 수 있는지에 대한 의문이 생깁니다. 데이터 관찰로 시작할 수 있습니다. 데이터는 몇 가지 예, 지침 또는 직접적인 경험이 될 수도 있습니다. 그런 다음이 입력을 기반으로 기계는 데이터에서 몇 가지 패턴을 찾아 더 나은 결정을 내립니다.
머신 러닝 (ML)의 유형
기계 학습 알고리즘은 명시 적으로 프로그래밍하지 않고도 컴퓨터 시스템이 학습 할 수 있도록 도와줍니다. 이러한 알고리즘은 감독 됨 또는 감독되지 않음으로 분류됩니다. 이제 몇 가지 알고리즘을 살펴 보겠습니다.
감독되는 기계 학습 알고리즘
가장 일반적으로 사용되는 기계 학습 알고리즘입니다. 훈련 데이터 세트에서 알고리즘 학습 과정을 학습 과정을 감독하는 교사로 생각할 수 있기 때문에 감독 형이라고합니다. 이러한 종류의 ML 알고리즘에서는 가능한 결과가 이미 알려져 있으며 훈련 데이터에도 정답이 표시됩니다. 다음과 같이 이해할 수 있습니다-
입력 변수가 있다고 가정합니다. x 및 출력 변수 y 입력에서 출력으로의 매핑 함수를 배우기 위해 알고리즘을 적용했습니다.
Y = f(x)
이제 주요 목표는 새 입력 데이터 (x)가있을 때 해당 데이터에 대한 출력 변수 (Y)를 예측할 수 있도록 매핑 함수를 근사화하는 것입니다.
주로 감독되는 기울기 문제는 다음 두 가지 문제로 나눌 수 있습니다.
Classification −“검은 색”,“교육”,“비 교육”등과 같이 분류 된 출력이있을 때 문제를 분류 문제라고합니다.
Regression −“거리”,“킬로그램”등과 같은 실제 값 출력이있을 때 문제를 회귀 문제라고합니다.
의사 결정 트리, 랜덤 포레스트, knn, 로지스틱 회귀는 감독되는 기계 학습 알고리즘의 예입니다.
비지도 머신 러닝 알고리즘
이름에서 알 수 있듯이 이러한 종류의 기계 학습 알고리즘에는 어떤 종류의 지침도 제공 할 감독자가 없습니다. 그렇기 때문에 비지도 기계 학습 알고리즘이 일부 사람들이 진정한 인공 지능이라고 부르는 것과 밀접하게 연계되어 있습니다. 다음과 같이 이해할 수 있습니다-
입력 변수 x가 있다고 가정하면지도 학습 알고리즘에있는 것처럼 해당 출력 변수가 없습니다.
간단히 말해서, 비지도 학습에서는 정답이없고지도를위한 교사도 없을 것이라고 말할 수 있습니다. 알고리즘은 데이터에서 흥미로운 패턴을 발견하는 데 도움이됩니다.
비지도 학습 문제는 다음 두 가지 문제로 나눌 수 있습니다.
Clustering− 클러스터링 문제에서 데이터의 고유 한 그룹화를 발견해야합니다. 예를 들어 구매 행동별로 고객을 그룹화합니다.
Association− 이런 종류의 문제는 데이터의 많은 부분을 설명하는 규칙을 찾아야하기 때문에 문제를 연관 문제라고합니다. 예를 들어, 둘 다 구매하는 고객 찾기x 과 y.
클러스터링을위한 K- 평균, 연관을위한 Apriori 알고리즘이 비지도 머신 러닝 알고리즘의 예입니다.
강화 기계 학습 알고리즘
이러한 종류의 기계 학습 알고리즘은 매우 적게 사용됩니다. 이러한 알고리즘은 시스템이 특정 결정을 내 리도록 훈련시킵니다. 기본적으로 기계는 시행 착오 방법을 사용하여 지속적으로 스스로 훈련하는 환경에 노출됩니다. 이러한 알고리즘은 과거 경험에서 학습하고 정확한 결정을 내리기 위해 가능한 최상의 지식을 포착하려고합니다. Markov Decision Process는 강화 기계 학습 알고리즘의 예입니다.
가장 일반적인 기계 학습 알고리즘
이 섹션에서는 가장 일반적인 기계 학습 알고리즘에 대해 알아 봅니다. 알고리즘은 아래에 설명되어 있습니다.
선형 회귀
통계 및 기계 학습에서 가장 잘 알려진 알고리즘 중 하나입니다.
기본 개념-주로 선형 회귀는 입력 변수 (예 : x)와 단일 출력 변수 (예 : y) 간의 선형 관계를 가정하는 선형 모델입니다. 즉, 입력 변수 x의 선형 조합에서 y를 계산할 수 있습니다. 변수 간의 관계는 최적의 선을 맞춰서 설정할 수 있습니다.
선형 회귀 유형
선형 회귀는 다음 두 가지 유형입니다.
Simple linear regression − 선형 회귀 알고리즘은 독립 변수가 하나 뿐인 경우 단순 선형 회귀라고합니다.
Multiple linear regression − 선형 회귀 알고리즘은 하나 이상의 독립 변수가있는 경우 다중 선형 회귀라고합니다.
선형 회귀는 주로 연속 변수를 기반으로 실제 값을 추정하는 데 사용됩니다. 예를 들어 실제 값을 기반으로 한 하루의 총 판매량은 선형 회귀로 추정 할 수 있습니다.
로지스틱 회귀
분류 알고리즘이며 다음으로도 알려져 있습니다. logit 회귀.
주로 로지스틱 회귀는 주어진 독립 변수 세트를 기반으로 0 또는 1, 참 또는 거짓, 예 또는 아니오와 같은 이산 값을 추정하는 데 사용되는 분류 알고리즘입니다. 기본적으로 확률을 예측하므로 출력은 0과 1 사이에 있습니다.
의사 결정 트리
의사 결정 트리는 주로 분류 문제에 사용되는지도 학습 알고리즘입니다.
기본적으로 독립 변수를 기반으로하는 재귀 분할로 표현되는 분류 자입니다. 의사 결정 트리에는 루트 트리를 형성하는 노드가 있습니다. 루트 트리는 "루트"라는 노드가있는 방향성 트리입니다. 루트에는 들어오는 가장자리가 없으며 다른 모든 노드에는 들어오는 가장자리가 하나 있습니다. 이러한 노드를 리프 또는 결정 노드라고합니다. 예를 들어 다음 의사 결정 트리를 고려하여 사람이 적합한 지 여부를 확인하십시오.
SVM (Support Vector Machine)
분류 및 회귀 문제 모두에 사용됩니다. 그러나 주로 분류 문제에 사용됩니다. SVM의 주요 개념은 각 데이터 항목을 특정 좌표의 값이되는 각 특성의 값을 사용하여 n 차원 공간의 점으로 플로팅하는 것입니다. 여기서 n은 우리가 가질 수있는 기능입니다. 다음은 SVM의 개념을 이해하기위한 간단한 그래픽 표현입니다.
위의 다이어그램에는 두 가지 기능이 있으므로 먼저 각 점에 지원 벡터라고하는 두 개의 좌표가있는 2 차원 공간에서이 두 변수를 플로팅해야합니다. 선은 데이터를 두 개의 서로 다른 분류 그룹으로 분할합니다. 이 라인이 분류 자입니다.
나이브 베이 즈
또한 분류 기술입니다. 이 분류 기술의 논리는 분류기를 구축하기 위해 Bayes 정리를 사용하는 것입니다. 예측 변수가 독립적이라는 가정이 있습니다. 간단히 말해서, 클래스에있는 특정 기능의 존재가 다른 기능의 존재와 관련이 없다고 가정합니다. 아래는 베이 즈 정리에 대한 방정식입니다.
$$ P \ left (\ frac {A} {B} \ right) = \ frac {P \ left (\ frac {B} {A} \ right) P \ left (A \ right)} {P \ left ( B \ 오른쪽)} $$
Naïve Bayes 모델은 구축하기 쉽고 특히 대규모 데이터 세트에 유용합니다.
K-Nearest Neighbors (KNN)
문제의 분류와 회귀 모두에 사용됩니다. 분류 문제를 해결하는 데 널리 사용됩니다. 이 알고리즘의 주요 개념은 사용 가능한 모든 케이스를 저장하고 k 이웃의 과반수 투표로 새 케이스를 분류하는 데 사용된다는 것입니다. 그런 다음 케이스는 거리 함수로 측정 된 K- 최근 접 이웃 중에서 가장 일반적인 클래스에 할당됩니다. 거리 함수는 Euclidean, Minkowski 및 Hamming distance가 될 수 있습니다. KNN을 사용하려면 다음을 고려하십시오-
계산적으로 KNN은 분류 문제에 사용되는 다른 알고리즘보다 비쌉니다.
그렇지 않으면 더 높은 범위의 변수가 필요한 변수의 정규화가 편향 될 수 있습니다.
KNN에서는 노이즈 제거와 같은 전처리 단계에서 작업해야합니다.
K- 평균 클러스터링
이름에서 알 수 있듯이 클러스터링 문제를 해결하는 데 사용됩니다. 기본적으로 비지도 학습의 한 유형입니다. K-Means 클러스터링 알고리즘의 주요 논리는 여러 클러스터를 통해 데이터 세트를 분류하는 것입니다. K- 평균으로 클러스터를 형성하려면 다음 단계를 따르십시오.
K- 평균은 중심이라고하는 각 군집에 대해 k 개의 점을 선택합니다.
이제 각 데이터 포인트는 가장 가까운 중심을 갖는 클러스터, 즉 k 클러스터를 형성합니다.
이제 기존 클러스터 구성원을 기반으로 각 클러스터의 중심을 찾습니다.
수렴이 발생할 때까지이 단계를 반복해야합니다.
랜덤 포레스트
감독되는 분류 알고리즘입니다. 랜덤 포레스트 알고리즘의 장점은 분류 및 회귀 문제에 모두 사용할 수 있다는 것입니다. 기본적으로 결정 트리 (예 : 포리스트)의 모음이거나 결정 트리의 앙상블이라고 말할 수 있습니다. 랜덤 포레스트의 기본 개념은 각 트리가 분류를 제공하고 포레스트가 가장 좋은 분류를 선택한다는 것입니다. 다음은 Random Forest 알고리즘의 장점입니다.
랜덤 포레스트 분류기는 분류 및 회귀 작업 모두에 사용할 수 있습니다.
누락 된 값을 처리 할 수 있습니다.
숲에 더 많은 수의 나무가 있어도 모델에 과도하게 맞지 않습니다.