Mahout-기계 학습
Apache Mahout은 개발자가 최적화 된 알고리즘을 사용할 수 있도록 지원하는 확장 성이 뛰어난 기계 학습 라이브러리입니다. Mahout은 추천, 분류 및 클러스터링과 같은 인기있는 기계 학습 기술을 구현합니다. 따라서 더 나아 가기 전에 기계 학습에 대한 간단한 섹션을 갖는 것이 현명합니다.
머신 러닝이란?
기계 학습은 경험을 통해 자동으로 학습하고 개선하는 방식으로 시스템 프로그래밍을 다루는 과학 분야입니다. 여기서 학습이란 입력 데이터를 인식하고 이해하고 제공된 데이터를 바탕으로 현명한 결정을 내리는 것을 의미합니다.
가능한 모든 입력을 기반으로 모든 결정을 수용하는 것은 매우 어렵습니다. 이 문제를 해결하기 위해 알고리즘이 개발됩니다. 이 알고리즘은 통계, 확률 이론, 논리, 조합 최적화, 검색, 강화 학습 및 제어 이론의 원칙에 대한 특정 데이터 및 과거 경험으로부터 지식을 구축합니다.
개발 된 알고리즘은 다음과 같은 다양한 애플리케이션의 기반을 형성합니다.
- 비전 처리
- 언어 처리
- 예측 (예 : 주식 시장 동향)
- 패턴 인식
- Games
- 데이터 수집
- 전문가 시스템
- Robotics
기계 학습은 방대한 영역이며 모든 기능을 다루는 것은이 튜토리얼의 범위를 벗어납니다. 기계 학습 기술을 구현하는 방법에는 여러 가지가 있지만 가장 일반적으로 사용되는 방법은 다음과 같습니다.supervised 과 unsupervised learning.
지도 학습
지도 학습은 사용 가능한 학습 데이터에서 함수 학습을 다룹니다. 지도 학습 알고리즘은 훈련 데이터를 분석하고 새로운 예제를 매핑하는 데 사용할 수있는 추론 된 함수를 생성합니다. 지도 학습의 일반적인 예는 다음과 같습니다.
- 이메일을 스팸으로 분류
- 콘텐츠에 따라 웹 페이지에 레이블 지정
- 음성 인식.
신경망, SVM (Support Vector Machine) 및 Naive Bayes 분류기와 같은 많은지도 학습 알고리즘이 있습니다. Mahout은 Naive Bayes 분류기를 구현합니다.
비지도 학습
비지도 학습은 훈련을 위해 사전 정의 된 데이터 세트없이 레이블이없는 데이터를 의미합니다. 비지도 학습은 사용 가능한 데이터를 분석하고 패턴과 추세를 찾을 수있는 매우 강력한 도구입니다. 유사한 입력을 논리 그룹으로 클러스터링하는 데 가장 일반적으로 사용됩니다. 비지도 학습에 대한 일반적인 접근 방식은 다음과 같습니다.
- k-means
- 자체 구성지도
- 계층 적 클러스터링
추천
추천은 이전 구매, 클릭 및 평가와 같은 사용자 정보를 기반으로 가까운 추천을 제공하는 인기있는 기술입니다.
Amazon은이 기술을 사용하여 관심이있을 수있는 권장 항목 목록을 표시하고 과거 작업에서 정보를 도출합니다. Amazon 뒤에서 사용자 행동을 캡처하고 이전 작업을 기반으로 선택한 항목을 추천하는 추천 엔진이 있습니다.
Facebook은 추천 기 기술을 사용하여 "당신이 아는 사람들 목록"을 식별하고 추천합니다.
분류
분류, 일명 categorization는 알려진 데이터를 사용하여 새 데이터를 기존 범주 집합으로 분류하는 방법을 결정하는 기계 학습 기술입니다. 분류는지도 학습의 한 형태입니다.
Yahoo!와 같은 메일 서비스 제공 업체 Gmail은이 기술을 사용하여 새 메일을 스팸으로 분류할지 여부를 결정합니다. 분류 알고리즘은 특정 메일을 스팸으로 표시하는 사용자 습관을 분석하여 자체적으로 학습합니다. 이를 기반으로 분류자는 향후 메일을받은 편지함에 보관할지 스팸 폴더에 보관할지를 결정합니다.
iTunes 응용 프로그램은 분류를 사용하여 재생 목록을 준비합니다.
클러스터링
클러스터링은 공통 특성을 기반으로 유사한 데이터의 그룹 또는 클러스터를 형성하는 데 사용됩니다. 클러스터링은 비지도 학습의 한 형태입니다.
Google 및 Yahoo!와 같은 검색 엔진 클러스터링 기술을 사용하여 유사한 특성을 가진 데이터를 그룹화합니다.
뉴스 그룹은 클러스터링 기술을 사용하여 관련 주제에 따라 다양한 기사를 그룹화합니다.
클러스터링 엔진은 입력 데이터를 완전히 처리하고 데이터의 특성에 따라 그룹화 할 클러스터를 결정합니다. 다음 예를 살펴보십시오.
튜토리얼 라이브러리에는 다양한 주제에 대한 주제가 포함되어 있습니다. TutorialsPoint에서 새 자습서를 받으면 콘텐츠를 기반으로 그룹화해야하는 위치를 결정하는 클러스터링 엔진에 의해 처리됩니다.