Mahout-퀵 가이드
우리는 정보가 풍부한 시대에 살고 있습니다. 정보 과부하가 너무 높아져서 때때로 작은 사서함을 관리하기가 어려워졌습니다! 매일 수집하고 관리해야하는 일부 인기 웹 사이트 (Facebook, Twitter, Youtube 등)의 데이터 양과 기록을 상상해보십시오. 잘 알려지지 않은 웹 사이트에서도 대량의 정보를 수신하는 것은 드문 일이 아닙니다.
일반적으로 데이터 마이닝 알고리즘을 사용하여 대량 데이터를 분석하여 추세를 식별하고 결론을 도출합니다. 그러나 컴퓨팅 작업이 클라우드를 통해 분산 된 여러 머신에서 실행되지 않는 한 데이터 마이닝 알고리즘은 매우 큰 데이터 세트를 처리하고 빠른 시간 내에 결과를 제공 할만큼 효율적일 수 없습니다.
이제 계산 작업을 여러 세그먼트로 나누고 각 세그먼트를 다른 머신에서 실행할 수있는 새로운 프레임 워크가 있습니다. Mahout 대용량 데이터를 관리하기 위해 백그라운드에서 Hadoop 인프라와 함께 일반적으로 실행되는 데이터 마이닝 프레임 워크입니다.
Apache Mahout은 무엇입니까?
조련사는 마스터로 코끼리를 드라이브입니다. 이름은 코끼리를 로고로 사용하는 Apache Hadoop과의 밀접한 연관성에서 비롯됩니다.
Hadoop Apache의 오픈 소스 프레임 워크로, 간단한 프로그래밍 모델을 사용하여 여러 컴퓨터 클러스터에 분산 된 환경에서 빅 데이터를 저장하고 처리 할 수 있습니다.
Apache Mahout확장 가능한 기계 학습 알고리즘을 만드는 데 주로 사용되는 오픈 소스 프로젝트입니다. 다음과 같은 인기있는 기계 학습 기술을 구현합니다.
- Recommendation
- Classification
- Clustering
Apache Mahout은 2008 년 Apache Lucene의 하위 프로젝트로 시작되었습니다. 2010 년에 Mahout은 Apache의 최상위 프로젝트가되었습니다.
Mahout의 특징
Apache Mahout의 기본 기능은 다음과 같습니다.
Mahout의 알고리즘은 Hadoop 위에 작성되어 분산 환경에서 잘 작동합니다. Mahout은 Apache Hadoop 라이브러리를 사용하여 클라우드에서 효과적으로 확장합니다.
Mahout은 코더에게 대량의 데이터에 대한 데이터 마이닝 작업을 수행하기위한 바로 사용할 수있는 프레임 워크를 제공합니다.
Mahout을 사용하면 애플리케이션이 대량의 데이터 세트를 효과적이고 빠르게 분석 할 수 있습니다.
k-means, fuzzy k-means, Canopy, Dirichlet 및 Mean-Shift와 같은 여러 MapReduce 지원 클러스터링 구현을 포함합니다.
분산 형 Naive Bayes 및 보완 적 Naive Bayes 분류 구현을 지원합니다.
진화 프로그래밍을위한 분산 피트니스 기능 기능이 함께 제공됩니다.
행렬 및 벡터 라이브러리를 포함합니다.
Mahout의 응용
Adobe, Facebook, LinkedIn, Foursquare, Twitter 및 Yahoo와 같은 회사는 내부적으로 Mahout을 사용합니다.
Foursquare는 특정 지역에서 이용할 수있는 장소, 음식 및 엔터테인먼트를 찾는 데 도움을줍니다. Mahout의 추천 엔진을 사용합니다.
Twitter는 사용자 관심도 모델링에 Mahout을 사용합니다.
야후! 패턴 마이닝에 Mahout을 사용합니다.
Apache Mahout은 개발자가 최적화 된 알고리즘을 사용할 수 있도록 지원하는 확장 성이 뛰어난 기계 학습 라이브러리입니다. Mahout은 추천, 분류 및 클러스터링과 같은 인기있는 기계 학습 기술을 구현합니다. 따라서 더 나아 가기 전에 기계 학습에 대한 간단한 섹션을 갖는 것이 현명합니다.
머신 러닝이란?
기계 학습은 경험을 통해 자동으로 학습하고 개선하는 방식으로 시스템 프로그래밍을 다루는 과학 분야입니다. 여기서 학습이란 입력 데이터를 인식하고 이해하고 제공된 데이터를 바탕으로 현명한 결정을 내리는 것을 의미합니다.
가능한 모든 입력을 기반으로 모든 결정을 수용하는 것은 매우 어렵습니다. 이 문제를 해결하기 위해 알고리즘이 개발됩니다. 이 알고리즘은 통계, 확률 이론, 논리, 조합 최적화, 검색, 강화 학습 및 제어 이론의 원칙에 대한 특정 데이터 및 과거 경험으로부터 지식을 구축합니다.
개발 된 알고리즘은 다음과 같은 다양한 애플리케이션의 기반을 형성합니다.
- 비전 처리
- 언어 처리
- 예측 (예 : 주식 시장 동향)
- 패턴 인식
- Games
- 데이터 수집
- 전문가 시스템
- Robotics
기계 학습은 방대한 영역이며 모든 기능을 다루는 것은이 튜토리얼의 범위를 벗어납니다. 기계 학습 기술을 구현하는 방법에는 여러 가지가 있지만 가장 일반적으로 사용되는 방법은 다음과 같습니다.supervised 과 unsupervised learning.
지도 학습
지도 학습은 사용 가능한 학습 데이터에서 함수 학습을 다룹니다. 지도 학습 알고리즘은 훈련 데이터를 분석하고 새로운 예제를 매핑하는 데 사용할 수있는 추론 된 함수를 생성합니다. 지도 학습의 일반적인 예는 다음과 같습니다.
- 이메일을 스팸으로 분류
- 콘텐츠에 따라 웹 페이지에 레이블 지정
- 음성 인식.
신경망, SVM (Support Vector Machine) 및 Naive Bayes 분류기와 같은 많은지도 학습 알고리즘이 있습니다. Mahout은 Naive Bayes 분류기를 구현합니다.
비지도 학습
비지도 학습은 훈련을 위해 사전 정의 된 데이터 세트없이 레이블이없는 데이터를 의미합니다. 비지도 학습은 사용 가능한 데이터를 분석하고 패턴과 추세를 찾을 수있는 매우 강력한 도구입니다. 유사한 입력을 논리 그룹으로 클러스터링하는 데 가장 일반적으로 사용됩니다. 비지도 학습에 대한 일반적인 접근 방식은 다음과 같습니다.
- k-means
- 자체 구성지도
- 계층 적 클러스터링
추천
추천은 이전 구매, 클릭 및 평가와 같은 사용자 정보를 기반으로 가까운 추천을 제공하는 인기있는 기술입니다.
Amazon은이 기술을 사용하여 관심이있을 수있는 권장 항목 목록을 표시하고 과거 작업에서 정보를 도출합니다. Amazon 뒤에서 사용자 행동을 캡처하고 이전 작업을 기반으로 선택한 항목을 추천하는 추천 엔진이 있습니다.
Facebook은 추천 기 기술을 사용하여 "당신이 아는 사람들 목록"을 식별하고 추천합니다.
분류
분류, 일명 categorization는 알려진 데이터를 사용하여 새 데이터를 기존 범주 집합으로 분류하는 방법을 결정하는 기계 학습 기술입니다. 분류는지도 학습의 한 형태입니다.
Yahoo!와 같은 메일 서비스 제공 업체 Gmail은이 기술을 사용하여 새 메일을 스팸으로 분류할지 여부를 결정합니다. 분류 알고리즘은 특정 메일을 스팸으로 표시하는 사용자 습관을 분석하여 자체적으로 학습합니다. 이를 기반으로 분류자는 향후 메일을받은 편지함에 보관할지 스팸 폴더에 보관할지를 결정합니다.
iTunes 응용 프로그램은 분류를 사용하여 재생 목록을 준비합니다.
클러스터링
클러스터링은 공통 특성을 기반으로 유사한 데이터의 그룹 또는 클러스터를 형성하는 데 사용됩니다. 클러스터링은 비지도 학습의 한 형태입니다.
Google 및 Yahoo!와 같은 검색 엔진 클러스터링 기술을 사용하여 유사한 특성을 가진 데이터를 그룹화합니다.
뉴스 그룹은 클러스터링 기술을 사용하여 관련 주제에 따라 다양한 기사를 그룹화합니다.
클러스터링 엔진은 입력 데이터를 완전히 처리하고 데이터의 특성에 따라 그룹화 할 클러스터를 결정합니다. 다음 예를 살펴보십시오.
튜토리얼 라이브러리에는 다양한 주제에 대한 주제가 포함되어 있습니다. TutorialsPoint에서 새 자습서를 받으면 콘텐츠를 기반으로 그룹화해야하는 위치를 결정하는 클러스터링 엔진에 의해 처리됩니다.
이 장에서는 조련사를 설정하는 방법을 설명합니다. Java 및 Hadoop은 mahout의 전제 조건입니다. 다음은 Java, Hadoop 및 Mahout을 다운로드하고 설치하는 단계입니다.
설치 전 설정
Linux 환경에 Hadoop을 설치하기 전에 다음을 사용하여 Linux를 설정해야합니다. ssh(보안 쉘). Linux 환경을 설정하려면 아래에 언급 된 단계를 따르십시오.
사용자 생성
Hadoop에 대해 별도의 사용자를 생성하여 Hadoop 파일 시스템을 Unix 파일 시스템에서 분리하는 것이 좋습니다. 사용자를 생성하려면 아래 단계를 따르십시오.
"su"명령을 사용하여 루트를 엽니 다.
- 명령을 사용하여 루트 계정에서 사용자 만들기 “useradd username”.
이제 다음 명령을 사용하여 기존 사용자 계정을 열 수 있습니다. “su username”.
Linux 터미널을 열고 다음 명령을 입력하여 사용자를 만듭니다.
$ su
password:
# useradd hadoop
# passwd hadoop
New passwd:
Retype new passwd
SSH 설정 및 키 생성
클러스터에서 시작, 중지 및 분산 데몬 셸 작업과 같은 다른 작업을 수행하려면 SSH 설정이 필요합니다. 다른 Hadoop 사용자를 인증하려면 Hadoop 사용자에 대해 공개 / 개인 키 쌍을 제공하고이를 다른 사용자와 공유해야합니다.
다음 명령은 SSH를 사용하여 키 값 쌍을 생성하고, id_rsa.pub 형식의 공개 키를 authorized_keys에 복사하고, 각각 authorized_keys 파일에 소유자, 읽기 및 쓰기 권한을 제공하는 데 사용됩니다.
$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
SSH 확인
ssh localhost
자바 설치
Java는 Hadoop 및 HBase의 주요 전제 조건입니다. 먼저 "java -version"을 사용하여 시스템에 Java가 있는지 확인해야합니다. Java 버전 명령 구문은 다음과 같습니다.
$ java -version
다음 출력을 생성해야합니다.
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
시스템에 Java가 설치되어 있지 않은 경우 아래 단계에 따라 Java를 설치하십시오.
Step 1
다음 링크를 방문하여 Java (JDK <최신 버전>-X64.tar.gz)를 다운로드하십시오. Oracle
그때 jdk-7u71-linux-x64.tar.gz is downloaded 시스템에.
Step 2
일반적으로 다운로드 폴더에서 다운로드 한 Java 파일을 찾을 수 있습니다. 그것을 확인하고 추출jdk-7u71-linux-x64.gz 다음 명령을 사용하여 파일.
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
Step 3
모든 사용자가 Java를 사용할 수 있도록하려면 "/ usr / local /"위치로 Java를 이동해야합니다. 루트를 열고 다음 명령을 입력하십시오.
$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit
Step 4
설정 용 PATH 과 JAVA_HOME 변수에 다음 명령을 추가하십시오. ~/.bashrc file.
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH= $PATH:$JAVA_HOME/bin
이제 java -version 위에서 설명한대로 터미널에서 명령.
Hadoop 다운로드
Java를 설치 한 후 처음에 Hadoop을 설치해야합니다. 아래와 같이“Hadoop version”명령을 사용하여 Hadoop이 있는지 확인합니다.
hadoop version
다음 출력을 생성해야합니다.
Hadoop 2.6.0
Compiled by jenkins on 2014-11-13T21:10Z
Compiled with protoc 2.5.0
From source with checksum 18e43357c8f927c0695f1e9522859d6a
This command was run using /home/hadoop/hadoop/share/hadoop/common/hadoopcommon-2.6.0.jar
시스템에서 Hadoop을 찾을 수없는 경우 Hadoop을 다운로드하여 시스템에 설치하십시오. 그렇게하려면 아래에 주어진 명령을 따르십시오.
다음 명령을 사용하여 Apache Software Foundation에서 hadoop-2.6.0을 다운로드하고 추출합니다.
$ su
password:
# cd /usr/local
# wget http://mirrors.advancedhosters.com/apache/hadoop/common/hadoop-
2.6.0/hadoop-2.6.0-src.tar.gz
# tar xzf hadoop-2.6.0-src.tar.gz
# mv hadoop-2.6.0/* hadoop/
# exit
Hadoop 설치
필요한 모드에서 Hadoop을 설치합니다. 여기에서는 의사 분산 모드에서 HBase 기능을 시연하고 있으므로 의사 분산 모드에서 Hadoop을 설치합니다.
설치하려면 아래 단계를 따르십시오. Hadoop 2.4.1 시스템에서.
1 단계 : Hadoop 설정
다음 명령을 추가하여 Hadoop 환경 변수를 설정할 수 있습니다. ~/.bashrc 파일.
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME
이제 모든 변경 사항을 현재 실행중인 시스템에 적용합니다.
$ source ~/.bashrc
2 단계 : Hadoop 구성
"$ HADOOP_HOME / etc / hadoop"위치에서 모든 Hadoop 구성 파일을 찾을 수 있습니다. Hadoop 인프라에 따라 이러한 구성 파일을 변경해야합니다.
$ cd $HADOOP_HOME/etc/hadoop
Java로 Hadoop 프로그램을 개발하려면 다음에서 Java 환경 변수를 재설정해야합니다. hadoop-env.sh 대체하여 파일 JAVA_HOME 시스템의 Java 위치와 함께 값.
export JAVA_HOME=/usr/local/jdk1.7.0_71
다음은 Hadoop을 구성하기 위해 편집해야하는 파일 목록입니다.
core-site.xml
그만큼 core-site.xml 파일에는 Hadoop 인스턴스에 사용되는 포트 번호, 파일 시스템에 할당 된 메모리, 데이터 저장을위한 메모리 제한 및 읽기 / 쓰기 버퍼 크기와 같은 정보가 포함됩니다.
core-site.xml을 열고 <configuration>, </ configuration> 태그 사이에 다음 속성을 추가합니다.
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xm
그만큼 hdfs-site.xml파일에는 복제 데이터 값, 이름 노드 경로 및 로컬 파일 시스템의 데이터 노드 경로와 같은 정보가 포함됩니다. Hadoop 인프라를 저장하려는 장소를 의미합니다.
다음 데이터를 가정 해 보겠습니다.
dfs.replication (data replication value) = 1
(In the below given path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode
(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
이 파일을 열고이 파일의 <configuration>, </ configuration> 태그 사이에 다음 속성을 추가합니다.
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>
</property>
</configuration>
Note:위 파일에서 모든 속성 값은 사용자가 정의합니다. Hadoop 인프라에 따라 변경할 수 있습니다.
mapred-site.xml
이 파일은 yarn을 Hadoop으로 구성하는 데 사용됩니다. mapred-site.xml 파일을 열고이 파일의 <configuration>, </ configuration> 태그 사이에 다음 속성을 추가합니다.
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
mapred-site.xml
이 파일은 우리가 사용하는 MapReduce 프레임 워크를 지정하는 데 사용됩니다. 기본적으로 Hadoop에는 mapred-site.xml 템플릿이 포함되어 있습니다. 먼저 파일을 복사해야합니다.mapred-site.xml.template ...에 mapred-site.xml 다음 명령을 사용하여 파일.
$ cp mapred-site.xml.template mapred-site.xml
열다 mapred-site.xml 파일을 열고이 파일의 <configuration>, </ configuration> 태그 사이에 다음 속성을 추가합니다.
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
Hadoop 설치 확인
다음 단계는 Hadoop 설치를 확인하는 데 사용됩니다.
1 단계 : 이름 노드 설정
다음과 같이 "hdfs namenode -format"명령을 사용하여 namenode를 설정합니다.
$ cd ~
$ hdfs namenode -format
예상 결과는 다음과 같습니다.
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain
1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/
2 단계 : Hadoop dfs 확인
다음 명령은 dfs를 시작하는 데 사용됩니다. 이 명령은 Hadoop 파일 시스템을 시작합니다.
$ start-dfs.sh
예상되는 출력은 다음과 같습니다.
10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]
3 단계 : Yarn 스크립트 확인
다음 명령은 yarn 스크립트를 시작하는 데 사용됩니다. 이 명령을 실행하면 실 악마가 시작됩니다.
$ start-yarn.sh
예상되는 출력은 다음과 같습니다.
starting yarn daemons
starting resource manager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-
hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
4 단계 : 브라우저에서 Hadoop 액세스
hadoop에 액세스하기위한 기본 포트 번호는 50070입니다. 다음 URL을 사용하여 브라우저에서 Hadoop 서비스를 가져옵니다.
http://localhost:50070/
5 단계 : 클러스터의 모든 애플리케이션 확인
클러스터의 모든 응용 프로그램에 액세스하기위한 기본 포트 번호는 8088입니다.이 서비스를 방문하려면 다음 URL을 사용하십시오.
http://localhost:8088/
Mahout 다운로드
Mahout은 웹 사이트 Mahout 에서 사용할 수 있습니다 . 웹 사이트에 제공된 링크에서 Mahout을 다운로드하십시오. 다음은 웹 사이트의 스크린 샷입니다.
1 단계
링크에서 Apache mahout 다운로드 http://mirror.nexcess.net/apache/mahout/ 다음 명령을 사용하십시오.
[Hadoop@localhost ~]$ wget
http://mirror.nexcess.net/apache/mahout/0.9/mahout-distribution-0.9.tar.gz
그때 mahout-distribution-0.9.tar.gz 시스템에 다운로드됩니다.
2 단계
폴더를 검색합니다. mahout-distribution-0.9.tar.gz 아래와 같이 다운로드 한 jar 파일을 저장하고 추출합니다.
[Hadoop@localhost ~]$ tar zxvf mahout-distribution-0.9.tar.gz
Maven 저장소
다음은 Eclipse를 사용하여 Apache Mahout을 빌드하는 pom.xml입니다.
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-core</artifactId>
<version>0.9</version>
</dependency>
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-math</artifactId>
<version>${mahout.version}</version>
</dependency>
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-integration</artifactId>
<version>${mahout.version}</version>
</dependency>
이 장에서는 널리 사용되는 머신 러닝 기술을 다룹니다. recommendation, 그 메커니즘과 Mahout 권장 사항을 구현하는 응용 프로그램을 작성하는 방법.
추천
Amazon이 관심을 가질만한 특정 제품에 관심을 끌기 위해 추천 항목 목록을 어떻게 제공하는지 궁금한 적이 있습니다!
Amazon에서 "Mahout in Action"책을 구입한다고 가정 해보십시오.
아마존은 선택한 상품과 함께 아래와 같이 관련 추천 아이템 목록도 표시합니다.
이러한 추천 목록은 다음을 통해 생성됩니다. recommender engines. Mahout은 다음과 같은 여러 유형의 추천 엔진을 제공합니다.
- 사용자 기반 추천자,
- 항목 기반 추천자 및
- 몇 가지 다른 알고리즘.
Mahout 추천 엔진
Mahout에는 비 분산, 비 Haadoop 기반 추천 엔진이 있습니다. 항목에 대한 사용자 기본 설정이있는 텍스트 문서를 전달해야합니다. 그리고이 엔진의 출력은 다른 항목에 대한 특정 사용자의 예상 선호도가 될 것입니다.
예
모바일, 가제트 및 액세서리와 같은 소비재를 판매하는 웹 사이트를 생각해보십시오. 이러한 사이트에서 Mahout의 기능을 구현하려면 추천 엔진을 구축 할 수 있습니다. 이 엔진은 사용자의 과거 구매 데이터를 분석하고이를 기반으로 신제품을 추천합니다.
추천 엔진을 구축하기 위해 Mahout에서 제공하는 구성 요소는 다음과 같습니다.
- DataModel
- UserSimilarity
- ItemSimilarity
- UserNeighborhood
- Recommender
데이터 저장소에서 데이터 모델이 준비되고 추천자 엔진에 입력으로 전달됩니다. Recommender 엔진은 특정 사용자에 대한 권장 사항을 생성합니다. 다음은 추천 엔진의 아키텍처입니다.
추천 엔진의 아키텍처
Mahout을 사용하여 추천자 구축
간단한 추천자를 개발하는 단계는 다음과 같습니다.
1 단계 : 데이터 모델 개체 생성
생성자 PearsonCorrelationSimilarity클래스에는 제품의 사용자, 항목 및 환경 설정 세부 사항을 포함하는 파일을 보유하는 데이터 모델 오브젝트가 필요합니다. 다음은 샘플 데이터 모델 파일입니다.
1,00,1.0
1,01,2.0
1,02,5.0
1,03,5.0
1,04,5.0
2,00,1.0
2,01,2.0
2,05,5.0
2,06,4.5
2,02,5.0
3,01,2.5
3,02,5.0
3,03,4.0
3,04,3.0
4,00,5.0
4,01,5.0
4,02,5.0
4,03,0.0
그만큼 DataModelobject에는 입력 파일의 경로를 포함하는 파일 개체가 필요합니다. 만들기DataModel 아래와 같이 개체.
DataModel datamodel = new FileDataModel(new File("input file"));
2 단계 : UserSimilarity 개체 만들기
창조하다 UserSimilarity 사용하는 개체 PearsonCorrelationSimilarity 아래와 같이 클래스 :
UserSimilarity similarity = new PearsonCorrelationSimilarity(datamodel);
3 단계 : UserNeighborhood 개체 만들기
이 개체는 주어진 사용자와 같은 사용자의 "이웃"을 계산합니다. 이웃에는 두 가지 유형이 있습니다.
NearestNUserNeighborhood-이 클래스 는 주어진 사용자 와 가장 가까운 n 명의 사용자 로 구성된 이웃을 계산합니다 . "Nearest"는 주어진 UserSimilarity로 정의됩니다.
ThresholdUserNeighborhood-이 클래스는 주어진 사용자와의 유사성이 특정 임계 값을 충족하거나 초과하는 모든 사용자로 구성된 이웃을 계산합니다. 유사성은 주어진 UserSimilarity에 의해 정의됩니다.
여기서 우리는 ThresholdUserNeighborhood 기본 설정 제한을 3.0으로 설정합니다.
UserNeighborhood neighborhood = new ThresholdUserNeighborhood(3.0, similarity, model);
4 단계 : 추천자 개체 만들기
창조하다 UserbasedRecomender목적. 위에서 만든 모든 객체를 아래와 같이 생성자에 전달합니다.
UserBasedRecommender recommender = new GenericUserBasedRecommender(model, neighborhood, similarity);
5 단계 : 사용자에게 항목 추천
권장 () 메소드를 사용하여 사용자에게 제품을 추천합니다. Recommender상호 작용. 이 방법에는 두 개의 매개 변수가 필요합니다. 첫 번째는 추천을 보내야하는 사용자의 사용자 ID를 나타내고 두 번째는 보낼 추천의 수를 나타냅니다. 다음은 사용법입니다.recommender() 방법:
List<RecommendedItem> recommendations = recommender.recommend(2, 3);
for (RecommendedItem recommendation : recommendations) {
System.out.println(recommendation);
}
Example Program
다음은 추천을 설정하는 예제 프로그램입니다. 사용자 ID가 2 인 사용자를위한 권장 사항을 준비하십시오.
import java.io.File;
import java.util.List;
import org.apache.mahout.cf.taste.impl.model.file.FileDataModel;
import org.apache.mahout.cf.taste.impl.neighborhood.ThresholdUserNeighborhood;
import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender;
import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity;
import org.apache.mahout.cf.taste.model.DataModel;
import org.apache.mahout.cf.taste.neighborhood.UserNeighborhood;
import org.apache.mahout.cf.taste.recommender.RecommendedItem;
import org.apache.mahout.cf.taste.recommender.UserBasedRecommender;
import org.apache.mahout.cf.taste.similarity.UserSimilarity;
public class Recommender {
public static void main(String args[]){
try{
//Creating data model
DataModel datamodel = new FileDataModel(new File("data")); //data
//Creating UserSimilarity object.
UserSimilarity usersimilarity = new PearsonCorrelationSimilarity(datamodel);
//Creating UserNeighbourHHood object.
UserNeighborhood userneighborhood = new ThresholdUserNeighborhood(3.0, usersimilarity, datamodel);
//Create UserRecomender
UserBasedRecommender recommender = new GenericUserBasedRecommender(datamodel, userneighborhood, usersimilarity);
List<RecommendedItem> recommendations = recommender.recommend(2, 3);
for (RecommendedItem recommendation : recommendations) {
System.out.println(recommendation);
}
}catch(Exception e){}
}
}
다음 명령을 사용하여 프로그램을 컴파일하십시오.
javac Recommender.java
java Recommender
다음 출력을 생성해야합니다.
RecommendedItem [item:3, value:4.5]
RecommendedItem [item:4, value:4.0]
클러스터링은 항목 간의 유사성에 따라 특정 컬렉션의 요소 또는 항목을 그룹으로 구성하는 절차입니다. 예를 들어, 온라인 뉴스 게시와 관련된 애플리케이션은 클러스터링을 사용하여 뉴스 기사를 그룹화합니다.
클러스터링의 응용
클러스터링은 시장 조사, 패턴 인식, 데이터 분석 및 이미지 처리와 같은 많은 응용 프로그램에서 광범위하게 사용됩니다.
클러스터링은 마케팅 담당자가 고객 기반에서 서로 다른 그룹을 발견하는 데 도움이 될 수 있습니다. 또한 구매 패턴에 따라 고객 그룹을 특성화 할 수 있습니다.
생물학 분야에서는 식물 및 동물 분류법을 도출하고, 유사한 기능을 가진 유전자를 분류하고, 개체군 고유의 구조에 대한 통찰력을 얻는 데 사용할 수 있습니다.
클러스터링은 지구 관측 데이터베이스에서 유사한 토지 사용 영역을 식별하는 데 도움이됩니다.
클러스터링은 정보 검색을 위해 웹에서 문서를 분류하는데도 도움이됩니다.
클러스터링은 신용 카드 사기 탐지와 같은 이상 값 탐지 응용 프로그램에 사용됩니다.
데이터 마이닝 기능인 Cluster Analysis는 데이터 분포에 대한 통찰력을 확보하여 각 클러스터의 특성을 관찰하는 도구 역할을합니다.
Mahout을 사용하여 주어진 데이터 세트를 클러스터링 할 수 있습니다. 필요한 단계는 다음과 같습니다.
Algorithm 클러스터의 요소를 그룹화하려면 적합한 클러스터링 알고리즘을 선택해야합니다.
Similarity and Dissimilarity 새로 발견 된 요소와 그룹의 요소 간의 유사성을 확인하려면 규칙이 있어야합니다.
Stopping Condition 클러스터링이 필요하지 않은 지점을 정의하려면 중지 조건이 필요합니다.
클러스터링 절차
주어진 데이터를 클러스터링하려면 다음이 필요합니다.
Hadoop 서버를 시작하십시오. Hadoop File System에 파일을 저장하는 데 필요한 디렉토리를 만듭니다. (캐노피의 경우 입력 파일, 시퀀스 파일 및 클러스터 된 출력에 대한 디렉토리를 생성합니다.)
입력 파일을 Unix 파일 시스템에서 Hadoop 파일 시스템으로 복사합니다.
입력 데이터에서 시퀀스 파일을 준비합니다.
사용 가능한 클러스터링 알고리즘을 실행합니다.
클러스터 된 데이터를 가져옵니다.
Hadoop 시작
Mahout은 Hadoop과 함께 작동하므로 Hadoop 서버가 실행되고 있는지 확인하십시오.
$ cd HADOOP_HOME/bin
$ start-all.sh
입력 파일 디렉토리 준비
다음 명령을 사용하여 입력 파일, 시퀀스 파일 및 클러스터링 된 데이터를 저장할 Hadoop 파일 시스템에 디렉토리를 만듭니다.
$ hadoop fs -p mkdir /mahout_data
$ hadoop fs -p mkdir /clustered_data
$ hadoop fs -p mkdir /mahout_seq
다음 URL에서 hadoop 웹 인터페이스를 사용하여 디렉토리가 생성되었는지 확인할 수 있습니다. http://localhost:50070/
아래와 같이 출력을 제공합니다.
입력 파일을 HDFS로 복사
이제 입력 데이터 파일을 Linux 파일 시스템에서 아래와 같이 Hadoop 파일 시스템의 mahout_data 디렉토리로 복사합니다. 입력 파일이 mydata.txt이고 / home / Hadoop / data / 디렉토리에 있다고 가정합니다.
$ hadoop fs -put /home/Hadoop/data/mydata.txt /mahout_data/
시퀀스 파일 준비
Mahout은 주어진 입력 파일을 시퀀스 파일 형식으로 변환하는 유틸리티를 제공합니다. 이 유틸리티에는 두 개의 매개 변수가 필요합니다.
- 원본 데이터가있는 입력 파일 디렉터리입니다.
- 클러스터 된 데이터가 저장 될 출력 파일 디렉토리입니다.
mahout의 도움말 프롬프트는 다음과 같습니다. seqdirectory 유용.
Step 1:Mahout 홈 디렉토리를 찾습니다. 아래와 같이 유틸리티의 도움을받을 수 있습니다.
[Hadoop@localhost bin]$ ./mahout seqdirectory --help
Job-Specific Options:
--input (-i) input Path to job input directory.
--output (-o) output The directory pathname for output.
--overwrite (-ow) If present, overwrite the output directory
다음 구문을 사용하여 유틸리티를 사용하여 시퀀스 파일을 생성합니다.
mahout seqdirectory -i <input file path> -o <output directory>
Example
mahout seqdirectory
-i hdfs://localhost:9000/mahout_seq/
-o hdfs://localhost:9000/clustered_data/
클러스터링 알고리즘
Mahout은 클러스터링을위한 두 가지 주요 알고리즘을 지원합니다.
- 캐노피 클러스터링
- K- 평균 클러스터링
캐노피 클러스터링
Canopy 클러스터링은 Mahout에서 클러스터링 목적으로 사용하는 간단하고 빠른 기술입니다. 개체는 일반 공간의 점으로 처리됩니다. 이 기술은 k- 평균 클러스터링과 같은 다른 클러스터링 기술의 초기 단계로 자주 사용됩니다. 다음 구문을 사용하여 Canopy 작업을 실행할 수 있습니다.
mahout canopy -i <input vectors directory>
-o <output directory>
-t1 <threshold value 1>
-t2 <threshold value 2>
캐노피 작업에는 시퀀스 파일이있는 입력 파일 디렉토리와 클러스터 된 데이터가 저장 될 출력 디렉토리가 필요합니다.
Example
mahout canopy -i hdfs://localhost:9000/mahout_seq/mydata.seq
-o hdfs://localhost:9000/clustered_data
-t1 20
-t2 30
주어진 출력 디렉토리에서 생성 된 클러스터 데이터를 얻을 수 있습니다.
K- 평균 클러스터링
K- 평균 클러스터링은 중요한 클러스터링 알고리즘입니다. k- 평균 군집화 알고리즘의 k는 데이터를 나눌 군집의 수를 나타냅니다. 예를 들어이 알고리즘에 지정된 k 값이 3으로 선택되면 알고리즘이 데이터를 3 개의 클러스터로 나눕니다.
각 개체는 공간에서 벡터로 표시됩니다. 처음에 k 개의 포인트는 알고리즘에 의해 무작위로 선택되고 중심으로 취급되며 각 중심에 가장 가까운 모든 객체가 클러스터됩니다. 거리 측정에는 여러 가지 알고리즘이 있으며 사용자는 필요한 알고리즘을 선택해야합니다.
Creating Vector Files
Canopy 알고리즘과 달리 k-means 알고리즘은 벡터 파일을 입력으로 요구하므로 벡터 파일을 만들어야합니다.
시퀀스 파일 형식에서 벡터 파일을 생성하기 위해 Mahout은 seq2parse 유용.
다음은 몇 가지 옵션입니다. seq2parse유용. 이 옵션을 사용하여 벡터 파일을 만듭니다.
$MAHOUT_HOME/bin/mahout seq2sparse
--analyzerName (-a) analyzerName The class name of the analyzer
--chunkSize (-chunk) chunkSize The chunkSize in MegaBytes.
--output (-o) output The directory pathname for o/p
--input (-i) input Path to job input directory.
벡터를 만든 후 k- 평균 알고리즘을 진행합니다. k-means 작업을 실행하는 구문은 다음과 같습니다.
mahout kmeans -i <input vectors directory>
-c <input clusters directory>
-o <output working directory>
-dm <Distance Measure technique>
-x <maximum number of iterations>
-k <number of initial clusters>
K- 평균 클러스터링 작업에는 입력 벡터 디렉터리, 출력 클러스터 디렉터리, 거리 측정, 수행 할 최대 반복 횟수 및 입력 데이터를 나눌 클러스터 수를 나타내는 정수 값이 필요합니다.
분류 란 무엇입니까?
분류는 알려진 데이터를 사용하여 새 데이터를 기존 범주 집합으로 분류하는 방법을 결정하는 기계 학습 기술입니다. 예를 들면
iTunes 응용 프로그램은 분류를 사용하여 재생 목록을 준비합니다.
Yahoo!와 같은 메일 서비스 제공 업체 Gmail은이 기술을 사용하여 새 메일을 스팸으로 분류할지 여부를 결정합니다. 분류 알고리즘은 특정 메일을 스팸으로 표시하는 사용자 습관을 분석하여 자체적으로 학습합니다. 이를 기반으로 분류자는 향후 메일을받은 편지함에 보관할지 스팸 폴더에 보관할지를 결정합니다.
분류 작동 원리
주어진 데이터 세트를 분류하는 동안 분류기 시스템은 다음 작업을 수행합니다.
- 처음에는 학습 알고리즘을 사용하여 새로운 데이터 모델이 준비됩니다.
- 그런 다음 준비된 데이터 모델이 테스트됩니다.
- 그 후이 데이터 모델은 새 데이터를 평가하고 해당 클래스를 결정하는 데 사용됩니다.
분류의 응용
Credit card fraud detection-분류 메커니즘은 신용 카드 사기를 예측하는 데 사용됩니다. 이전 사기의 기록 정보를 사용하여 분류기는 향후 어떤 거래가 사기로 변할 수 있는지 예측할 수 있습니다.
Spam e-mails -이전 스팸 메일의 특성에 따라 분류자는 새로 발견 된 메일을 스팸 폴더로 보낼지 여부를 결정합니다.
나이브 베이 즈 분류기
Mahout은 Naive Bayes 분류기 알고리즘을 사용합니다. 두 가지 구현을 사용합니다.
- 분산 형 Naive Bayes 분류
- 보완적인 Naive Bayes 분류
Naive Bayes는 분류기를 구성하는 간단한 기술입니다. 이러한 분류기를 훈련하기위한 단일 알고리즘이 아니라 알고리즘 제품군입니다. Bayes 분류기는 문제 인스턴스를 분류하는 모델을 구성합니다. 이러한 분류는 사용 가능한 데이터를 사용하여 이루어집니다.
naive Bayes의 장점은 분류에 필요한 매개 변수를 추정하기 위해 소량의 훈련 데이터 만 필요하다는 것입니다.
일부 유형의 확률 모델의 경우 naive Bayes 분류기는지도 학습 환경에서 매우 효율적으로 훈련 될 수 있습니다.
지나치게 단순화 된 가정에도 불구하고 naive Bayes 분류기는 많은 복잡한 실제 상황에서 매우 잘 작동했습니다.
분류 절차
분류를 구현하려면 다음 단계를 따라야합니다.
- 예제 데이터 생성
- 데이터에서 시퀀스 파일 만들기
- 시퀀스 파일을 벡터로 변환
- 벡터 훈련
- 벡터 테스트
1 단계 : 예제 데이터 생성
분류 할 데이터를 생성하거나 다운로드합니다. 예를 들어, 당신은 얻을 수 있습니다20 newsgroups 다음 링크의 예제 데이터 : http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz
입력 데이터를 저장할 디렉토리를 만듭니다. 아래와 같이 예제를 다운로드하십시오.
$ mkdir classification_example
$ cd classification_example
$tar xzvf 20news-bydate.tar.gz
wget http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz
2 단계 : 시퀀스 파일 생성
다음을 사용하여 예제에서 시퀀스 파일을 만듭니다. seqdirectory유용. 시퀀스를 생성하는 구문은 다음과 같습니다.
mahout seqdirectory -i <input file path> -o <output directory>
3 단계 : 시퀀스 파일을 벡터로 변환
다음을 사용하여 시퀀스 파일에서 벡터 파일 만들기 seq2parse유용. 옵션seq2parse 유틸리티는 다음과 같습니다.
$MAHOUT_HOME/bin/mahout seq2sparse
--analyzerName (-a) analyzerName The class name of the analyzer
--chunkSize (-chunk) chunkSize The chunkSize in MegaBytes.
--output (-o) output The directory pathname for o/p
--input (-i) input Path to job input directory.
4 단계 : 벡터 훈련
생성 된 벡터를 trainnb유용. 사용할 옵션trainnb 유틸리티는 다음과 같습니다.
mahout trainnb
-i ${PATH_TO_TFIDF_VECTORS}
-el
-o ${PATH_TO_MODEL}/model
-li ${PATH_TO_MODEL}/labelindex
-ow
-c
5 단계 : 벡터 테스트
다음을 사용하여 벡터 테스트 testnb유용. 사용할 옵션testnb 유틸리티는 다음과 같습니다.
mahout testnb
-i ${PATH_TO_TFIDF_TEST_VECTORS}
-m ${PATH_TO_MODEL}/model
-l ${PATH_TO_MODEL}/labelindex
-ow
-o ${PATH_TO_OUTPUT}
-c
-seq