Talend - Trabalhando com Pig
Neste capítulo, vamos aprender como trabalhar com um trabalho de Pig em Talend.
Criando um Talend Pig Job
Nesta seção, vamos aprender como executar um trabalho Pig no Talend. Aqui, processaremos os dados da NYSE para descobrir o volume médio de estoque da IBM.
Para isso, clique com o botão direito do mouse em Job Design e crie um novo job - pigjob. Mencione os detalhes do trabalho e clique em Concluir.
Adicionando componentes ao trabalho do Pig
Para adicionar componentes ao trabalho do Pig, arraste e solte quatro componentes do Talend: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult, do palete para a janela do designer.
Em seguida, clique com o botão direito em tPigLoad e crie a linha Pig Combine para tPigFilterRow. Em seguida, clique com o botão direito em tPigFilterRow e crie a linha Pig Combine para tPigAggregate. Clique com o botão direito em tPigAggregate e crie a linha de combinação Pig para tPigStoreResult.
Configurando Componentes e Transformações
Em tPigLoad, mencione a distribuição como cloudera e a versão de cloudera. Observe que o URI do Namenode deve ser “hdfs: //quickstart.cloudera: 8020” e o Gerenciador de recursos deve ser “quickstart.cloudera: 8020”. Além disso, o nome de usuário deve ser “cloudera”.
No URI do arquivo de entrada, forneça o caminho do arquivo de entrada da NYSE para o pig job. Observe que esse arquivo de entrada deve estar presente no HDFS.
Clique em editar esquema, adicione as colunas e seu tipo conforme mostrado abaixo.
Em tPigFilterRow, selecione a opção “Usar filtro avançado” e coloque “stock_symbol = = 'IBM'” na opção Filtro.
Em tAggregateRow, clique em editar esquema e adicione a coluna avg_stock_volume na saída, conforme mostrado abaixo.
Agora, coloque a coluna stock_exchange em Group by option. Adicione a coluna avg_stock_volume no campo Operations com a função count e stock_exchange como coluna de entrada.
Em tPigStoreResult, forneça o caminho de saída no URI da pasta de resultados onde deseja armazenar o resultado do trabalho do Pig. Selecione a função de armazenamento como PigStorage e o separador de campo (não obrigatório) como “\ t”.
Executando o Pig Job
Agora clique em Executar para executar seu trabalho do Pig. (Ignore os avisos)
Quando o trabalho terminar, vá e verifique sua saída no caminho HDFS que você mencionou para armazenar o resultado do trabalho pig. O volume médio de estoque da IBM é 500.