Talend - Guia Rápido
Talend é uma plataforma de integração de software que fornece soluções para integração de dados, qualidade de dados, gestão de dados, preparação de dados e big data. A demanda por profissionais de ETL com conhecimento em Talend é alta. Além disso, é a única ferramenta ETL com todos os plug-ins para se integrar facilmente ao ecossistema de Big Data.
De acordo com o Gartner, Talend cai no quadrante mágico de Líderes para ferramentas de integração de dados.
A Talend oferece vários produtos comerciais listados abaixo -
- Talend Data Quality
- Integração de Dados Talend
- Preparação de Dados Talend
- Talend Cloud
- Talend Big Data
- Plataforma Talend MDM (Master Data Management)
- Plataforma de serviços de dados Talend
- Talend Metadata Manager
- Talend Data Fabric
A Talend também oferece o Open Studio, que é uma ferramenta gratuita de código aberto amplamente utilizada para Integração de Dados e Big Data.
A seguir estão os requisitos do sistema para baixar e trabalhar no Talend Open Studio -
Sistema operacional recomendado
- Microsoft Windows 10
- Ubuntu 16.04 LTS
- Apple macOS 10.13 / High Sierra
Requisito de Memória
- Memória - Mínimo 4 GB, recomendado 8 GB
- Espaço de armazenamento - 30 GB
Além disso, você também precisa de um cluster Hadoop ativo e em execução (de preferência Cloudera.
Note - Java 8 deve estar disponível com variáveis de ambiente já definidas.
Para baixar o Talend Open Studio para Big Data e integração de dados, siga as etapas abaixo -
Step 1 - Vá para a página: https://www.talend.com/products/big-data/big-data-open-studio/e clique no botão de download. Você pode ver que o download do arquivo TOS_BD_xxxxxxx.zip é iniciado.
Step 2 - Depois que o download terminar, extraia o conteúdo do arquivo zip, ele irá criar uma pasta com todos os arquivos do Talend nela.
Step 3- Abra a pasta Talend e clique duas vezes no arquivo executável: TOS_BD-win-x86_64.exe. Aceite o Contrato de Licença do Usuário.
Step 4 - Crie um novo projeto e clique em Concluir.
Step 5 - Clique em Permitir acesso caso receba o Alerta de segurança do Windows.
Step 6 - Agora, a página de boas-vindas do Talend Open Studio será aberta.
Step 7 - Clique em Concluir para instalar as bibliotecas de terceiros necessárias.
Step 8 - Aceite os termos e clique em Concluir.
Step 9 - Clique em Sim.
Agora seu Talend Open Studio está pronto com as bibliotecas necessárias.
Talend Open Studio é uma ferramenta ETL de código aberto para Integração de Dados e Big Data. É uma ferramenta de desenvolvedor e designer de trabalho baseada em Eclipse. Você só precisa arrastar e soltar componentes e conectá-los para criar e executar trabalhos ETL ou ETL. A ferramenta criará o código Java para o trabalho automaticamente e você não precisa escrever uma única linha de código.
Existem várias opções para se conectar com fontes de dados, como RDBMS, Excel, ecossistema de Big Data SaaS, bem como aplicativos e tecnologias como SAP, CRM, Dropbox e muitos mais.
Alguns benefícios importantes que o Talend Open Studio oferece são os seguintes -
Fornece todos os recursos necessários para integração e sincronização de dados com 900 componentes, conectores embutidos, conversão automática de trabalhos para código Java e muito mais.
A ferramenta é totalmente gratuita, portanto, há uma grande economia de custos.
Nos últimos 12 anos, várias organizações gigantes adotaram o TOS para integração de dados, o que mostra um fator de confiança muito alto nesta ferramenta.
A comunidade Talend para integração de dados é muito ativa.
A Talend continua adicionando recursos a essas ferramentas e as documentações são bem estruturadas e muito fáceis de seguir.
A maioria das organizações obtém dados de vários locais e os armazena separadamente. Agora, se a organização precisa tomar decisões, ela precisa pegar dados de diferentes fontes, colocá-los em uma visão unificada e depois analisá-los para obter um resultado. Este processo é denominado Integração de Dados.
Benefícios
A integração de dados oferece muitos benefícios, conforme descrito abaixo -
Melhora a colaboração entre diferentes equipes na organização que tentam acessar os dados da organização.
Economiza tempo e facilita a análise de dados, pois os dados são integrados de forma eficaz.
O processo de integração de dados automatizado sincroniza os dados e facilita os relatórios em tempo real e periódicos, que de outra forma seriam demorados se feitos manualmente.
Os dados integrados de várias fontes amadurecem e melhoram com o tempo, o que eventualmente ajuda na melhor qualidade dos dados.
Trabalhando com Projetos
Nesta seção, vamos entender como trabalhar em projetos Talend -
Criando um Projeto
Dê um duplo clique no arquivo executável TOS Big Data, a janela mostrada abaixo será aberta.
Selecione a opção Criar um novo projeto, mencione o nome do projeto e clique em Criar.
Selecione o projeto que você criou e clique em Concluir.
Importando um Projeto
Clique duas vezes no arquivo executável TOS Big Data, você pode ver a janela conforme mostrado abaixo. Selecione a opção Importar um projeto de demonstração e clique em Selecionar.
Você pode escolher uma das opções mostradas abaixo. Aqui, estamos escolhendo Demos de integração de dados. Agora, clique em Concluir.
Agora, dê o nome e a descrição do projeto. Clique em Concluir.
Você pode ver seu projeto importado na lista de projetos existentes.
Agora, vamos entender como importar um projeto Talend existente.
Selecione a opção Importar um projeto existente e clique em Selecionar.
Dê o nome do projeto e selecione a opção “Selecionar diretório raiz”.
Navegue no diretório inicial do seu projeto Talend existente e clique em Concluir.
Seu projeto Talend existente será importado.
Abrindo um Projeto
Selecione um projeto de um projeto existente e clique em Concluir. Isso abrirá o projeto Talend.
Excluindo um Projeto
Para excluir um projeto, clique em Gerenciar conexões.
Clique em Excluir Projeto (s) Existente (s)
Selecione o projeto que deseja excluir e clique em OK.
Clique em OK novamente.
Exportando um Projeto
Clique na opção Exportar projeto.
Selecione o projeto que deseja exportar e forneça um caminho para onde ele deve ser exportado. Clique em Concluir.
O Modelo de Negócios é uma representação gráfica de um projeto de integração de dados. É uma representação não técnica do fluxo de trabalho do negócio.
Por que você precisa de um modelo de negócios?
Um modelo de negócios é construído para mostrar à alta gerência o que você está fazendo e também para que sua equipe entenda o que você está tentando realizar. Desenhar um Modelo de Negócio é considerado uma das melhores práticas que as organizações adotam no início de seu projeto de integração de dados. Além disso, ajudando na redução de custos, encontra e soluciona os gargalos do seu projeto. O modelo pode ser modificado durante e após a implementação do projeto, se necessário.
Criação de modelo de negócios no Talend Open Studio
O Talend open studio oferece várias formas e conectores para criar e projetar um modelo de negócios. Cada módulo em um modelo de negócios pode ter uma documentação anexada a si mesmo.
Talend Open Studio oferece as seguintes formas e opções de conector para a criação de um modelo de negócios -
Decision - Esta forma é usada para colocar a condição no modelo.
Action - Esta forma é usada para mostrar qualquer transformação, tradução ou formatação.
Terminal - Esta forma mostra o tipo de terminal de saída.
Data - Esta forma é usada para mostrar o tipo de dados.
Document - Esta forma é usada para inserir um objeto de documento que pode ser usado para entrada / saída dos dados processados.
Input - Esta forma é usada para inserir o objeto de entrada usando o qual o usuário pode passar os dados manualmente.
List - Esta forma contém os dados extraídos e pode ser definida para conter apenas certos tipos de dados na lista.
Database - Esta forma é usada para manter os dados de entrada / saída.
Actor - Esta forma simboliza os indivíduos envolvidos na tomada de decisões e processos técnicos
Ellipse - Insere uma forma de elipse.
Gear - Esta forma mostra os programas manuais que devem ser substituídos por trabalhos Talend.
Todas as operações no Talend são realizadas por conectores e componentes. Talend oferece mais de 800 conectores e componentes para realizar várias operações. Esses componentes estão presentes na paleta e existem 21 categorias principais às quais os componentes pertencem. Você pode escolher os conectores e apenas arrastar e soltar no painel do designer, ele criará o código Java automaticamente que será compilado quando você salvar o código do Talend.
As categorias principais que contêm componentes são mostradas abaixo -
A seguir está a lista de conectores e componentes amplamente usados para integração de dados no Talend Open Studio -
tMysqlConnection - Conecta ao banco de dados MySQL definido no componente.
tMysqlInput - Executa uma consulta ao banco de dados para ler um banco de dados e extrair campos (tabelas, visualizações, etc.) dependendo da consulta.
tMysqlOutput - Usado para escrever, atualizar, modificar dados em um banco de dados MySQL.
tFileInputDelimited - Lê um arquivo delimitado linha por linha e os divide em campos separados e o passa para o próximo componente.
tFileInputExcel - Lê um arquivo Excel linha por linha e os divide em campos separados e passa para o próximo componente.
tFileList - Obtém todos os arquivos e diretórios de um determinado padrão de máscara de arquivo.
tFileArchive - Compacta um conjunto de arquivos ou pastas em um arquivo compactado zip, gzip ou tar.gz.
tRowGenerator - Fornece um editor onde você pode escrever funções ou escolher expressões para gerar seus dados de amostra.
tMsgBox - Retorna uma caixa de diálogo com a mensagem especificada e um botão OK.
tLogRow- Monitora os dados sendo processados. Ele exibe dados / saída no console de execução.
tPreJob - Define os subtrabalhos que serão executados antes do início do seu trabalho real.
tMap- Atua como um plugin no estúdio Talend. Ele pega dados de uma ou mais fontes, os transforma e, em seguida, envia os dados transformados para um ou mais destinos.
tJoin - Junta 2 tabelas executando junções internas e externas entre o fluxo principal e o fluxo de pesquisa.
tJava - Permite usar código Java personalizado no programa Talend.
tRunJob - Gerencia sistemas de trabalho complexos, executando um trabalho Talend após o outro.
Esta é a implementação técnica / representação gráfica do modelo de negócios. Neste projeto, um ou mais componentes são conectados entre si para executar um processo de integração de dados. Assim, quando você arrasta e solta componentes no painel de design e os conecta com conectores, um design de trabalho converte tudo em código e cria um programa executável completo que forma o fluxo de dados.
Criando um Trabalho
Na janela do repositório, clique com o botão direito em Design do Trabalho e clique em Criar Trabalho.
Forneça o nome, a finalidade e a descrição do trabalho e clique em Concluir.
Você pode ver que seu trabalho foi criado em Design de Trabalho.
Agora, vamos usar este trabalho para adicionar componentes, conectá-los e configurá-los. Aqui, pegaremos um arquivo Excel como entrada e produziremos um arquivo Excel como saída com os mesmos dados.
Adicionando componentes a um trabalho
Existem vários componentes na paleta para escolher. Também existe uma opção de pesquisa, na qual você pode inserir o nome do componente para selecioná-lo.
Visto que aqui estamos pegando um arquivo Excel como entrada, arrastaremos e soltaremos o componente tFileInputExcel da paleta para a janela Designer.
Agora, se você clicar em qualquer lugar da janela do designer, uma caixa de pesquisa aparecerá. Encontre tLogRow e selecione-o para trazê-lo para a janela do designer.
Finalmente, selecione o componente tFileOutputExcel na paleta e arraste e solte-o na janela do designer.
Agora, a adição dos componentes está concluída.
Conectando os componentes
Depois de adicionar componentes, você deve conectá-los. Clique com o botão direito no primeiro componente tFileInputExcel e desenhe uma linha principal para tLogRow como mostrado abaixo.
Da mesma forma, clique com o botão direito em tLogRow e desenhe uma linha principal em tFileOutputExcel. Agora, seus componentes estão conectados.
Configurando os componentes
Depois de adicionar e conectar os componentes no trabalho, você precisa configurá-los. Para isso, clique duas vezes no primeiro componente tFileInputExcel para configurá-lo. Forneça o caminho do seu arquivo de entrada em Nome do arquivo / fluxo conforme mostrado abaixo.
Se a sua 1 st linha no excel é ter os nomes das colunas, coloque 1 na opção de cabeçalho.
Clique em Editar esquema e adicione as colunas e seu tipo de acordo com seu arquivo Excel de entrada. Clique em Ok após adicionar o esquema.
Clique sim.
No componente tLogRow, clique nas colunas de sincronização e selecione o modo no qual você deseja gerar as linhas de sua entrada. Aqui, selecionamos o modo Básico com “,” como separador de campo.
Finalmente, no componente tFileOutputExcel, forneça o caminho do nome do arquivo onde você deseja armazenar
seu arquivo excel de saída com o nome da planilha. Click on sync columns.
Executando o Trabalho
Quando terminar de adicionar, conectar e configurar seus componentes, você está pronto para executar seu trabalho do Talend. Clique no botão Executar para iniciar a execução.
Você verá a saída no modo básico com o separador “,”.
Você também pode ver que sua saída é salva como um excel no caminho de saída que você mencionou.
Metadados basicamente significam dados sobre dados. Diz sobre o quê, quando, por quê, quem, onde, qual e como usar os dados. No Talend, os metadados contêm todas as informações sobre os dados que estão presentes no estúdio Talend. A opção de metadados está presente no painel Repositório do Talend Open Studio.
Várias fontes como conexões de banco de dados, diferentes tipos de arquivos, LDAP, Azure, Salesforce, Web Services FTP, Hadoop Cluster e muitas outras opções estão presentes em Talend Metadata.
O principal uso de metadados no Talend Open Studio é que você pode usar essas fontes de dados em vários trabalhos apenas arrastando e soltando do painel Metadados no repositório.
Variáveis de contexto são as variáveis que podem ter valores diferentes em ambientes diferentes. Você pode criar um grupo de contexto que pode conter várias variáveis de contexto. Você não precisa adicionar cada variável de contexto, uma por uma, a um trabalho, você pode simplesmente adicionar o grupo de contexto ao trabalho.
Essas variáveis são utilizadas para preparar a produção do código. Isso significa que usando variáveis de contexto, você pode mover o código em ambientes de desenvolvimento, teste ou produção, ele será executado em todos os ambientes.
Em qualquer trabalho, você pode ir para a guia Contextos conforme mostrado abaixo e adicionar variáveis de contexto.
Neste capítulo, vamos examinar o gerenciamento de tarefas e as funcionalidades correspondentes incluídas no Talend.
Ativando / Desativando um Componente
Ativar / desativar um componente é muito simples. Você só precisa selecionar o componente, clicar com o botão direito sobre ele e escolher a opção de desativar ou ativar aquele componente.
Importando / Exportando Itens e Construindo Trabalhos
Para exportar o item do trabalho, clique com o botão direito do mouse no trabalho em Projetos de Trabalho e clique em Exportar itens.
Insira o caminho para onde deseja exportar o item e clique em Concluir.
Para importar um item do trabalho, clique com o botão direito do mouse no trabalho nos Desenhos de Trabalho e clique em Importar itens.
Procure o diretório raiz de onde deseja importar os itens.
Selecione todas as caixas de seleção e clique em Concluir.
Neste capítulo, vamos entender como lidar com a execução de uma tarefa no Talend.
Para construir um trabalho, clique com o botão direito no trabalho e selecione a opção Criar Trabalho.
Mencione o caminho onde deseja arquivar o trabalho, selecione a versão do trabalho e o tipo de compilação e clique em Concluir.
Como executar o trabalho no modo normal
Para executar um trabalho em um nó normal, você precisa selecionar “Basic Run” e clicar no botão Run para que a execução comece.
Como executar o trabalho no modo de depuração
Para executar a tarefa em modo de depuração, adicione um ponto de interrupção aos componentes que deseja depurar.
Em seguida, selecione e clique com o botão direito do mouse no componente, clique na opção Add Breakpoint. Observe que aqui adicionamos pontos de interrupção aos componentes tFileInputExcel e tLogRow. Em seguida, vá para Debug Run e clique no botão Java Debug.
Você pode observar na imagem a seguir que o trabalho agora será executado no modo de depuração e de acordo com os pontos de interrupção que mencionamos.
Configurações avançadas
Na configuração Avançada, você pode selecionar as configurações de Estatísticas, Tempo de Execução, Salvar Job antes da Execução, Limpar antes de Executar e JVM. Cada uma dessas opções tem a funcionalidade explicada aqui -
Statistics - Mostra a taxa de desempenho do processamento;
Exec Time - O tempo necessário para executar o trabalho.
Save Job before Execution - Salva automaticamente o trabalho antes do início da execução.
Clear before Run - Remove tudo do console de saída.
JVM Settings - Ajuda-nos a configurar os próprios argumentos Java.
O slogan do Open Studio com Big Data é “Simplifique ETL e ELT com a principal ferramenta gratuita de ETL de código aberto para Big Data”. Neste capítulo, vamos examinar o uso do Talend como uma ferramenta para processamento de dados em um ambiente de big data.
Introdução
Talend Open Studio - Big Data é uma ferramenta gratuita e de código aberto para processar seus dados com muita facilidade em um ambiente de big data. Você tem muitos componentes de big data disponíveis no Talend Open Studio, que permite criar e executar trabalhos do Hadoop simplesmente arrastando e soltando alguns componentes do Hadoop.
Além disso, não precisamos escrever grandes linhas de códigos MapReduce; Talend Open Studio Big data ajuda você a fazer isso com os componentes presentes nele. Ele gera automaticamente o código MapReduce para você, você só precisa arrastar e soltar os componentes e configurar alguns parâmetros.
Também oferece a opção de se conectar a várias distribuições de Big Data, como Cloudera, HortonWorks, MapR, Amazon EMR e até mesmo Apache.
Componentes Talend para Big Data
A lista de categorias com componentes para executar um trabalho no ambiente de Big Data incluída em Big Data, é mostrada abaixo -
A lista de conectores e componentes de Big Data no Talend Open Studio é mostrada abaixo -
tHDFSConnection - Usado para conectar-se ao HDFS (Hadoop Distributed File System).
tHDFSInput - Lê os dados do caminho hdfs fornecido, coloca-os no esquema talend e então os passa para o próximo componente no trabalho.
tHDFSList - Recupera todos os arquivos e pastas no caminho hdfs fornecido.
tHDFSPut - Copia o arquivo / pasta do sistema de arquivos local (definido pelo usuário) para hdfs no caminho fornecido.
tHDFSGet - Copia o arquivo / pasta de hdfs para o sistema de arquivos local (definido pelo usuário) no caminho fornecido.
tHDFSDelete - Exclui o arquivo do HDFS
tHDFSExist - Verifica se um arquivo está presente no HDFS ou não.
tHDFSOutput - Grava fluxos de dados no HDFS.
tCassandraConnection - Abre a conexão com o servidor Cassandra.
tCassandraRow - Executa consultas CQL (linguagem de consulta Cassandra) no banco de dados especificado.
tHBaseConnection - Abre a conexão com o banco de dados HBase.
tHBaseInput - lê dados do banco de dados HBase.
tHiveConnection - Abre a conexão com o banco de dados Hive.
tHiveCreateTable - Cria uma tabela dentro de um banco de dados hive.
tHiveInput - Lê dados do banco de dados do hive.
tHiveLoad - Grava dados na tabela do hive ou em um diretório especificado.
tHiveRow - executa consultas HiveQL no banco de dados especificado.
tPigLoad - Carrega dados de entrada para fluxo de saída.
tPigMap - Usado para transformar e rotear os dados em um processo pig.
tPigJoin - Executa a operação de junção de 2 arquivos com base em chaves de junção.
tPigCoGroup - Agrupa e agrega os dados provenientes de várias entradas.
tPigSort - Classifica os dados fornecidos com base em uma ou mais chaves de classificação definidas.
tPigStoreResult - Armazena o resultado da operação pig em um espaço de armazenamento definido.
tPigFilterRow - Filtra as colunas especificadas para dividir os dados com base na condição fornecida.
tPigDistinct - Remove as tuplas duplicadas da relação.
tSqoopImport - Transfere dados de banco de dados relacional como MySQL, Oracle DB para HDFS.
tSqoopExport - Transfere dados de HDFS para banco de dados relacional como MySQL, Oracle DB
Neste capítulo, vamos aprender em detalhes sobre como Talend funciona com o sistema de arquivos distribuído Hadoop.
Configurações e pré-requisitos
Antes de prosseguirmos no Talend com HDFS, devemos aprender sobre as configurações e pré-requisitos que devem ser atendidos para essa finalidade.
Aqui estamos executando o início rápido 5.10 VM do Cloudera na caixa virtual. Uma rede somente host deve ser usada nesta VM.
IP de rede somente host: 192.168.56.101
Você deve ter o mesmo host em execução no gerenciador de cloudera também.
Agora, em seu sistema Windows, vá para c: \ Windows \ System32 \ Drivers \ etc \ hosts e edite este arquivo usando o Bloco de notas conforme mostrado abaixo.
Da mesma forma, em sua VM de início rápido cloudera, edite seu arquivo / etc / hosts conforme mostrado abaixo.
sudo gedit /etc/hosts
Configurando a conexão do Hadoop
No painel do repositório, vá para Metadados. Clique com o botão direito do mouse em Hadoop Cluster e crie um novo cluster. Forneça o nome, a finalidade e a descrição para esta conexão de cluster Hadoop.
Clique em Avançar.
Selecione a distribuição como cloudera e escolha a versão que você está usando. Selecione a opção de recuperação de configuração e clique em Avançar.
Insira as credenciais do gerente (URI com porta, nome de usuário, senha) conforme mostrado abaixo e clique em Conectar. Se os detalhes estiverem corretos, você obterá o Cloudera QuickStart nos clusters descobertos.
Clique em Buscar. Isso irá buscar todas as conexões e configurações para HDFS, YARN, HBASE, HIVE.
Selecione Tudo e clique em Concluir.
Observe que todos os parâmetros de conexão serão preenchidos automaticamente. Mencione cloudera no nome de usuário e clique em Concluir.
Com isso, você se conectou com êxito a um Hadoop Cluster.
Conectando ao HDFS
Neste trabalho, listaremos todos os diretórios e arquivos que estão presentes no HDFS.
Em primeiro lugar, criaremos um trabalho e, em seguida, adicionaremos componentes HDFS a ele. Clique com o botão direito em Job Design e crie um novo job - hadoopjob.
Agora adicione 2 componentes da paleta - tHDFSConnection e tHDFSList. Clique com o botão direito em tHDFSConnection e conecte esses 2 componentes usando o gatilho 'OnSubJobOk'.
Agora, configure ambos os componentes do talend hdfs.
Em tHDFSConnection, escolha Repositório como o Tipo de propriedade e selecione o cluster Hadoop cloudera que você criou anteriormente. Ele preencherá automaticamente todos os detalhes necessários para este componente.
Em tHDFSList, selecione “Usar uma conexão existente” e na lista de componentes escolha o tHDFSConnection que você configurou.
Forneça o caminho inicial do HDFS na opção HDFS Directory e clique no botão de navegação à direita.
Se você estabeleceu a conexão corretamente com as configurações mencionadas acima, você verá uma janela conforme mostrado abaixo. Ele listará todos os diretórios e arquivos presentes na página inicial do HDFS.
Você pode verificar isso verificando seu HDFS na cloudera.
Lendo arquivo do HDFS
Nesta seção, vamos entender como ler um arquivo do HDFS no Talend. Você pode criar um novo trabalho para este propósito, porém aqui estamos usando o existente.
Arraste e solte 3 componentes - tHDFSConnection, tHDFSInput e tLogRow da paleta para a janela do designer.
Clique com o botão direito em tHDFSConnection e conecte o componente tHDFSInput usando o gatilho 'OnSubJobOk'.
Clique com o botão direito em tHDFSInput e arraste um link principal para tLogRow.
Observe que tHDFSConnection terá a configuração semelhante à anterior. Em tHDFSInput, selecione “Usar uma conexão existente” e, na lista de componentes, escolha tHDFSConnection.
Em Nome do arquivo, forneça o caminho HDFS do arquivo que deseja ler. Aqui estamos lendo um arquivo de texto simples, então nosso tipo de arquivo é Arquivo de texto. Da mesma forma, dependendo da sua entrada, preencha o separador de linha, o separador de campo e os detalhes do cabeçalho conforme mencionado abaixo. Por fim, clique no botão Editar esquema.
Como nosso arquivo contém apenas texto simples, estamos adicionando apenas uma coluna do tipo String. Agora, clique em Ok.
Note - Quando sua entrada tem várias colunas de tipos diferentes, você precisa mencionar o esquema aqui de acordo.
No componente tLogRow, clique em Sincronizar colunas no esquema de edição.
Selecione o modo em que deseja que sua saída seja impressa.
Finalmente, clique em Executar para executar o trabalho.
Depois de ler um arquivo HDFS com êxito, você verá a seguinte saída.
Gravando arquivo em HDFS
Vamos ver como escrever um arquivo do HDFS no Talend. Arraste e solte 3 componentes - tHDFSConnection, tFileInputDelimited e tHDFSOutput da paleta para a janela do designer.
Clique com o botão direito em tHDFSConnection e conecte o componente tFileInputDelimited usando o gatilho 'OnSubJobOk'.
Clique com o botão direito em tFileInputDelimited e arraste um link principal para tHDFSOutput.
Observe que tHDFSConnection terá a configuração semelhante à anterior.
Agora, em tFileInputDelimited, forneça o caminho do arquivo de entrada na opção File name / Stream. Aqui, estamos usando um arquivo csv como entrada, portanto, o separador de campo é “,”.
Selecione o cabeçalho, rodapé e limite de acordo com seu arquivo de entrada. Observe que aqui nosso cabeçalho é 1 porque a linha 1 contém os nomes das colunas e o limite é 3 porque estamos gravando apenas as 3 primeiras linhas no HDFS.
Agora, clique em editar esquema.
Agora, de acordo com nosso arquivo de entrada, defina o esquema. Nosso arquivo de entrada possui 3 colunas, conforme mencionado abaixo.
No componente tHDFSOutput, clique em sincronizar colunas. Em seguida, selecione tHDFSConnection em Usar uma conexão existente. Além disso, em Nome do arquivo, forneça um caminho HDFS onde deseja gravar seu arquivo.
Observe que o tipo de arquivo será um arquivo de texto, a Ação será “criar”, o separador de linha será “\ n” e o separador de campo será “;”
Finalmente, clique em Executar para executar seu trabalho. Depois que o trabalho for executado com êxito, verifique se o arquivo está lá no HDFS.
Execute o seguinte comando hdfs com o caminho de saída que você mencionou em seu trabalho.
hdfs dfs -cat /input/talendwrite
Você verá a seguinte saída se tiver êxito ao escrever no HDFS.
No capítulo anterior, vimos como o Talend funciona com Big Data. Neste capítulo, vamos entender como usar o mapa Reduce with Talend.
Criação de um trabalho Talend MapReduce
Vamos aprender como executar um trabalho MapReduce no Talend. Aqui, executaremos um exemplo de contagem de palavras MapReduce.
Para isso, clique com o botão direito do mouse em Job Design e crie um novo job - MapreduceJob. Mencione os detalhes do trabalho e clique em Concluir.
Adicionando componentes ao trabalho MapReduce
Para adicionar componentes a um trabalho MapReduce, arraste e solte cinco componentes de Talend - tHDFSInput, tNormalize, tAggregateRow, tMap, tOutput do palete para a janela do designer. Clique com o botão direito em tHDFSInput e crie o link principal para tNormalize.
Clique com o botão direito em tNormalize e crie o link principal para tAggregateRow. Então, clique com o botão direito em tAggregateRow e crie o link principal para tMap. Agora, clique com o botão direito em tMap e crie o link principal para tHDFSOutput.
Configurando Componentes e Transformações
Em tHDFSInput, selecione a distribuição cloudera e sua versão. Observe que o URI do Namenode deve ser “hdfs: //quickstart.cloudera: 8020” e o nome de usuário deve ser “cloudera”. Na opção de nome de arquivo, forneça o caminho de seu arquivo de entrada para o trabalho MapReduce. Certifique-se de que esse arquivo de entrada esteja presente no HDFS.
Agora, selecione o tipo de arquivo, separador de linha, separador de arquivos e cabeçalho de acordo com seu arquivo de entrada.
Clique em editar esquema e adicione o campo “linha” como tipo de string.
Em tNomalize, a coluna a normalizar será uma linha e o separador de item será um espaço em branco -> ““. Agora, clique em editar esquema. tNormalize terá coluna de linha e tAggregateRow terá 2 colunas de palavra e contagem de palavras como mostrado abaixo.
Em tAggregateRow, coloque a palavra como coluna de saída em Group by option. Em operações, coloque a contagem de palavras como coluna de saída, função como contagem e posição da coluna de entrada como linha.
Agora clique duas vezes no componente tMap para entrar no editor de mapas e mapear a entrada com a saída necessária. Neste exemplo, a palavra é mapeada com a palavra e a contagem de palavras é mapeada com a contagem de palavras. Na coluna da expressão, clique em […] para entrar no construtor de expressão.
Agora, selecione StringHandling na lista de categorias e a função UPCASE. Edite a expressão para “StringHandling.UPCASE (row3.word)” e clique em OK. Mantenha row3.wordcount na coluna de expressão correspondente a wordcount conforme mostrado abaixo.
Em tHDFSOutput, conecte-se ao cluster Hadoop que criamos do tipo de propriedade como repositório. Observe que os campos serão preenchidos automaticamente. Em Nome do arquivo, forneça o caminho de saída onde deseja armazenar a saída. Mantenha a ação, separador de linha e separador de campo conforme mostrado abaixo.
Execução do trabalho MapReduce
Depois que sua configuração for concluída com êxito, clique em Executar e execute seu trabalho MapReduce.
Vá para o caminho do HDFS e verifique a saída. Observe que todas as palavras estarão em maiúsculas com sua contagem de palavras.
Neste capítulo, vamos aprender como trabalhar com um trabalho de Pig em Talend.
Criando um Talend Pig Job
Nesta seção, vamos aprender como executar um trabalho de Pig no Talend. Aqui, processaremos os dados da NYSE para descobrir o volume médio de estoque da IBM.
Para isso, clique com o botão direito do mouse em Job Design e crie um novo job - pigjob. Mencione os detalhes do trabalho e clique em Concluir.
Adicionando componentes ao trabalho do Pig
Para adicionar componentes ao trabalho do Pig, arraste e solte quatro componentes do Talend: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult, do palete para a janela do designer.
Em seguida, clique com o botão direito em tPigLoad e crie a linha Pig Combine para tPigFilterRow. Em seguida, clique com o botão direito em tPigFilterRow e crie a linha Pig Combine para tPigAggregate. Clique com o botão direito em tPigAggregate e crie a linha de combinação Pig para tPigStoreResult.
Configurando Componentes e Transformações
Em tPigLoad, mencione a distribuição como cloudera e a versão de cloudera. Observe que o URI do Namenode deve ser “hdfs: //quickstart.cloudera: 8020” e o Gerenciador de recursos deve ser “quickstart.cloudera: 8020”. Além disso, o nome de usuário deve ser “cloudera”.
No URI do arquivo de entrada, forneça o caminho do arquivo de entrada da NYSE para o pig job. Observe que esse arquivo de entrada deve estar presente no HDFS.
Clique em editar esquema, adicione as colunas e seu tipo conforme mostrado abaixo.
Em tPigFilterRow, selecione a opção “Usar filtro avançado” e coloque “stock_symbol = = 'IBM'” na opção Filtro.
Em tAggregateRow, clique em editar esquema e adicione a coluna avg_stock_volume na saída, conforme mostrado abaixo.
Agora, coloque a coluna stock_exchange em Group by option. Adicione a coluna avg_stock_volume no campo Operations com a função count e stock_exchange como coluna de entrada.
Em tPigStoreResult, forneça o caminho de saída no URI da pasta de resultados onde você deseja armazenar o resultado do trabalho do Pig. Selecione a função de armazenamento como PigStorage e o separador de campo (não obrigatório) como “\ t”.
Executando o Pig Job
Agora clique em Executar para executar seu trabalho do Pig. (Ignore os avisos)
Assim que o trabalho terminar, vá e verifique sua saída no caminho HDFS que você mencionou para armazenar o resultado do trabalho pig. O volume médio de estoque da IBM é 500.
Neste capítulo, vamos entender como trabalhar com o trabalho Hive em Talend.
Criação de um trabalho Talend Hive
Como exemplo, carregaremos os dados da NYSE em uma tabela de colmeia e executaremos uma consulta de seção básica. Clique com o botão direito em Job Design e crie um novo job - hivejob. Mencione os detalhes do trabalho e clique em Concluir.
Adicionando componentes ao trabalho do Hive
Para atribuir componentes a um trabalho do Hive, arraste e solte cinco componentes principais - tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput e tLogRow do palete para a janela do designer. Em seguida, clique com o botão direito em tHiveConnection e crie o gatilho OnSubjobOk para tHiveCreateTable. Agora, clique com o botão direito em tHiveCreateTable e crie o gatilho OnSubjobOk para tHiveLoad. Clique com o botão direito em tHiveLoad e crie o gatilho iterativo em tHiveInput. Finalmente, clique com o botão direito em tHiveInput e crie uma linha principal para tLogRow.
Configurando Componentes e Transformações
Em tHiveConnection, selecione a distribuição como cloudera e a versão que você está usando. Observe que o modo de conexão será independente e o Hive Service será o Hive 2. Verifique também se os parâmetros a seguir estão definidos de acordo -
- Host: “quickstart.cloudera”
- Porta: “10000”
- Banco de dados: “padrão”
- Nome de usuário: “colmeia”
Observe que a senha será preenchida automaticamente, você não precisa editá-la. Além disso, outras propriedades do Hadoop serão predefinidas e definidas por padrão.
Em tHiveCreateTable, selecione Usar uma conexão existente e coloque tHiveConnection na lista de componentes. Dê o nome da tabela que você deseja criar no banco de dados padrão. Mantenha os outros parâmetros conforme mostrado abaixo.
Em tHiveLoad, selecione “Usar uma conexão existente” e coloque tHiveConnection na lista de componentes. Selecione LOAD na ação Carregar. Em Caminho do arquivo, forneça o caminho HDFS do arquivo de entrada da NYSE. Mencione a tabela em Nome da tabela, na qual deseja carregar a entrada. Mantenha os outros parâmetros conforme mostrado abaixo.
Em tHiveInput, selecione Usar uma conexão existente e coloque tHiveConnection na lista de componentes. Clique em editar esquema, adicione as colunas e seu tipo conforme mostrado no instantâneo do esquema abaixo. Agora dê o nome da tabela que você criou em tHiveCreateTable.
Coloque sua consulta na opção de consulta que deseja executar na tabela do Hive. Aqui, estamos imprimindo todas as colunas das primeiras 10 linhas na tabela de seção de teste.
Em tLogRow, clique em colunas de sincronização e selecione o modo Tabela para mostrar a saída.
Executando o Trabalho do Hive
Clique em Executar para iniciar a execução. Se todas as conexões e parâmetros foram definidos corretamente, você verá a saída de sua consulta conforme mostrado abaixo.