Tutorial de Apache Tajo

Apache Tajo es un marco de almacenamiento de datos distribuido de código abierto para Hadoop. Tajo fue iniciado inicialmente por Gruter, una empresa de infraestructura con sede en Hadoop en Corea del Sur. Más tarde, expertos de Intel, Etsy, NASA, Cloudera, Hortonworks también contribuyeron al proyecto. Tajo se refiere a un avestruz en idioma coreano. En marzo de 2014, a Tajo se le otorgó un proyecto Apache de código abierto de alto nivel. Este tutorial explorará los conceptos básicos de Tajo y, a continuación, explicará la configuración del clúster, el shell Tajo, las consultas SQL, la integración con otras tecnologías de big data y finalmente concluirá con algunos ejemplos.

Antes de continuar con este tutorial, debe tener un conocimiento sólido del núcleo de Java, cualquiera de los sistemas operativos Linux y DBMS.

Este tutorial ha sido preparado para profesionales que aspiran a hacer carrera en el análisis de big data. Este tutorial le dará suficiente comprensión sobre Apache Tajo.

ja/tutorial