Apache Tajo - Paramètres de configuration
La configuration de Tajo est basée sur le système de configuration de Hadoop. Ce chapitre explique en détail les paramètres de configuration de Tajo.
Paramètres de base
Tajo utilise les deux fichiers de configuration suivants -
- catalog-site.xml - configuration pour le serveur de catalogue.
- tajo-site.xml - configuration pour d'autres modules Tajo.
Configuration du mode distribué
La configuration du mode distribué s'exécute sur Hadoop Distributed File System (HDFS). Suivons les étapes pour configurer la configuration du mode distribué Tajo.
tajo-site.xml
Ce fichier est disponible @ /path/to/tajo/confrépertoire et agit comme configuration pour les autres modules Tajo. Pour accéder à Tajo en mode distribué, appliquez les modifications suivantes à“tajo-site.xml”.
<property>
<name>tajo.rootdir</name>
<value>hdfs://hostname:port/tajo</value>
</property>
<property>
<name>tajo.master.umbilical-rpc.address</name>
<value>hostname:26001</value>
</property>
<property>
<name>tajo.master.client-rpc.address</name>
<value>hostname:26002</value>
</property>
<property>
<name>tajo.catalog.client-rpc.address</name>
<value>hostname:26005</value>
</property>
Configuration du nœud maître
Tajo utilise HDFS comme type de stockage principal. La configuration est la suivante et doit être ajoutée à“tajo-site.xml”.
<property>
<name>tajo.rootdir</name>
<value>hdfs://namenode_hostname:port/path</value>
</property>
Configuration du catalogue
Si vous souhaitez personnaliser le service de catalogue, copiez $path/to/Tajo/conf/catalogsite.xml.template à $path/to/Tajo/conf/catalog-site.xml et ajoutez l'une des configurations suivantes si nécessaire.
Par exemple, si vous utilisez “Hive catalog store” pour accéder à Tajo, alors la configuration doit être comme suit -
<property>
<name>tajo.catalog.store.class</name>
<value>org.apache.tajo.catalog.store.HCatalogStore</value>
</property>
Si vous avez besoin de stocker MySQL catalogue, puis appliquez les modifications suivantes -
<property>
<name>tajo.catalog.store.class</name>
<value>org.apache.tajo.catalog.store.MySQLStore</value>
</property>
<property>
<name>tajo.catalog.jdbc.connection.id</name>
<value><mysql user name></value>
</property>
<property>
<name>tajo.catalog.jdbc.connection.password</name>
<value><mysql user password></value>
</property>
<property>
<name>tajo.catalog.jdbc.uri</name>
<value>jdbc:mysql://<mysql host name>:<mysql port>/<database name for tajo>
?createDatabaseIfNotExist = true</value>
</property>
De même, vous pouvez enregistrer les autres catalogues pris en charge par Tajo dans le fichier de configuration.
Configuration des travailleurs
Par défaut, le TajoWorker stocke les données temporaires sur le système de fichiers local. Il est défini dans le fichier «tajo-site.xml» comme suit -
<property>
<name>tajo.worker.tmpdir.locations</name>
<value>/disk1/tmpdir,/disk2/tmpdir,/disk3/tmpdir</value>
</property>
Pour augmenter la capacité d'exécution des tâches de chaque ressource de travail, choisissez la configuration suivante -
<property>
<name>tajo.worker.resource.cpu-cores</name>
<value>12</value>
</property>
<property>
<name>tajo.task.resource.min.memory-mb</name>
<value>2000</value>
</property>
<property>
<name>tajo.worker.resource.disks</name>
<value>4</value>
</property>
Pour que le worker Tajo s'exécute dans un mode dédié, choisissez la configuration suivante -
<property>
<name>tajo.worker.resource.dedicated</name>
<value>true</value>
</property>