Apache Tajo - Guida rapida
Sistema di data warehouse distribuito
Il data warehouse è un database relazionale progettato per query e analisi piuttosto che per l'elaborazione delle transazioni. È una raccolta di dati orientata al soggetto, integrata, variabile nel tempo e non volatile. Questi dati aiutano gli analisti a prendere decisioni informate in un'organizzazione, ma i volumi di dati relazionali aumentano di giorno in giorno.
Per superare le sfide, il sistema di data warehouse distribuito condivide i dati tra più repository di dati allo scopo di Online Analytical Processing (OLAP). Ogni data warehouse può appartenere a una o più organizzazioni. Esegue il bilanciamento del carico e la scalabilità. I metadati vengono replicati e distribuiti centralmente.
Apache Tajo è un sistema di data warehouse distribuito che utilizza Hadoop Distributed File System (HDFS) come livello di archiviazione e ha il proprio motore di esecuzione delle query invece del framework MapReduce.
Panoramica di SQL su Hadoop
Hadoop è un framework open source che consente di archiviare ed elaborare big data in un ambiente distribuito. È estremamente veloce e potente. Tuttavia, Hadoop ha funzionalità di query limitate, quindi le sue prestazioni possono essere migliorate ancora con l'aiuto di SQL su Hadoop. Ciò consente agli utenti di interagire con Hadoop tramite semplici comandi SQL.
Alcuni degli esempi di applicazioni SQL su Hadoop sono Hive, Impala, Drill, Presto, Spark, HAWQ e Apache Tajo.
Cos'è Apache Tajo
Apache Tajo è un framework di elaborazione dati relazionale e distribuito. È progettato per un'analisi delle query ad-hoc scalabile e a bassa latenza.
Tajo supporta SQL standard e vari formati di dati. La maggior parte delle query Tajo può essere eseguita senza alcuna modifica.
Tajo ha fault-tolerance tramite un meccanismo di riavvio per le attività non riuscite e un motore estensibile di riscrittura delle query.
Tajo esegue il necessario ETL (Extract Transform and Load process)operazioni per riepilogare set di dati di grandi dimensioni archiviati su HDFS. È una scelta alternativa a Hive / Pig.
L'ultima versione di Tajo ha una maggiore connettività ai programmi Java e ai database di terze parti come Oracle e PostGreSQL.
Caratteristiche di Apache Tajo
Apache Tajo ha le seguenti caratteristiche:
- Scalabilità superiore e prestazioni ottimizzate
- Bassa latenza
- Funzioni definite dall'utente
- Framework di elaborazione dell'archiviazione di righe / colonne.
- Compatibilità con HiveQL e Hive MetaStore
- Flusso di dati semplice e facile manutenzione.
Vantaggi di Apache Tajo
Apache Tajo offre i seguenti vantaggi:
- Facile da usare
- Architettura semplificata
- Ottimizzazione delle query basata sui costi
- Piano di esecuzione delle query vettorializzate
- Consegna veloce
- Semplice meccanismo di I / O e supporta vari tipi di archiviazione.
- Tolleranza ai guasti
Casi d'uso di Apache Tajo
Di seguito sono riportati alcuni dei casi d'uso di Apache Tajo:
Data warehousing e analisi
L'azienda coreana SK Telecom ha eseguito Tajo su 1,7 terabyte di dati e ha scoperto di poter completare le query con maggiore velocità rispetto a Hive o Impala.
Scoperta dei dati
Il servizio di streaming musicale coreano Melon utilizza Tajo per l'elaborazione analitica. Tajo esegue processi ETL (processo di estrazione-trasformazione-caricamento) da 1,5 a 10 volte più velocemente di Hive.
Analisi dei registri
Bluehole Studio, una società coreana ha sviluppato TERA, un gioco online multiplayer fantasy. L'azienda utilizza Tajo per l'analisi del registro di gioco e per trovare le cause principali delle interruzioni della qualità del servizio.
Archiviazione e formati di dati
Apache Tajo supporta i seguenti formati di dati:
- JSON
- File di testo (CSV)
- Parquet
- File di sequenza
- AVRO
- Buffer di protocollo
- Apache Orc
Tajo supporta i seguenti formati di archiviazione:
- HDFS
- JDBC
- Amazon S3
- Apache HBase
- Elasticsearch
La seguente illustrazione mostra l'architettura di Apache Tajo.
La tabella seguente descrive in dettaglio ciascuno dei componenti.
S.No. | Componente e descrizione |
---|---|
1 | Client Client invia le istruzioni SQL al Tajo Master per ottenere il risultato. |
2 | Master Master è il demone principale. È responsabile della pianificazione delle query ed è il coordinatore dei lavoratori. |
3 | Catalog server Mantiene la tabella e le descrizioni dell'indice. È incorporato nel daemon Master. Il server di catalogo utilizza Apache Derby come livello di archiviazione e si connette tramite il client JDBC. |
4 | Worker Il nodo principale assegna l'attività ai nodi di lavoro. TajoWorker elabora i dati. Con l'aumentare del numero di TajoWorker, anche la capacità di elaborazione aumenta in modo lineare. |
5 | Query Master Il master Tajo assegna la query al master delle query. Query Master è responsabile del controllo di un piano di esecuzione distribuito. Avvia TaskRunner e pianifica le attività su TaskRunner. Il ruolo principale del master query è monitorare le attività in esecuzione e segnalarle al nodo master. |
6 | Node Managers Gestisce la risorsa del nodo di lavoro. Decide di allocare le richieste al nodo. |
7 | TaskRunner Agisce come un motore di esecuzione di query locale. Viene utilizzato per eseguire e monitorare il processo di query. Il TaskRunner elabora un'attività alla volta. Ha i seguenti tre attributi principali:
|
8 | Query Executor Viene utilizzato per eseguire una query. |
9 | Storage service Collega l'archivio dati sottostante a Tajo. |
Flusso di lavoro
Tajo utilizza Hadoop Distributed File System (HDFS) come livello di archiviazione e ha il proprio motore di esecuzione delle query invece del framework MapReduce. Un cluster Tajo è costituito da un nodo master e un numero di worker sui nodi del cluster.
Il master è principalmente responsabile della pianificazione delle query e il coordinatore dei lavoratori. Il master divide una query in piccole attività e assegna ai lavoratori. Ogni worker ha un motore di query locale che esegue un grafico aciclico diretto di operatori fisici.
Inoltre, Tajo può controllare il flusso di dati distribuito in modo più flessibile di quello di MapReduce e supporta le tecniche di indicizzazione.
L'interfaccia basata sul web di Tajo ha le seguenti capacità:
- Opzione per scoprire come sono pianificate le query inviate
- Opzione per trovare la modalità di distribuzione delle query tra i nodi
- Possibilità di controllare lo stato del cluster e dei nodi
Per installare Apache Tajo, è necessario disporre del seguente software sul sistema:
- Hadoop versione 2.3 o successiva
- Java versione 1.7 o successiva
- Linux o Mac OS
Continuiamo ora con i seguenti passaggi per installare Tajo.
Verifica dell'installazione di Java
Si spera che tu abbia già installato Java versione 8 sulla tua macchina. Ora, devi solo procedere verificandolo.
Per verificare, utilizzare il seguente comando:
$ java -version
Se Java è installato con successo sulla tua macchina, potresti vedere la versione attuale di Java installato. Se Java non è installato, segui questi passaggi per installare Java 8 sulla tua macchina.
Scarica JDK
Scarica l'ultima versione di JDK visitando il seguente collegamento, quindi scarica l'ultima versione.
https://www.oracle.com
L'ultima versione è JDK 8u 92 e il file è “jdk-8u92-linux-x64.tar.gz”. Scarica il file sulla tua macchina. Successivamente, estrai i file e spostali in una directory specifica. Ora, imposta le alternative Java. Infine, Java è installato sulla tua macchina.
Verifica dell'installazione di Hadoop
Hai già installato Hadoopsul tuo sistema. Ora verificalo usando il seguente comando:
$ hadoop version
Se tutto va bene con la tua configurazione, potresti vedere la versione di Hadoop. Se Hadoop non è installato, scarica e installa Hadoop visitando il seguente link:https://www.apache.org
Installazione di Apache Tajo
Apache Tajo fornisce due modalità di esecuzione: modalità locale e modalità completamente distribuita. Dopo aver verificato l'installazione di Java e Hadoop, procedere con i seguenti passaggi per installare il cluster Tajo sulla macchina. Un'istanza Tajo in modalità locale richiede configurazioni molto semplici.
Scarica l'ultima versione di Tajo visitando il seguente link - https://www.apache.org/dyn/closer.cgi/tajo
Ora puoi scaricare il file “tajo-0.11.3.tar.gz” dalla tua macchina.
Estrai file Tar
Estrai il file tar utilizzando il seguente comando:
$ cd opt/ $ tar tajo-0.11.3.tar.gz
$ cd tajo-0.11.3
Imposta variabile d'ambiente
Aggiungi le seguenti modifiche a “conf/tajo-env.sh” file
$ cd tajo-0.11.3
$ vi conf/tajo-env.sh
# Hadoop home. Required
export HADOOP_HOME = /Users/path/to/Hadoop/hadoop-2.6.2
# The java implementation to use. Required.
export JAVA_HOME = /path/to/jdk1.8.0_92.jdk/
Qui, è necessario specificare Hadoop e il percorso Java per “tajo-env.sh”file. Dopo aver apportato le modifiche, salva il file e chiudi il terminale.
Avvia Tajo Server
Per avviare il server Tajo, eseguire il seguente comando:
$ bin/start-tajo.sh
Riceverai una risposta simile alla seguente:
Starting single TajoMaster
starting master, logging to /Users/path/to/Tajo/tajo-0.11.3/bin/../
localhost: starting worker, logging to /Users/path/toe/Tajo/tajo-0.11.3/bin/../logs/
Tajo master web UI: http://local:26080
Tajo Client Service: local:26002
Ora digita il comando "jps" per vedere i daemon in esecuzione.
$ jps
1010 TajoWorker
1140 Jps
933 TajoMaster
Avvia Tajo Shell (Tsql)
Per avviare il client della shell Tajo, utilizzare il seguente comando:
$ bin/tsql
Riceverai il seguente output:
welcome to
_____ ___ _____ ___
/_ _/ _ |/_ _/ /
/ // /_| |_/ // / /
/_//_/ /_/___/ \__/ 0.11.3
Try \? for help.
Esci da Tajo Shell
Esegui il seguente comando per uscire da Tsql -
default> \q
bye!
Qui, l'impostazione predefinita si riferisce al catalogo in Tajo.
Interfaccia utente Web
Digita il seguente URL per avviare l'interfaccia utente web di Tajo: http://localhost:26080/
Ora vedrai la seguente schermata che è simile all'opzione ExecuteQuery.
Ferma Tajo
Per arrestare il server Tajo, utilizzare il seguente comando:
$ bin/stop-tajo.sh
Riceverai la seguente risposta:
localhost: stopping worker
stopping master
La configurazione di Tajo si basa sul sistema di configurazione di Hadoop. Questo capitolo spiega in dettaglio le impostazioni di configurazione di Tajo.
Impostazioni di base
Tajo utilizza i seguenti due file di configurazione:
- catalog-site.xml - configurazione per il server di catalogo.
- tajo-site.xml - configurazione per altri moduli Tajo.
Configurazione in modalità distribuita
L'installazione in modalità distribuita viene eseguita su Hadoop Distributed File System (HDFS). Seguiamo i passaggi per configurare la configurazione della modalità distribuita Tajo.
tajo-site.xml
Questo file è disponibile @ /path/to/tajo/confdirectory e funge da configurazione per altri moduli Tajo. Per accedere a Tajo in modalità distribuita, applica le seguenti modifiche a“tajo-site.xml”.
<property>
<name>tajo.rootdir</name>
<value>hdfs://hostname:port/tajo</value>
</property>
<property>
<name>tajo.master.umbilical-rpc.address</name>
<value>hostname:26001</value>
</property>
<property>
<name>tajo.master.client-rpc.address</name>
<value>hostname:26002</value>
</property>
<property>
<name>tajo.catalog.client-rpc.address</name>
<value>hostname:26005</value>
</property>
Configurazione del nodo principale
Tajo utilizza HDFS come tipo di archiviazione principale. La configurazione è la seguente e dovrebbe essere aggiunta a“tajo-site.xml”.
<property>
<name>tajo.rootdir</name>
<value>hdfs://namenode_hostname:port/path</value>
</property>
Configurazione del catalogo
Se vuoi personalizzare il servizio catalogo, copia $path/to/Tajo/conf/catalogsite.xml.template per $path/to/Tajo/conf/catalog-site.xml e aggiungi una delle seguenti configurazioni secondo necessità.
Ad esempio, se usi “Hive catalog store” per accedere a Tajo, la configurazione dovrebbe essere la seguente:
<property>
<name>tajo.catalog.store.class</name>
<value>org.apache.tajo.catalog.store.HCatalogStore</value>
</property>
Se hai bisogno di memorizzare MySQL catalogo, quindi applica le seguenti modifiche:
<property>
<name>tajo.catalog.store.class</name>
<value>org.apache.tajo.catalog.store.MySQLStore</value>
</property>
<property>
<name>tajo.catalog.jdbc.connection.id</name>
<value><mysql user name></value>
</property>
<property>
<name>tajo.catalog.jdbc.connection.password</name>
<value><mysql user password></value>
</property>
<property>
<name>tajo.catalog.jdbc.uri</name>
<value>jdbc:mysql://<mysql host name>:<mysql port>/<database name for tajo>
?createDatabaseIfNotExist = true</value>
</property>
Allo stesso modo, è possibile registrare gli altri cataloghi supportati da Tajo nel file di configurazione.
Configurazione lavoratore
Per impostazione predefinita, TajoWorker memorizza i dati temporanei sul file system locale. È definito nel file "tajo-site.xml" come segue:
<property>
<name>tajo.worker.tmpdir.locations</name>
<value>/disk1/tmpdir,/disk2/tmpdir,/disk3/tmpdir</value>
</property>
Per aumentare la capacità di eseguire attività di ciascuna risorsa di lavoro, scegli la seguente configurazione:
<property>
<name>tajo.worker.resource.cpu-cores</name>
<value>12</value>
</property>
<property>
<name>tajo.task.resource.min.memory-mb</name>
<value>2000</value>
</property>
<property>
<name>tajo.worker.resource.disks</name>
<value>4</value>
</property>
Per far funzionare il lavoratore Tajo in una modalità dedicata, scegli la seguente configurazione:
<property>
<name>tajo.worker.resource.dedicated</name>
<value>true</value>
</property>
In questo capitolo, comprenderemo in dettaglio i comandi di Tajo Shell.
Per eseguire i comandi della shell Tajo, è necessario avviare il server Tajo e la shell Tajo utilizzando i seguenti comandi:
Avvia il server
$ bin/start-tajo.sh
Avvia Shell
$ bin/tsql
I comandi di cui sopra sono ora pronti per l'esecuzione.
Comandi Meta
Parliamo ora del Meta Commands. I meta comandi Tsql iniziano con una barra rovesciata(‘\’).
Comando di aiuto
“\?” Il comando viene utilizzato per mostrare l'opzione della guida.
Query
default> \?
Result
Quanto sopra \?Comando elenca tutte le opzioni di utilizzo di base in Tajo. Riceverai il seguente output:
Database elenco
Per elencare tutti i database in Tajo, utilizzare il seguente comando:
Query
default> \l
Result
Riceverai il seguente output:
information_schema
default
Al momento, non abbiamo creato alcun database, quindi mostra due database Tajo incorporati.
Database corrente
\c viene utilizzata per visualizzare il nome del database corrente.
Query
default> \c
Result
Ora sei connesso al database "predefinito" come utente "nome utente".
Elenca le funzioni integrate
Per elencare tutte le funzioni integrate, digita la query come segue:
Query
default> \df
Result
Riceverai il seguente output:
Descrivi la funzione
\df function name - Questa query restituisce la descrizione completa della funzione data.
Query
default> \df sqrt
Result
Riceverai il seguente output:
Esci da Terminal
Per uscire dal terminale, digita la seguente query:
Query
default> \q
Result
Riceverai il seguente output:
bye!
Comandi dell'amministratore
Tajo Shell fornisce \admin opzione per elencare tutte le funzionalità di amministrazione.
Query
default> \admin
Result
Riceverai il seguente output:
Informazioni sul cluster
Per visualizzare le informazioni sul cluster in Tajo, utilizzare la seguente query
Query
default> \admin -cluster
Result
Riceverai il seguente output:
Mostra maestro
La seguente query visualizza le informazioni master correnti.
Query
default> \admin -showmasters
Result
localhost
Allo stesso modo, puoi provare altri comandi di amministrazione.
Variabili di sessione
Il client Tajo si connette al Master tramite un ID di sessione univoco. La sessione è attiva finché il client non viene disconnesso o scade.
Il comando seguente viene utilizzato per elencare tutte le variabili di sessione.
Query
default> \set
Result
'SESSION_LAST_ACCESS_TIME' = '1470206387146'
'CURRENT_DATABASE' = 'default'
‘USERNAME’ = 'user'
'SESSION_ID' = 'c60c9b20-dfba-404a-822f-182bc95d6c7c'
'TIMEZONE' = 'Asia/Kolkata'
'FETCH_ROWNUM' = '200'
‘COMPRESSED_RESULT_TRANSFER' = 'false'
Il \set key val imposterà la variabile di sessione denominata key con il valore val. Per esempio,
Query
default> \set ‘current_database’='default'
Result
usage: \set [[NAME] VALUE]
Qui puoi assegnare la chiave e il valore nel file \setcomando. Se è necessario annullare le modifiche, utilizzare il file\unset comando.
Per eseguire una query in una shell Tajo, apri il tuo terminale e spostati nella directory installata di Tajo, quindi digita il seguente comando:
$ bin/tsql
Ora vedrai la risposta come mostrato nel seguente programma:
default>
Ora puoi eseguire le tue query. Altrimenti è possibile eseguire le query tramite l'applicazione della console Web al seguente URL:http://localhost:26080/
Tipi di dati primitivi
Apache Tajo supporta il seguente elenco di tipi di dati primitivi:
S.No. | Tipo di dati e descrizione |
---|---|
1 | integer Utilizzato per memorizzare un valore intero con 4 byte di memoria. |
2 | tinyint Il valore intero minuscolo è 1 byte |
3 | smallint Utilizzato per memorizzare un valore intero di 2 byte di piccole dimensioni. |
4 | bigint Il valore intero della gamma grande ha una memoria di 8 byte. |
5 | boolean Restituisce vero / falso. |
6 | real Utilizzato per memorizzare il valore reale. La dimensione è di 4 byte. |
7 | float Valore di precisione in virgola mobile con spazio di archiviazione di 4 o 8 byte. |
8 | double Valore di precisione a doppio punto memorizzato in 8 byte. |
9 | char[(n)] Valore del carattere. |
10 | varchar[(n)] Dati non Unicode a lunghezza variabile. |
11 | number Valori decimali. |
12 | binary Valori binari. |
13 | date Data del calendario (anno, mese, giorno). Example - DATA "22-08-2016" |
14 | time Ora del giorno (ora, minuti, secondi, millisecondi) senza fuso orario. I valori di questo tipo vengono analizzati e visualizzati nel fuso orario della sessione. |
15 | timezone Ora del giorno (ora, minuti, secondi, millisecondi) con fuso orario. I valori di questo tipo vengono visualizzati utilizzando il fuso orario dal valore. Example - ORA '01: 02: 03.456 Asia / Calcutta ' |
16 | timestamp Istantaneo nel tempo che include la data e l'ora del giorno senza un fuso orario. Example - TIMESTAMP '2016-08-22 03: 04: 05.321' |
17 | text Testo Unicode a lunghezza variabile. |
I seguenti operatori vengono utilizzati in Tajo per eseguire le operazioni desiderate.
S.No. | Operatore e descrizione |
---|---|
1 | Operatori aritmetici Presto supporta operatori aritmetici come +, -, *, /,%. |
2 | Operatori relazionali <,>, <=,> =, =, <> |
3 | Operatori logici E, O, NO |
4 | Operatori di stringa Il "||" L'operatore esegue la concatenazione di stringhe. |
5 | Operatori di intervallo L'operatore di intervallo viene utilizzato per testare il valore in un intervallo specifico. Tajo supporta gli operatori BETWEEN, IS NULL, IS NOT NULL. |
A partire da ora, sapevi di eseguire semplici query di base su Tajo. Nei prossimi capitoli successivi, discuteremo le seguenti funzioni SQL:
- Funzioni matematiche
- Funzioni stringa
- Funzioni DateTime
- Funzioni JSON
Le funzioni matematiche operano su formule matematiche. La tabella seguente descrive in dettaglio l'elenco delle funzioni.
S.No. | Descrizione della funzione |
---|---|
1 | abs (x) Restituisce il valore assoluto di x. |
2 | cbrt (x) Restituisce la radice cubica di x. |
3 | ceil (x) Restituisce il valore x arrotondato al numero intero più vicino. |
4 | pavimento (x) Restituisce x arrotondato per difetto al numero intero più vicino. |
5 | pi() Restituisce il valore pi greco. Il risultato verrà restituito come valore doppio. |
6 | radianti (x) converte l'angolo x in gradi radianti. |
7 | gradi (x) Restituisce il valore dei gradi per x. |
8 | pow (x, p) Restituisce la potenza del valore "p" al valore x. |
9 | div (x, y) Restituisce il risultato della divisione per i due valori interi x, y indicati. |
10 | exp (x) Restituisce il numero di Eulero e elevato alla potenza di un numero. |
11 | sqrt (x) Restituisce la radice quadrata di x. |
12 | segno (x) Restituisce la funzione segno di x, ovvero -
|
13 | mod (n, m) Restituisce il modulo (resto) di n diviso per m. |
14 | rotondo (x) Restituisce il valore arrotondato per x. |
15 | cos (x) Restituisce il valore del coseno (x). |
16 | asin (x) Restituisce il valore del seno inverso (x). |
17 | acos (x) Restituisce il valore del coseno inverso (x). |
18 | atan (x) Restituisce il valore della tangente inversa (x). |
19 | atan2 (y, x) Restituisce il valore della tangente inversa (y / x). |
Funzioni del tipo di dati
La tabella seguente elenca le funzioni del tipo di dati disponibili in Apache Tajo.
S.No. | Descrizione della funzione |
---|---|
1 | to_bin (x) Restituisce la rappresentazione binaria di numero intero. |
2 | to_char (int, text) Converte un intero in una stringa. |
3 | to_hex (x) Converte il valore x in esadecimale. |
La tabella seguente elenca le funzioni di stringa in Tajo.
S.No. | Descrizione della funzione |
---|---|
1 | concat (stringa1, ..., stringaN) Concatena le stringhe date. |
2 | lunghezza (stringa) Restituisce la lunghezza della stringa data. |
3 | inferiore (stringa) Restituisce il formato minuscolo per la stringa. |
4 | superiore (stringa) Restituisce il formato maiuscolo per la stringa data. |
5 | ascii (stringa di testo) Restituisce il codice ASCII del primo carattere del testo. |
6 | bit_length (stringa di testo) Restituisce il numero di bit in una stringa. |
7 | char_length (stringa di testo) Restituisce il numero di caratteri in una stringa. |
8 | octet_length (stringa di testo) Restituisce il numero di byte in una stringa. |
9 | digest (testo di input, testo del metodo) Calcola il Digesthash di stringa. Qui, il secondo metodo arg si riferisce al metodo hash. |
10 | initcap (stringa di testo) Converte la prima lettera di ogni parola in maiuscolo. |
11 | md5 (stringa di testo) Calcola il MD5 hash di stringa. |
12 | sinistra (stringa di testo, dimensione int) Restituisce i primi n caratteri nella stringa. |
13 | destra (stringa di testo, dimensione int) Restituisce gli ultimi n caratteri nella stringa. |
14 | individuare (testo di origine, testo di destinazione, start_index) Restituisce la posizione della sottostringa specificata. |
15 | strposb (testo di partenza, testo di destinazione) Restituisce la posizione binaria della sottostringa specificata. |
16 | substr (testo sorgente, indice iniziale, lunghezza) Restituisce la sottostringa per la lunghezza specificata. |
17 | trim (stringa di testo [, caratteri di testo]) Rimuove i caratteri (uno spazio per impostazione predefinita) dall'inizio / fine / entrambe le estremità della stringa. |
18 | split_part (stringa di testo, delimitatore di testo, campo int) Divide una stringa sul delimitatore e restituisce il campo specificato (contando da uno). |
19 | regexp_replace (testo stringa, testo modello, testo sostitutivo) Sostituisce le sottostringhe corrispondenti a un determinato modello di espressione regolare. |
20 | reverse (stringa) Operazione inversa eseguita per la stringa. |
Apache Tajo supporta le seguenti funzioni DateTime.
S.No. | Descrizione della funzione |
---|---|
1 | add_days (date date o timestamp, int day Restituisce la data aggiunta dal valore del giorno specificato. |
2 | add_months (date date o timestamp, int mese) Restituisce la data aggiunta dal valore del mese specificato. |
3 | data odierna() Restituisce la data odierna. |
4 | ora attuale() Restituisce l'ora odierna. |
5 | estratto (secolo da data / timestamp) Estrae il secolo dal parametro dato. |
6 | estratto (giorno da data / timestamp) Estrae il giorno dal parametro dato. |
7 | estratto (decennio dalla data / data / ora) Estrae il decennio dal parametro dato. |
8 | estratto (data / ora dell'uscita del giorno) Estrae il giorno della settimana dal parametro specificato. |
9 | estratto (doy da data / timestamp) Estrae il giorno dell'anno dal parametro specificato. |
10 | seleziona estratto (ora dal timestamp) Estrae l'ora dal parametro dato. |
11 | seleziona estratto (isodow da timestamp) Estrae il giorno della settimana dal parametro specificato. Questo è identico a Dow tranne che per la domenica. Corrisponde alla numerazione del giorno della settimana ISO 8601. |
12 | seleziona estratto (isoyear from date) Estrae l'anno ISO dalla data specificata. L'anno ISO può essere diverso dall'anno gregoriano. |
13 | estratto (microsecondi dal tempo) Estrae i microsecondi dal parametro specificato. Il campo dei secondi, comprese le parti frazionarie, moltiplicato per 1 000 000; |
14 | estratto (millennio dal timestamp) Estrae millennio dal parametro dato. Un millennio corrisponde a 1000 anni. Quindi, il terzo millennio è iniziato il 1 gennaio 2001. |
15 | estratto (millisecondi dal tempo) Estrae millisecondi dal parametro specificato. |
16 | estratto (minuto da timestamp) Estrae i minuti dal parametro dato. |
17 | estratto (trimestre da timestamp) Estrae il trimestre dell'anno (1 - 4) dal parametro dato. |
18 | date_part (testo del campo, data di origine o timestamp o ora) Estrae il campo della data dal testo. |
19 | adesso() Restituisce il timestamp corrente. |
20 | to_char (timestamp, formato testo) Converte il timestamp in testo. |
21 | to_date (src text, format text) Converte il testo in data. |
22 | to_timestamp (src text, format text) Converte il testo in timestamp. |
Le funzioni JSON sono elencate nella tabella seguente:
S.No. | Descrizione della funzione |
---|---|
1 | json_extract_path_text (js sul testo, json_path text) Estrae la stringa JSON da una stringa JSON in base al percorso JSON specificato. |
2 | json_array_get (json_array text, index int4) Restituisce l'elemento in corrispondenza dell'indice specificato nella matrice JSON. |
3 | json_array_contains (json_ array text, valore qualsiasi) Determina se il valore specificato esiste nell'array JSON. |
4 | json_array_length (json_ar ray text) Restituisce la lunghezza dell'array json. |
Questa sezione spiega i comandi Tajo DDL. Tajo ha un database integrato denominatodefault.
Crea istruzione database
Create Databaseè un'istruzione utilizzata per creare un database in Tajo. La sintassi per questa istruzione è la seguente:
CREATE DATABASE [IF NOT EXISTS] <database_name>
Query
default> default> create database if not exists test;
Risultato
La query precedente genererà il seguente risultato.
OK
Il database è lo spazio dei nomi in Tajo. Un database può contenere più tabelle con un nome univoco.
Mostra database corrente
Per controllare il nome del database corrente, emettere il seguente comando:
Query
default> \c
Risultato
La query precedente genererà il seguente risultato.
You are now connected to database "default" as user “user1".
default>
Connetti al database
A partire da ora, hai creato un database denominato "test". La sintassi seguente viene utilizzata per collegare il database "test".
\c <database name>
Query
default> \c test
Risultato
La query precedente genererà il seguente risultato.
You are now connected to database "test" as user “user1”.
test>
È ora possibile vedere le modifiche del prompt dal database predefinito al database di prova.
Database di rilascio
Per eliminare un database, utilizzare la seguente sintassi:
DROP DATABASE <database-name>
Query
test> \c default
You are now connected to database "default" as user “user1".
default> drop database test;
Risultato
La query precedente genererà il seguente risultato.
OK
Una tabella è una vista logica di un'origine dati. È costituito da uno schema logico, partizioni, URL e varie proprietà. Una tabella Tajo può essere una directory in HDFS, un singolo file, una tabella HBase o una tabella RDBMS.
Tajo supporta i seguenti due tipi di tabelle:
- tavolo esterno
- tavolo interno
Tavolo esterno
La tabella esterna necessita della proprietà location quando viene creata la tabella. Ad esempio, se i tuoi dati sono già presenti come file di testo / JSON o tabella HBase, puoi registrarli come tabella esterna Tajo.
La seguente query è un esempio di creazione di tabelle esterne.
create external table sample(col1 int,col2 text,col3 int) location ‘hdfs://path/to/table';
Qui,
External keyword- Viene utilizzato per creare una tabella esterna. Questo aiuta a creare una tabella nella posizione specificata.
Il campione si riferisce al nome della tabella.
Location- È una directory per HDFS, Amazon S3, HBase o file system locale. Per assegnare una proprietà location per le directory, utilizzare gli esempi di URI seguenti:
HDFS - hdfs: // localhost: port / path / to / table
Amazon S3 - s3: // nome-bucket / tabella
local file system - file: /// percorso / a / tabella
Openstack Swift - swift: // nome-bucket / tabella
Proprietà tabella
Una tabella esterna ha le seguenti proprietà:
TimeZone - Gli utenti possono specificare un fuso orario per leggere o scrivere una tabella.
Compression format- Usato per rendere compatta la dimensione dei dati. Ad esempio, il file text / json utilizzacompression.codec proprietà.
Tavolo interno
Una tabella interna è anche chiamata Managed Table. Viene creato in una posizione fisica predefinita chiamata Tablespace.
Sintassi
create table table1(col1 int,col2 text);
Per impostazione predefinita, Tajo utilizza "tajo.warehouse.directory" situato in "conf / tajo-site.xml". Per assegnare una nuova posizione per la tabella, è possibile utilizzare la configurazione dello spazio tabelle.
Tablespace
Lo spazio tabelle viene utilizzato per definire le posizioni nel sistema di archiviazione. È supportato solo per le tabelle interne. È possibile accedere ai tablespace tramite i loro nomi. Ogni tablespace può utilizzare un diverso tipo di archiviazione. Se non specifichi i tablespace, Tajo utilizza il tablespace predefinito nella directory root.
Configurazione tablespace
Hai “conf/tajo-site.xml.template”a Tajo. Copia il file e rinominalo in“storagesite.json”. Questo file fungerà da configurazione per gli spazi tabelle. I formati di dati Tajo utilizzano la seguente configurazione:
Configurazione HDFS
$ vi conf/storage-site.json { "spaces": { "${tablespace_name}": {
"uri": “hdfs://localhost:9000/path/to/Tajo"
}
}
}
Configurazione HBase
$ vi conf/storage-site.json { "spaces": { "${tablespace_name}": {
"uri": “hbase:zk://quorum1:port,quorum2:port/"
}
}
}
Configurazione file di testo
$ vi conf/storage-site.json { "spaces": { "${tablespace_name}": {
“uri”: “hdfs://localhost:9000/path/to/Tajo”
}
}
}
Creazione tablespace
È possibile accedere ai record della tabella interna di Tajo solo da un'altra tabella. Puoi configurarlo con tablespace.
Sintassi
CREATE TABLE [IF NOT EXISTS] <table_name> [(column_list)] [TABLESPACE tablespace_name]
[using <storage_type> [with (<key> = <value>, ...)]] [AS <select_statement>]
Qui,
IF NOT EXISTS - Questo evita un errore se la stessa tabella non è già stata creata.
TABLESPACE - Questa clausola viene utilizzata per assegnare il nome del tablespace.
Storage type - I dati Tajo supportano formati come testo, JSON, HBase, Parquet, Sequencefile e ORC.
AS select statement - Seleziona i record da un'altra tabella.
Configurare lo spazio tabelle
Avvia i tuoi servizi Hadoop e apri il file “conf/storage-site.json”, quindi aggiungi le seguenti modifiche:
$ vi conf/storage-site.json {
"spaces": {
“space1”: {
"uri": “hdfs://localhost:9000/path/to/Tajo"
}
}
}
Qui, Tajo farà riferimento ai dati dalla posizione HDFS e space1è il nome del tablespace. Se non avvii i servizi Hadoop, non puoi registrare il tablespace.
Query
default> create table table1(num1 int,num2 text,num3 float) tablespace space1;
La query precedente crea una tabella denominata "table1" e "space1" si riferisce al nome del tablespace.
Formati di dati
Tajo supporta i formati di dati. Esaminiamo in dettaglio ciascuno dei formati uno per uno.
Testo
Un file di testo normale con valori separati da caratteri rappresenta un set di dati tabulare costituito da righe e colonne. Ogni riga è una riga di testo normale.
Creazione tabella
default> create external table customer(id int,name text,address text,age int)
using text with('text.delimiter'=',') location ‘file:/Users/workspace/Tajo/customers.csv’;
Qui, “customers.csv” file fa riferimento a un file con valori separati da virgole situato nella directory di installazione di Tajo.
Per creare una tabella interna utilizzando il formato testo, utilizzare la seguente query:
default> create table customer(id int,name text,address text,age int) using text;
Nella query precedente, non hai assegnato alcun tablespace, quindi prenderà il tablespace predefinito di Tajo.
Proprietà
Un formato di file di testo ha le seguenti proprietà:
text.delimiter- Questo è un carattere delimitatore. L'impostazione predefinita è "|".
compression.codec- Questo è un formato di compressione. Per impostazione predefinita, è disabilitato. è possibile modificare le impostazioni utilizzando l'algoritmo specificato.
timezone - Il tavolo utilizzato per leggere o scrivere.
text.error-tolerance.max-num - Il numero massimo di livelli di tolleranza.
text.skip.headerlines - Il numero di righe di intestazione per ignorate.
text.serde - Questa è la proprietà di serializzazione.
JSON
Apache Tajo supporta il formato JSON per l'interrogazione dei dati. Tajo tratta un oggetto JSON come record SQL. Un oggetto è uguale a una riga in una tabella Tajo. Consideriamo "array.json" come segue:
$ hdfs dfs -cat /json/array.json {
"num1" : 10,
"num2" : "simple json array",
"num3" : 50.5
}
Dopo aver creato questo file, passare alla shell Tajo e digitare la seguente query per creare una tabella utilizzando il formato JSON.
Query
default> create external table sample (num1 int,num2 text,num3 float)
using json location ‘json/array.json’;
Ricorda sempre che i dati del file devono corrispondere allo schema della tabella. Altrimenti, puoi omettere i nomi delle colonne e utilizzare * che non richiede l'elenco delle colonne.
Per creare una tabella interna, utilizzare la seguente query:
default> create table sample (num1 int,num2 text,num3 float) using json;
Parquet
Il parquet è un formato di archiviazione colonnare. Tajo utilizza il formato Parquet per un accesso facile, veloce ed efficiente.
Creazione di tabelle
La seguente query è un esempio per la creazione di tabelle:
CREATE TABLE parquet (num1 int,num2 text,num3 float) USING PARQUET;
Il formato del file parquet ha le seguenti proprietà:
parquet.block.size - dimensione di un gruppo di righe memorizzato nel buffer.
parquet.page.size - La dimensione della pagina è per la compressione.
parquet.compression - L'algoritmo di compressione utilizzato per comprimere le pagine.
parquet.enable.dictionary - Il valore booleano serve per abilitare / disabilitare la codifica del dizionario.
RCFile
RCFile è il file a colonne del record. Consiste di coppie binarie chiave / valore.
Creazione di tabelle
La seguente query è un esempio per la creazione di tabelle:
CREATE TABLE Record(num1 int,num2 text,num3 float) USING RCFILE;
RCFile ha le seguenti proprietà:
rcfile.serde - classe deserializzatore personalizzata.
compression.codec - algoritmo di compressione.
rcfile.null - Carattere NULL.
SequenceFile
SequenceFile è un formato di file di base in Hadoop che consiste in coppie chiave / valore.
Creazione di tabelle
La seguente query è un esempio per la creazione di tabelle:
CREATE TABLE seq(num1 int,num2 text,num3 float) USING sequencefile;
Questo file di sequenza è compatibile con Hive. Questo può essere scritto in Hive come,
CREATE TABLE table1 (id int, name string, score float, type string)
STORED AS sequencefile;
ORC
ORC (Optimized Row Columnar) è un formato di archiviazione a colonne di Hive.
Creazione di tabelle
La seguente query è un esempio per la creazione di tabelle:
CREATE TABLE optimized(num1 int,num2 text,num3 float) USING ORC;
Il formato ORC ha le seguenti proprietà:
orc.max.merge.distance - Il file ORC viene letto, si unisce quando la distanza è inferiore.
orc.stripe.size - Questa è la dimensione di ogni striscia.
orc.buffer.size - L'impostazione predefinita è 256 KB.
orc.rowindex.stride - Questo è il passo dell'indice ORC in numero di righe.
Nel capitolo precedente hai capito come creare tabelle in Tajo. Questo capitolo spiega l'istruzione SQL in Tajo.
Crea istruzione tabella
Prima di passare alla creazione di una tabella, creare un file di testo "students.csv" nel percorso della directory di installazione di Tajo come segue:
students.csv
Id | Nome | Indirizzo | Età | Marks |
---|---|---|---|---|
1 | Adamo | 23 New Street | 21 | 90 |
2 | Amit | 12 Old Street | 13 | 95 |
3 | Bob | 10 Cross Street | 12 | 80 |
4 | David | 15 Express Avenue | 12 | 85 |
5 | Esha | 20 Garden Street | 13 | 50 |
6 | Ganga | 25 North Street | 12 | 55 |
7 | Jack | 2 Park Street | 12 | 60 |
8 | Leena | 24 South Street | 12 | 70 |
9 | Maria | 5 West Street | 12 | 75 |
10 | Peter | 16 Park Avenue | 12 | 95 |
Dopo che il file è stato creato, spostati sul terminale e avvia il server Tajo e la shell uno per uno.
Crea database
Crea un nuovo database utilizzando il seguente comando:
Query
default> create database sampledb;
OK
Connettiti al database "sampledb" che è ora creato.
default> \c sampledb
You are now connected to database "sampledb" as user “user1”.
Quindi, crea una tabella in "sampledb" come segue:
Query
sampledb> create external table mytable(id int,name text,address text,age int,mark int)
using text with('text.delimiter' = ',') location ‘file:/Users/workspace/Tajo/students.csv’;
Risultato
La query precedente genererà il seguente risultato.
OK
Qui viene creata la tabella esterna. Ora, devi solo inserire il percorso del file. Se devi assegnare la tabella da hdfs, usa hdfs invece di file.
Successivamente, il “students.csv”file contiene valori separati da virgole. Iltext.delimiter il campo è assegnato con ",".
Ora hai creato "mytable" con successo in "sampledb".
Mostra tabella
Per mostrare le tabelle in Tajo, usa la seguente query.
Query
sampledb> \d
mytable
sampledb> \d mytable
Risultato
La query precedente genererà il seguente risultato.
table name: sampledb.mytable
table uri: file:/Users/workspace/Tajo/students.csv
store type: TEXT
number of rows: unknown
volume: 261 B
Options:
'timezone' = 'Asia/Kolkata'
'text.null' = '\\N'
'text.delimiter' = ','
schema:
id INT4
name TEXT
address TEXT
age INT4
mark INT4
Tabella degli elenchi
Per recuperare tutti i record nella tabella, digita la seguente query:
Query
sampledb> select * from mytable;
Risultato
La query precedente genererà il seguente risultato.
Inserisci istruzione tabella
Tajo utilizza la seguente sintassi per inserire i record nella tabella.
Sintassi
create table table1 (col1 int8, col2 text, col3 text);
--schema should be same for target table schema
Insert overwrite into table1 select * from table2;
(or)
Insert overwrite into LOCATION '/dir/subdir' select * from table;
La dichiarazione di inserimento di Tajo è simile alla INSERT INTO SELECT dichiarazione di SQL.
Query
Creiamo una tabella per sovrascrivere i dati della tabella di una tabella esistente.
sampledb> create table test(sno int,name text,addr text,age int,mark int);
OK
sampledb> \d
Risultato
La query precedente genererà il seguente risultato.
mytable
test
Inserisci record
Per inserire record nella tabella "test", digitare la seguente query.
Query
sampledb> insert overwrite into test select * from mytable;
Risultato
La query precedente genererà il seguente risultato.
Progress: 100%, response time: 0.518 sec
Qui, i record "mytable" sovrascrivono la tabella "test" Se non si desidera creare la tabella "test", assegnare immediatamente la posizione del percorso fisico come indicato in un'opzione alternativa per inserire query.
Recupera record
Utilizza la seguente query per elencare tutti i record nella tabella "test":
Query
sampledb> select * from test;
Risultato
La query precedente genererà il seguente risultato.
Questa istruzione viene utilizzata per aggiungere, rimuovere o modificare colonne di una tabella esistente.
Per rinominare la tabella utilizzare la seguente sintassi:
Alter table table1 RENAME TO table2;
Query
sampledb> alter table test rename to students;
Risultato
La query precedente genererà il seguente risultato.
OK
Per controllare il nome della tabella modificato, utilizzare la seguente query.
sampledb> \d
mytable
students
Ora la tabella "test" viene modificata in tabella "studenti".
Aggiungi colonna
Per inserire una nuova colonna nella tabella "studenti", digita la seguente sintassi:
Alter table <table_name> ADD COLUMN <column_name> <data_type>
Query
sampledb> alter table students add column grade text;
Risultato
La query precedente genererà il seguente risultato.
OK
Imposta proprietà
Questa proprietà viene utilizzata per modificare la proprietà della tabella.
Query
sampledb> ALTER TABLE students SET PROPERTY 'compression.type' = 'RECORD',
'compression.codec' = 'org.apache.hadoop.io.compress.Snappy Codec' ;
OK
Qui vengono assegnati il tipo di compressione e le proprietà del codec.
Per modificare la proprietà del delimitatore di testo, utilizzare quanto segue:
Query
ALTER TABLE students SET PROPERTY ‘text.delimiter'=',';
OK
Risultato
La query precedente genererà il seguente risultato.
sampledb> \d students
table name: sampledb.students
table uri: file:/tmp/tajo-user1/warehouse/sampledb/students
store type: TEXT
number of rows: 10
volume: 228 B
Options:
'compression.type' = 'RECORD'
'timezone' = 'Asia/Kolkata'
'text.null' = '\\N'
'compression.codec' = 'org.apache.hadoop.io.compress.SnappyCodec'
'text.delimiter' = ','
schema:
id INT4
name TEXT
addr TEXT
age INT4
mark INT4
grade TEXT
Il risultato sopra mostra che le proprietà della tabella vengono modificate utilizzando la proprietà "SET".
Seleziona Statement
L'istruzione SELECT viene utilizzata per selezionare i dati da un database.
La sintassi per l'istruzione Select è la seguente:
SELECT [distinct [all]] * | <expression> [[AS] <alias>] [, ...]
[FROM <table reference> [[AS] <table alias name>] [, ...]]
[WHERE <condition>]
[GROUP BY <expression> [, ...]]
[HAVING <condition>]
[ORDER BY <expression> [ASC|DESC] [NULLS (FIRST|LAST)] [, …]]
Dove la clausola
La clausola Where viene utilizzata per filtrare i record dalla tabella.
Query
sampledb> select * from mytable where id > 5;
Risultato
La query precedente genererà il seguente risultato.
La query restituisce i record di quegli studenti il cui ID è maggiore di 5.
Query
sampledb> select * from mytable where name = ‘Peter’;
Risultato
La query precedente genererà il seguente risultato.
Progress: 100%, response time: 0.117 sec
id, name, address, age
-------------------------------
10, Peter, 16 park avenue , 12
Il risultato filtra solo i record di Peter.
Clausola distinta
Una colonna della tabella può contenere valori duplicati. La parola chiave DISTINCT può essere utilizzata per restituire solo valori distinti (diversi).
Sintassi
SELECT DISTINCT column1,column2 FROM table_name;
Query
sampledb> select distinct age from mytable;
Risultato
La query precedente genererà il seguente risultato.
Progress: 100%, response time: 0.216 sec
age
-------------------------------
13
12
La query restituisce l'età distinta degli studenti da mytable.
Raggruppa per clausola
La clausola GROUP BY viene utilizzata in collaborazione con l'istruzione SELECT per organizzare dati identici in gruppi.
Sintassi
SELECT column1, column2 FROM table_name WHERE [ conditions ] GROUP BY column1, column2;
Query
select age,sum(mark) as sumofmarks from mytable group by age;
Risultato
La query precedente genererà il seguente risultato.
age, sumofmarks
-------------------------------
13, 145
12, 610
Qui, la colonna "mytable" ha due tipi di età: 12 e 13. Ora la query raggruppa i record per età e produce la somma dei voti per le età corrispondenti degli studenti.
Avere clausola
La clausola HAVING consente di specificare le condizioni che filtrano i risultati del gruppo visualizzati nei risultati finali. La clausola WHERE pone condizioni sulle colonne selezionate, mentre la clausola HAVING pone condizioni sui gruppi creati dalla clausola GROUP BY.
Sintassi
SELECT column1, column2 FROM table1 GROUP BY column HAVING [ conditions ]
Query
sampledb> select age from mytable group by age having sum(mark) > 200;
Risultato
La query precedente genererà il seguente risultato.
age
-------------------------------
12
La query raggruppa i record in base all'età e restituisce l'età quando la somma dei risultati della condizione (segno)> 200.
Ordine per clausola
La clausola ORDER BY viene utilizzata per ordinare i dati in ordine crescente o decrescente, in base a una o più colonne. Il database Tajo ordina i risultati delle query in ordine crescente per impostazione predefinita.
Sintassi
SELECT column-list FROM table_name
[WHERE condition]
[ORDER BY column1, column2, .. columnN] [ASC | DESC];
Query
sampledb> select * from mytable where mark > 60 order by name desc;
Risultato
La query precedente genererà il seguente risultato.
La query restituisce i nomi di quegli studenti in ordine decrescente i cui voti sono maggiori di 60.
Crea dichiarazione indice
L'istruzione CREATE INDEX viene utilizzata per creare indici nelle tabelle. L'indice viene utilizzato per il recupero rapido dei dati. La versione corrente supporta l'indice solo per i formati TESTO normali archiviati su HDFS.
Sintassi
CREATE INDEX [ name ] ON table_name ( { column_name | ( expression ) }
Query
create index student_index on mytable(id);
Risultato
La query precedente genererà il seguente risultato.
id
———————————————
Per visualizzare l'indice assegnato per la colonna, digitare la seguente query.
default> \d mytable
table name: default.mytable
table uri: file:/Users/deiva/workspace/Tajo/students.csv
store type: TEXT
number of rows: unknown
volume: 307 B
Options:
'timezone' = 'Asia/Kolkata'
'text.null' = '\\N'
'text.delimiter' = ','
schema:
id INT4
name TEXT
address TEXT
age INT4
mark INT4
Indexes:
"student_index" TWO_LEVEL_BIN_TREE (id ASC NULLS LAST )
Qui, il metodo TWO_LEVEL_BIN_TREE viene utilizzato per impostazione predefinita in Tajo.
Istruzione Drop Table
L'istruzione Drop Table viene utilizzata per eliminare una tabella dal database.
Sintassi
drop table table name;
Query
sampledb> drop table mytable;
Per verificare se la tabella è stata eliminata dalla tabella, digitare la seguente query.
sampledb> \d mytable;
Risultato
La query precedente genererà il seguente risultato.
ERROR: relation 'mytable' does not exist
Puoi anche controllare la query usando il comando "\ d" per elencare le tabelle Tajo disponibili.
Questo capitolo spiega in dettaglio le funzioni di aggregazione e finestra.
Funzioni di aggregazione
Le funzioni aggregate producono un singolo risultato da un insieme di valori di input. La tabella seguente descrive in dettaglio l'elenco delle funzioni aggregate.
S.No. | Descrizione della funzione |
---|---|
1 | AVG (exp) Calcola la media di una colonna di tutti i record in un'origine dati. |
2 | CORR (espressione1, espressione2) Restituisce il coefficiente di correlazione tra un insieme di coppie di numeri. |
3 | CONTARE() Restituisce il numero di righe. |
4 | MAX (espressione) Restituisce il valore più grande della colonna selezionata. |
5 | MIN (espressione) Restituisce il valore più piccolo della colonna selezionata. |
6 | SUM (espressione) Restituisce la somma della colonna data. |
7 | LAST_VALUE (espressione) Restituisce l'ultimo valore della colonna data. |
Funzione finestra
Le funzioni Window vengono eseguite su un insieme di righe e restituiscono un singolo valore per ogni riga della query. Il termine finestra ha il significato di insieme di righe per la funzione.
La funzione Window in una query definisce la finestra utilizzando la clausola OVER ().
Il OVER() clausola ha le seguenti capacità -
- Definisce le partizioni delle finestre per formare gruppi di righe. (Clausola PARTITION BY)
- Ordina le righe all'interno di una partizione. (Clausola ORDER BY)
La tabella seguente descrive in dettaglio le funzioni della finestra.
Funzione | Tipo di ritorno | Descrizione |
---|---|---|
rango() | int | Restituisce il rango della riga corrente con spazi. |
row_num () | int | Restituisce la riga corrente all'interno della sua partizione, contando da 1. |
lead (value [, offset integer [, default any]]) | Uguale al tipo di input | Restituisce il valore valutato in corrispondenza della riga che corrisponde alle righe spostate dopo la riga corrente all'interno della partizione. Se questa riga non è presente, verrà restituito il valore predefinito. |
lag (valore [, offset intero [, predefinito qualsiasi]]) | Uguale al tipo di input | Restituisce il valore valutato nella riga che è sfalsata tra le righe prima della riga corrente all'interno della partizione. |
primo_valore (valore) | Uguale al tipo di input | Restituisce il primo valore delle righe di input. |
last_value (valore) | Uguale al tipo di input | Restituisce l'ultimo valore delle righe di input. |
Questo capitolo spiega le seguenti query significative.
- Predicates
- Explain
- Join
Procediamo ed eseguiamo le query.
Predicati
Il predicato è un'espressione che viene utilizzata per valutare valori vero / falso e UNKNOWN. I predicati vengono utilizzati nella condizione di ricerca delle clausole WHERE e HAVING e altri costrutti in cui è richiesto un valore booleano.
Predicato IN
Determina se il valore dell'espressione da testare corrisponde a qualsiasi valore nella sottoquery o nell'elenco. La sottoquery è un'istruzione SELECT ordinaria che ha un set di risultati di una colonna e una o più righe. Questa colonna o tutte le espressioni nell'elenco devono avere lo stesso tipo di dati dell'espressione da testare.
Syntax
IN::=
<expression to test> [NOT] IN (<subquery>)
| (<expression1>,...)
Query
select id,name,address from mytable where id in(2,3,4);
Result
La query precedente genererà il seguente risultato.
id, name, address
-------------------------------
2, Amit, 12 old street
3, Bob, 10 cross street
4, David, 15 express avenue
La query restituisce record da mytable per gli studenti id 2,3 e 4.
Query
select id,name,address from mytable where id not in(2,3,4);
Result
La query precedente genererà il seguente risultato.
id, name, address
-------------------------------
1, Adam, 23 new street
5, Esha, 20 garden street
6, Ganga, 25 north street
7, Jack, 2 park street
8, Leena, 24 south street
9, Mary, 5 west street
10, Peter, 16 park avenue
La query precedente restituisce record da mytable dove gli studenti non sono in 2,3 e 4.
Come Predicate
Il predicato LIKE confronta la stringa specificata nella prima espressione per il calcolo del valore stringa, a cui si fa riferimento come valore da testare, con il modello definito nella seconda espressione per il calcolo del valore stringa.
Il modello può contenere qualsiasi combinazione di caratteri jolly come:
Simbolo di sottolineatura (_), che può essere utilizzato al posto di un singolo carattere nel valore da testare.
Segno di percentuale (%), che sostituisce qualsiasi stringa di zero o più caratteri nel valore da testare.
Syntax
LIKE::=
<expression for calculating the string value>
[NOT] LIKE
<expression for calculating the string value>
[ESCAPE <symbol>]
Query
select * from mytable where name like ‘A%';
Result
La query precedente genererà il seguente risultato.
id, name, address, age, mark
-------------------------------
1, Adam, 23 new street, 12, 90
2, Amit, 12 old street, 13, 95
La query restituisce i record da mytable di quegli studenti i cui nomi iniziano con "A".
Query
select * from mytable where name like ‘_a%';
Result
La query precedente genererà il seguente risultato.
id, name, address, age, mark
——————————————————————————————————————-
4, David, 15 express avenue, 12, 85
6, Ganga, 25 north street, 12, 55
7, Jack, 2 park street, 12, 60
9, Mary, 5 west street, 12, 75
La query restituisce record da mytable di quegli studenti i cui nomi iniziano con "a" come secondo carattere.
Utilizzo del valore NULL nelle condizioni di ricerca
Vediamo ora come utilizzare il valore NULL nelle condizioni di ricerca.
Syntax
Predicate
IS [NOT] NULL
Query
select name from mytable where name is not null;
Result
La query precedente genererà il seguente risultato.
name
-------------------------------
Adam
Amit
Bob
David
Esha
Ganga
Jack
Leena
Mary
Peter
(10 rows, 0.076 sec, 163 B selected)
Qui, il risultato è vero quindi restituisce tutti i nomi dalla tabella.
Query
Controlliamo ora la query con la condizione NULL.
default> select name from mytable where name is null;
Result
La query precedente genererà il seguente risultato.
name
-------------------------------
(0 rows, 0.068 sec, 0 B selected)
Spiegare
Explainviene utilizzato per ottenere un piano di esecuzione della query. Mostra un'esecuzione del piano logico e globale di un'istruzione.
Query del piano logico
explain select * from mytable;
explain
-------------------------------
=> target list: default.mytable.id (INT4), default.mytable.name (TEXT),
default.mytable.address (TEXT), default.mytable.age (INT4), default.mytable.mark (INT4)
=> out schema: {
(5) default.mytable.id (INT4), default.mytable.name (TEXT), default.mytable.address (TEXT),
default.mytable.age (INT4), default.mytable.mark (INT4)
}
=> in schema: {
(5) default.mytable.id (INT4), default.mytable.name (TEXT), default.mytable.address (TEXT),
default.mytable.age (INT4), default.mytable.mark (INT4)
}
Result
La query precedente genererà il seguente risultato.
Il risultato della query mostra un formato del piano logico per la tabella data. Il piano logico restituisce i seguenti tre risultati:
- Elenco di destinazione
- Fuori schema
- Nello schema
Query sul piano globale
explain global select * from mytable;
explain
-------------------------------
-------------------------------------------------------------------------------
Execution Block Graph (TERMINAL - eb_0000000000000_0000_000002)
-------------------------------------------------------------------------------
|-eb_0000000000000_0000_000002
|-eb_0000000000000_0000_000001
-------------------------------------------------------------------------------
Order of Execution
-------------------------------------------------------------------------------
1: eb_0000000000000_0000_000001
2: eb_0000000000000_0000_000002
-------------------------------------------------------------------------------
=======================================================
Block Id: eb_0000000000000_0000_000001 [ROOT]
=======================================================
SCAN(0) on default.mytable
=> target list: default.mytable.id (INT4), default.mytable.name (TEXT),
default.mytable.address (TEXT), default.mytable.age (INT4), default.mytable.mark (INT4)
=> out schema: {
(5) default.mytable.id (INT4), default.mytable.name (TEXT),default.mytable.address (TEXT),
default.mytable.age (INT4), default.mytable.mark (INT4)
}
=> in schema: {
(5) default.mytable.id (INT4), default.mytable.name (TEXT), default.mytable.address (TEXT),
default.mytable.age (INT4), default.mytable.mark (INT4)
}
=======================================================
Block Id: eb_0000000000000_0000_000002 [TERMINAL]
=======================================================
(24 rows, 0.065 sec, 0 B selected)
Result
La query precedente genererà il seguente risultato.
Qui, il piano globale mostra l'ID del blocco di esecuzione, l'ordine di esecuzione e le sue informazioni.
Si unisce
I join SQL vengono utilizzati per combinare righe da due o più tabelle. Di seguito sono riportati i diversi tipi di join SQL:
- Unione interna
- {SINISTRA | DESTRA | FULL} OUTER JOIN
- Cross join
- Self join
- Unione naturale
Considera le due tabelle seguenti per eseguire operazioni di join.
Tabella 1 - Clienti
Id | Nome | Indirizzo | Età |
---|---|---|---|
1 | Cliente 1 | 23 Old Street | 21 |
2 | Cliente 2 | 12 New Street | 23 |
3 | Cliente 3 | 10 Express Avenue | 22 |
4 | Cliente 4 | 15 Express Avenue | 22 |
5 | Cliente 5 | 20 Garden Street | 33 |
6 | Cliente 6 | 21 North Street | 25 |
Table2 - customer_order
Id | ID ordine | Emp Id |
---|---|---|
1 | 1 | 101 |
2 | 2 | 102 |
3 | 3 | 103 |
4 | 4 | 104 |
5 | 5 | 105 |
Procediamo ora ed eseguiamo le operazioni di join SQL sulle due tabelle precedenti.
Inner Join
L'Inner join seleziona tutte le righe di entrambe le tabelle quando c'è una corrispondenza tra le colonne in entrambe le tabelle.
Syntax
SELECT column_name(s) FROM table1 INNER JOIN table2 ON table1.column_name = table2.column_name;
Query
default> select c.age,c1.empid from customers c inner join customer_order c1 on c.id = c1.id;
Result
La query precedente genererà il seguente risultato.
age, empid
-------------------------------
21, 101
23, 102
22, 103
22, 104
33, 105
La query corrisponde a cinque righe di entrambe le tabelle. Quindi, restituisce l'età delle righe corrispondenti dalla prima tabella.
Join esterno sinistro
Un join esterno sinistro conserva tutte le righe della tabella "sinistra", indipendentemente dal fatto che esista una riga che corrisponde o meno alla tabella "destra".
Query
select c.name,c1.empid from customers c left outer join customer_order c1 on c.id = c1.id;
Result
La query precedente genererà il seguente risultato.
name, empid
-------------------------------
customer1, 101
customer2, 102
customer3, 103
customer4, 104
customer5, 105
customer6,
Qui, il join esterno sinistro restituisce le righe della colonna del nome dalla tabella dei clienti (a sinistra) e le righe della colonna empid della tabella customer_order (a destra).
Right Outer Join
Un join esterno destro mantiene tutte le righe della tabella "destra", indipendentemente dal fatto che esista una riga che corrisponde alla tabella "sinistra".
Query
select c.name,c1.empid from customers c right outer join customer_order c1 on c.id = c1.id;
Result
La query precedente genererà il seguente risultato.
name, empid
-------------------------------
customer1, 101
customer2, 102
customer3, 103
customer4, 104
customer5, 105
Qui, il Right Outer Join restituisce le righe empid dalla tabella customer_order (a destra) e le righe corrispondenti alla colonna del nome dalla tabella clienti.
Join esterno completo
Il Full Outer Join mantiene tutte le righe della tabella di sinistra e di destra.
Query
select * from customers c full outer join customer_order c1 on c.id = c1.id;
Result
La query precedente genererà il seguente risultato.
La query restituisce tutte le righe corrispondenti e non corrispondenti sia dai clienti che dalle tabelle customer_order.
Cross Join
Ciò restituisce il prodotto cartesiano dei set di record dalle due o più tabelle unite.
Syntax
SELECT * FROM table1 CROSS JOIN table2;
Query
select orderid,name,address from customers,customer_order;
Result
La query precedente genererà il seguente risultato.
La query precedente restituisce il prodotto cartesiano della tabella.
Natural Join
Un Natural Join non utilizza alcun operatore di confronto. Non concatena come fa un prodotto cartesiano. Possiamo eseguire un Natural Join solo se esiste almeno un attributo comune che esiste tra le due relazioni.
Syntax
SELECT * FROM table1 NATURAL JOIN table2;
Query
select * from customers natural join customer_order;
Result
La query precedente genererà il seguente risultato.
Qui, c'è un ID di colonna comune che esiste tra due tabelle. Usando quella colonna comune, ilNatural Join unisce entrambe le tabelle.
Self Join
SQL SELF JOIN viene utilizzato per unire una tabella a se stessa come se la tabella fosse due tabelle, rinominando temporaneamente almeno una tabella nell'istruzione SQL.
Syntax
SELECT a.column_name, b.column_name...
FROM table1 a, table1 b
WHERE a.common_filed = b.common_field
Query
default> select c.id,c1.name from customers c, customers c1 where c.id = c1.id;
Result
La query precedente genererà il seguente risultato.
id, name
-------------------------------
1, customer1
2, customer2
3, customer3
4, customer4
5, customer5
6, customer6
La query unisce una tabella cliente a se stessa.
Tajo supporta vari formati di archiviazione. Per registrare la configurazione del plug-in di archiviazione, è necessario aggiungere le modifiche al file di configurazione "storage-site.json".
storage-site.json
La struttura è definita come segue:
{
"storages": {
“storage plugin name“: {
"handler": "${class name}”, "default-format": “plugin name"
}
}
}
Ogni istanza di archiviazione è identificata da URI.
PostgreSQL Storage Handler
Tajo supporta il gestore di archiviazione PostgreSQL. Consente alle query degli utenti di accedere agli oggetti del database in PostgreSQL. È il gestore di archiviazione predefinito in Tajo, quindi puoi configurarlo facilmente.
configurazione
{
"spaces": {
"postgre": {
"uri": "jdbc:postgresql://hostname:port/database1"
"configs": {
"mapped_database": “sampledb”
"connection_properties": {
"user":“tajo", "password": "pwd"
}
}
}
}
}
Qui, “database1” si riferisce a postgreSQL database che è mappato al database “sampledb” a Tajo.
Apache Tajo supporta l'integrazione di HBase. Questo ci consente di accedere alle tabelle HBase in Tajo. HBase è un database distribuito orientato alle colonne costruito sul file system Hadoop. Fa parte dell'ecosistema Hadoop che fornisce accesso in lettura / scrittura casuale in tempo reale ai dati nel file system Hadoop. I seguenti passaggi sono necessari per configurare l'integrazione HBase.
Imposta variabile d'ambiente
Aggiungere le seguenti modifiche al file "conf / tajo-env.sh".
$ vi conf/tajo-env.sh
# HBase home directory. It is opitional but is required mandatorily to use HBase.
# export HBASE_HOME = path/to/HBase
Dopo aver incluso il percorso HBase, Tajo imposterà il file della libreria HBase sul classpath.
Crea una tabella esterna
Crea una tabella esterna utilizzando la seguente sintassi:
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] <table_name> [(<column_name> <data_type>, ... )]
USING hbase WITH ('table' = '<hbase_table_name>'
, 'columns' = ':key,<column_family_name>:<qualifier_name>, ...'
, 'hbase.zookeeper.quorum' = '<zookeeper_address>'
, 'hbase.zookeeper.property.clientPort' = '<zookeeper_client_port>')
[LOCATION 'hbase:zk://<hostname>:<port>/'] ;
Per accedere alle tabelle HBase, è necessario configurare la posizione del tablespace.
Qui,
Table- Imposta il nome della tabella di origine hbase. Se vuoi creare una tabella esterna, la tabella deve esistere su HBase.
Columns- La chiave si riferisce alla chiave della riga HBase. Il numero di colonne immesse deve essere uguale al numero di colonne della tabella Tajo.
hbase.zookeeper.quorum - Imposta l'indirizzo del quorum del guardiano dello zoo.
hbase.zookeeper.property.clientPort - Imposta la porta del client guardiano dello zoo.
Query
CREATE EXTERNAL TABLE students (rowkey text,id int,name text)
USING hbase WITH ('table' = 'students', 'columns' = ':key,info:id,content:name')
LOCATION 'hbase:zk://<hostname>:<port>/';
Qui, il campo Percorso posizione imposta l'ID della porta del client zookeeper. Se non si imposta la porta, Tajo farà riferimento alla proprietà del file hbase-site.xml.
Crea tabella in HBase
È possibile avviare la shell interattiva HBase utilizzando il comando "hbase shell" come mostrato nella seguente query.
Query
/bin/hbase shell
Result
La query precedente genererà il seguente risultato.
hbase(main):001:0>
Passaggi per interrogare HBase
Per interrogare HBase, è necessario completare i seguenti passaggi:
Step 1 - Invia i seguenti comandi alla shell HBase per creare una tabella "tutorial".
Query
hbase(main):001:0> create ‘students’,{NAME => ’info’},{NAME => ’content’}
put 'students', ‘row-01', 'content:name', 'Adam'
put 'students', ‘row-01', 'info:id', '001'
put 'students', ‘row-02', 'content:name', 'Amit'
put 'students', ‘row-02', 'info:id', '002'
put 'students', ‘row-03', 'content:name', 'Bob'
put 'students', ‘row-03', 'info:id', ‘003'
Step 2 - Ora, esegui il seguente comando nella shell hbase per caricare i dati in una tabella.
main):001:0> cat ../hbase/hbase-students.txt | bin/hbase shell
Step 3 - Ora torna alla shell Tajo ed esegui il seguente comando per visualizzare i metadati della tabella -
default> \d students;
table name: default.students
table path:
store type: HBASE
number of rows: unknown
volume: 0 B
Options:
'columns' = ':key,info:id,content:name'
'table' = 'students'
schema:
rowkey TEXT
id INT4
name TEXT
Step 4 - Per recuperare i risultati dalla tabella, utilizza la seguente query:
Query
default> select * from students
Result
La query sopra recupererà il seguente risultato:
rowkey, id, name
-------------------------------
row-01, 001, Adam
row-02, 002, Amit
row-03 003, Bob
Tajo supporta HiveCatalogStore per l'integrazione con Apache Hive. Questa integrazione consente a Tajo di accedere alle tabelle in Apache Hive.
Imposta variabile d'ambiente
Aggiungere le seguenti modifiche al file "conf / tajo-env.sh".
$ vi conf/tajo-env.sh
export HIVE_HOME = /path/to/hive
Dopo aver incluso il percorso Hive, Tajo imposterà il file della libreria Hive sul percorso di classe.
Configurazione del catalogo
Aggiungere le seguenti modifiche al file "conf / catalog-site.xml".
$ vi conf/catalog-site.xml
<property>
<name>tajo.catalog.store.class</name>
<value>org.apache.tajo.catalog.store.HiveCatalogStore</value>
</property>
Una volta configurato HiveCatalogStore, puoi accedere alla tabella di Hive in Tajo.
Swift è un archivio oggetti / blob distribuito e coerente. Swift offre software di archiviazione cloud in modo da poter archiviare e recuperare molti dati con una semplice API. Tajo supporta l'integrazione Swift.
I seguenti sono i prerequisiti di Swift Integration:
- Swift
- Hadoop
Core-site.xml
Aggiungi le seguenti modifiche al file hadoop "core-site.xml":
<property>
<name>fs.swift.impl</name>
<value>org.apache.hadoop.fs.swift.snative.SwiftNativeFileSystem</value>
<description>File system implementation for Swift</description>
</property>
<property>
<name>fs.swift.blocksize</name>
<value>131072</value>
<description>Split size in KB</description>
</property>
Questo verrà utilizzato da Hadoop per accedere agli oggetti Swift. Dopo aver apportato tutte le modifiche, spostati nella directory Tajo per impostare la variabile di ambiente Swift.
conf / tajo-env.h
Apri il file di configurazione Tajo e aggiungi set la variabile d'ambiente come segue:
$ vi conf/tajo-env.h export TAJO_CLASSPATH = $HADOOP_HOME/share/hadoop/tools/lib/hadoop-openstack-x.x.x.jar
Ora Tajo sarà in grado di interrogare i dati utilizzando Swift.
Crea tabella
Creiamo una tabella esterna per accedere agli oggetti Swift in Tajo come segue:
default> create external table swift(num1 int, num2 text, num3 float)
using text with ('text.delimiter' = '|') location 'swift://bucket-name/table1';
Dopo che la tabella è stata creata, è possibile eseguire le query SQL.
Apache Tajo fornisce l'interfaccia JDBC per connettersi ed eseguire query. Possiamo usare la stessa interfaccia JDBC per connettere Tajo dalla nostra applicazione basata su Java. Vediamo ora come connettere Tajo ed eseguire i comandi nella nostra applicazione Java di esempio utilizzando l'interfaccia JDBC in questa sezione.
Scarica il driver JDBC
Scarica il driver JDBC visitando il seguente collegamento - http://apache.org/dyn/closer.cgi/tajo/tajo-0.11.3/tajo-jdbc-0.11.3.jar.
Ora, il file "tajo-jdbc-0.11.3.jar" è stato scaricato sul tuo computer.
Imposta percorso classe
Per utilizzare il driver JDBC nel programma, impostare il percorso di classe come segue:
CLASSPATH = path/to/tajo-jdbc-0.11.3.jar:$CLASSPATH
Connettiti a Tajo
Apache Tajo fornisce un driver JDBC come un singolo file jar ed è disponibile @ /path/to/tajo/share/jdbc-dist/tajo-jdbc-0.11.3.jar.
La stringa di connessione per connettere l'Apache Tajo è del seguente formato:
jdbc:tajo://host/
jdbc:tajo://host/database
jdbc:tajo://host:port/
jdbc:tajo://host:port/database
Qui,
host - Il nome host del TajoMaster.
port- Il numero di porta che il server sta ascoltando. Il numero di porta predefinito è 26002.
database- Il nome del database. Il nome del database predefinito è predefinito.
Applicazione Java
Vediamo ora di capire l'applicazione Java.
Codifica
import java.sql.*;
import org.apache.tajo.jdbc.TajoDriver;
public class TajoJdbcSample {
public static void main(String[] args) {
Connection connection = null;
Statement statement = null;
try {
Class.forName("org.apache.tajo.jdbc.TajoDriver");
connection = DriverManager.getConnection(“jdbc:tajo://localhost/default");
statement = connection.createStatement();
String sql;
sql = "select * from mytable”;
// fetch records from mytable.
ResultSet resultSet = statement.executeQuery(sql);
while(resultSet.next()){
int id = resultSet.getInt("id");
String name = resultSet.getString("name");
System.out.print("ID: " + id + ";\nName: " + name + "\n");
}
resultSet.close();
statement.close();
connection.close();
}catch(SQLException sqlException){
sqlException.printStackTrace();
}catch(Exception exception){
exception.printStackTrace();
}
}
}
L'applicazione può essere compilata ed eseguita utilizzando i seguenti comandi.
Compilazione
javac -cp /path/to/tajo-jdbc-0.11.3.jar:. TajoJdbcSample.java
Esecuzione
java -cp /path/to/tajo-jdbc-0.11.3.jar:. TajoJdbcSample
Risultato
I comandi precedenti genereranno il seguente risultato:
ID: 1;
Name: Adam
ID: 2;
Name: Amit
ID: 3;
Name: Bob
ID: 4;
Name: David
ID: 5;
Name: Esha
ID: 6;
Name: Ganga
ID: 7;
Name: Jack
ID: 8;
Name: Leena
ID: 9;
Name: Mary
ID: 10;
Name: Peter
Apache Tajo supporta le funzioni personalizzate / definite dall'utente (UDF). Le funzioni personalizzate possono essere create in python.
Le funzioni personalizzate sono solo semplici funzioni Python con decorator “@output_type(<tajo sql datatype>)” come segue -
@ouput_type(“integer”)
def sum_py(a, b):
return a + b;
Gli script python con UDF possono essere registrati aggiungendo la configurazione seguente in “tajosite.xml”.
<property>
<name>tajo.function.python.code-dir</name>
<value>file:///path/to/script1.py,file:///path/to/script2.py</value>
</property>
Una volta registrati gli script, riavvia il cluster e le UDF saranno disponibili direttamente nella query SQL come segue:
select sum_py(10, 10) as pyfn;
Apache Tajo supporta anche le funzioni aggregate definite dall'utente ma non supporta le funzioni della finestra definite dall'utente.