Hive - przeglądanie i indeksy

W tym rozdziale opisano sposób tworzenia widoków i zarządzania nimi. Widoki są generowane na podstawie wymagań użytkownika. Dowolne dane zestawu wyników można zapisać jako widok. Użycie widoku w gałęzi Hive jest takie samo jak widoku w SQL. Jest to standardowa koncepcja RDBMS. Na widoku możemy wykonać wszystkie operacje DML.

Tworzenie widoku

Możesz utworzyć widok w czasie wykonywania instrukcji SELECT. Składnia jest następująca:

CREATE VIEW [IF NOT EXISTS] view_name [(column_name [COMMENT column_comment], ...) ]
[COMMENT table_comment]
AS SELECT ...

Przykład

Weźmy przykład. Załóż tabelę pracowników, jak podano poniżej, z polami Id, Nazwisko, Wynagrodzenie, Stanowisko i Dział. Wygeneruj zapytanie, aby pobrać dane pracownika, którzy zarabiają ponad 30000 Rs.emp_30000.

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1201  | Gopal        | 45000       | Technical manager | TP     |
|1202  | Manisha      | 45000       | Proofreader       | PR     |
|1203  | Masthanvali  | 40000       | Technical writer  | TP     |
|1204  | Krian        | 40000       | Hr Admin          | HR     |
|1205  | Kranthi      | 30000       | Op Admin          | Admin  |
+------+--------------+-------------+-------------------+--------+

Następujące zapytanie pobiera dane pracownika przy użyciu powyższego scenariusza:

hive> CREATE VIEW emp_30000 AS
SELECT * FROM employee
WHERE salary>30000;

Upuszczanie widoku

Użyj następującej składni, aby usunąć widok:

DROP VIEW view_name

Następujące zapytanie usuwa widok o nazwie emp_30000:

hive> DROP VIEW emp_30000;

Tworzenie indeksu

Indeks to nic innego jak wskaźnik na określoną kolumnę tabeli. Utworzenie indeksu oznacza utworzenie wskaźnika na konkretną kolumnę tabeli. Jego składnia jest następująca:

CREATE INDEX index_name
ON TABLE base_table_name (col_name, ...)
AS 'index.handler.class.name'
[WITH DEFERRED REBUILD]
[IDXPROPERTIES (property_name=property_value, ...)]
[IN TABLE index_table_name]
[PARTITIONED BY (col_name, ...)]
[
   [ ROW FORMAT ...] STORED AS ...
   | STORED BY ...
]
[LOCATION hdfs_path]
[TBLPROPERTIES (...)]

Przykład

Weźmy przykład index. Użyj tej samej tabeli pracowników, której używaliśmy wcześniej z polami Id, Nazwisko, Wynagrodzenie, Oznaczenie i Dział. Utwórz indeks o nazwie index_salary w kolumnie wynagrodzenia tabeli pracownika.

Następujące zapytanie tworzy indeks:

hive> CREATE INDEX inedx_salary ON TABLE employee(salary)
AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler';

Jest to wskaźnik do kolumny wynagrodzenia. Jeśli kolumna zostanie zmodyfikowana, zmiany są zapisywane przy użyciu wartości indeksu.

Upuszczanie indeksu

Następująca składnia służy do usuwania indeksu:

DROP INDEX <index_name> ON <table_name>

Następujące zapytanie usuwa indeks o nazwie index_salary:

hive> DROP INDEX index_salary ON employee;