Apache Presto - KAFKA Bağlayıcısı

Presto için Kafka Bağlayıcısı, Presto kullanarak Apache Kafka'daki verilere erişim sağlar.

Önkoşullar

Aşağıdaki Apache projelerinin en son sürümünü indirin ve kurun.

  • Apache ZooKeeper
  • Apache Kafka

ZooKeeper'ı başlatın

Aşağıdaki komutu kullanarak ZooKeeper sunucusunu başlatın.

$ bin/zookeeper-server-start.sh config/zookeeper.properties

Şimdi, ZooKeeper 2181'de bağlantı noktasına başlıyor.

Kafka'yı başlatın

Aşağıdaki komutu kullanarak Kafka'yı başka bir terminalde başlatın.

$ bin/kafka-server-start.sh config/server.properties

Kafka başladıktan sonra 9092 port numarasını kullanır.

TPCH Verileri

Tpch-kafka'yı indirin

$  curl -o kafka-tpch 
https://repo1.maven.org/maven2/de/softwareforge/kafka_tpch_0811/1.0/kafka_tpch_ 
0811-1.0.sh

Şimdi yukarıdaki komutu kullanarak yükleyiciyi Maven merkezinden indirdiniz. Aşağıdaki gibi benzer bir yanıt alacaksınız.

% Total    % Received % Xferd  Average Speed   Time    Time     Time  Current 
                                 Dload  Upload   Total   Spent    Left  Speed 
  0     0    0     0    0     0      0      0 --:--:--  0:00:01 --:--:--     0  
  5 21.6M    5 1279k    0     0  83898      0  0:04:30  0:00:15  0:04:15  129k
  6 21.6M    6 1407k    0     0  86656      0  0:04:21  0:00:16  0:04:05  131k  
 24 21.6M   24 5439k    0     0   124k      0  0:02:57  0:00:43  0:02:14  175k 
 24 21.6M   24 5439k    0     0   124k      0  0:02:58  0:00:43  0:02:15  160k 
 25 21.6M   25 5736k    0     0   128k      0  0:02:52  0:00:44  0:02:08  181k 
 ………………………..

Ardından, aşağıdaki komutu kullanarak yürütülebilir hale getirin,

$ chmod 755 kafka-tpch

Tpch-kafka'yı çalıştırın

Aşağıdaki komutu kullanarak bir dizi konuyu tpch verileriyle önceden yüklemek için kafka-tpch programını çalıştırın.

Sorgu

$ ./kafka-tpch load --brokers localhost:9092 --prefix tpch. --tpch-type tiny

Sonuç

2016-07-13T16:15:52.083+0530 INFO main io.airlift.log.Logging Logging 
to stderr
2016-07-13T16:15:52.124+0530 INFO main de.softwareforge.kafka.LoadCommand
Processing tables: [customer, orders, lineitem, part, partsupp, supplier,
nation, region]
2016-07-13T16:15:52.834+0530 INFO pool-1-thread-1
de.softwareforge.kafka.LoadCommand Loading table 'customer' into topic 'tpch.customer'...
2016-07-13T16:15:52.834+0530 INFO pool-1-thread-2
de.softwareforge.kafka.LoadCommand Loading table 'orders' into topic 'tpch.orders'...
2016-07-13T16:15:52.834+0530 INFO pool-1-thread-3
de.softwareforge.kafka.LoadCommand Loading table 'lineitem' into topic 'tpch.lineitem'...
2016-07-13T16:15:52.834+0530 INFO pool-1-thread-4
de.softwareforge.kafka.LoadCommand Loading table 'part' into topic 'tpch.part'...
………………………
……………………….

Artık Kafka tablo müşterileri, siparişleri, tedarikçileri vb. Tpch kullanılarak yükleniyor.

Yapılandırma Ayarları Ekle

Presto sunucusuna aşağıdaki Kafka bağlayıcı yapılandırma ayarlarını ekleyelim.

connector.name = kafka  

kafka.nodes = localhost:9092  

kafka.table-names = tpch.customer,tpch.orders,tpch.lineitem,tpch.part,tpch.partsupp, 
tpch.supplier,tpch.nation,tpch.region  

kafka.hide-internal-columns = false

Yukarıdaki konfigürasyonda Kafka tabloları Kafka-tpch programı kullanılarak yüklenir.

Presto CLI'yi başlat

Aşağıdaki komutu kullanarak Presto CLI'yi başlatın,

$ ./presto --server localhost:8080 --catalog kafka —schema tpch;

Buraya “tpch" Kafka bağlayıcısı için bir şemadır ve aşağıdaki gibi bir yanıt alacaksınız.

presto:tpch>

Tabloları Listele

Aşağıdaki sorgu, içindeki tüm tabloları listeler “tpch” şema.

Sorgu

presto:tpch> show tables;

Sonuç

Table 
---------- 
 customer 
 lineitem 
 nation 
 orders
 part 
 partsupp 
 region 
 supplier

Müşteri Tablosunu Tanımlayın

Aşağıdaki sorgu tanımları “customer” tablo.

Sorgu

presto:tpch> describe customer;

Sonuç

Column           |  Type   |                   Comment 
-------------------+---------+--------------------------------------------- 
 _partition_id     | bigint  | Partition Id 
 _partition_offset | bigint  | Offset for the message within the partition 
 _segment_start    | bigint  | Segment start offset 
 _segment_end      | bigint  | Segment end offset 
 _segment_count    | bigint  | Running message count per segment 
 _key              | varchar | Key text 
 _key_corrupt      | boolean | Key data is corrupt 
 _key_length       | bigint  | Total number of key bytes 
 _message          | varchar | Message text 
 _message_corrupt  | boolean | Message data is corrupt 
 _message_length   | bigint  | Total number of message bytes