HCatalog - Yükleyici ve Depo
HCatLoader ve HCatStorerAPI'ler, HCatalog tarafından yönetilen tablolardaki verileri okumak ve yazmak için Pig komut dosyalarıyla birlikte kullanılır. Bu arayüzler için HCatalog'a özgü kurulum gerekmez.
Bu bölümü daha iyi anlamak için Apache Pig komut dosyaları hakkında biraz bilgi sahibi olmak daha iyidir. Daha fazla referans için lütfen Apache Pig eğitimimizi inceleyin.
HCatloader
HCatLoader, HCatalog tarafından yönetilen tablolardan verileri okumak için Pig komut dosyalarıyla birlikte kullanılır. HCatloader kullanarak HDFS'ye veri yüklemek için aşağıdaki sözdizimini kullanın.
A = LOAD 'tablename' USING org.apache.HCatalog.pig.HCatLoader();
Tablo adını tek tırnak içinde belirtmelisiniz: LOAD 'tablename'. Varsayılan olmayan bir veritabanı kullanıyorsanız, girişinizi 'dbname.tablename'.
Hive meta deposu, bir veritabanı belirtmeden tablolar oluşturmanıza olanak tanır. Tabloları bu şekilde oluşturduysanız, veritabanı adı'default' HCatLoader için tablo belirtirken ve gerekli değildir.
Aşağıdaki tablo, HCatloader sınıfının önemli yöntemlerini ve açıklamasını içerir.
Sr.No. | Yöntem Adı ve Açıklaması |
---|---|
1 | public InputFormat<?,?> getInputFormat()throws IOException HCatloader sınıfını kullanarak yükleme verilerinin giriş formatını okuyun. |
2 | public String relativeToAbsolutePath(String location, Path curDir) throws IOException String formatını döndürür. Absolute path. |
3 | public void setLocation(String location, Job job) throws IOException İşin yürütülebileceği konumu ayarlar. |
4 | public Tuple getNext() throws IOException Geçerli demeti (key ve value) döngüden. |
HCatStorer
HCatStorer, HCatalog tarafından yönetilen tablolara veri yazmak için Pig komut dosyalarıyla birlikte kullanılır. Saklama işlemi için aşağıdaki sözdizimini kullanın.
A = LOAD ...
B = FOREACH A ...
...
...
my_processed_data = ...
STORE my_processed_data INTO 'tablename' USING org.apache.HCatalog.pig.HCatStorer();
Tablo adını tek tırnak içinde belirtmelisiniz: LOAD 'tablename'. Pig betiğinizi çalıştırmadan önce hem veritabanı hem de tablo oluşturulmalıdır. Varsayılan olmayan bir veritabanı kullanıyorsanız, girişinizi şu şekilde belirtmelisiniz:'dbname.tablename'.
Hive meta deposu, bir veritabanı belirtmeden tablolar oluşturmanıza olanak tanır. Tabloları bu şekilde oluşturduysanız, veritabanı adı'default' ve veritabanının adını belirtmeniz gerekmez. store Beyan.
İçin USINGyan tümce, bölümler için anahtar / değer çiftlerini temsil eden bir dize bağımsız değişkeniniz olabilir. Bu, bölümlenmiş bir tabloya yazarken ve bölüm sütunu çıktı sütununda olmadığında zorunlu bir argümandır. Bölüm anahtarlarının değerleri alıntılanmamalıdır.
Aşağıdaki tablo, HCatStorer sınıfının önemli yöntemlerini ve açıklamasını içerir.
Sr.No. | Yöntem Adı ve Açıklaması |
---|---|
1 | public OutputFormat getOutputFormat() throws IOException HCatStorer sınıfını kullanarak depolanan verilerin çıktı formatını okuyun. |
2 | public void setStoreLocation (String location, Job job) throws IOException Bunun yürütüleceği yeri ayarlar store uygulama. |
3 | public void storeSchema (ResourceSchema schema, String arg1, Job job) throws IOException Şemayı saklayın. |
4 | public void prepareToWrite (RecordWriter writer) throws IOException RecordWriter kullanarak belirli bir dosyaya veri yazmaya yardımcı olur. |
5 | public void putNext (Tuple tuple) throws IOException Tuple verilerini dosyaya yazar. |
HCatalog ile Pig Çalıştırmak
Pig, HCatalog kavanozlarını otomatik olarak almıyor. Gerekli kavanozları getirmek için Pig komutunda bir bayrak kullanabilir veya ortam değişkenlerini ayarlayabilirsiniz.PIG_CLASSPATH ve PIG_OPTS aşağıda açıklandığı gibi.
HCatalog ile çalışmak üzere uygun kavanozları getirmek için aşağıdaki işareti eklemeniz yeterlidir -
pig –useHCatalog <Sample pig scripts file>
Yürütme için CLASSPATH'ı Ayarlama
HCatalog'u Apache Pig ile senkronize etmek için aşağıdaki CLASSPATH ayarını kullanın.
export HADOOP_HOME = <path_to_hadoop_install>
export HIVE_HOME = <path_to_hive_install>
export HCAT_HOME = <path_to_hcat_install>
export PIG_CLASSPATH = $HCAT_HOME/share/HCatalog/HCatalog-core*.jar:\
$HCAT_HOME/share/HCatalog/HCatalog-pig-adapter*.jar:\
$HIVE_HOME/lib/hive-metastore-*.jar:$HIVE_HOME/lib/libthrift-*.jar:\
$HIVE_HOME/lib/hive-exec-*.jar:$HIVE_HOME/lib/libfb303-*.jar:\
$HIVE_HOME/lib/jdo2-api-*-ec.jar:$HIVE_HOME/conf:$HADOOP_HOME/conf:\
$HIVE_HOME/lib/slf4j-api-*.jar
Misal
Bir dosyamız olduğunu varsayalım student_details.txt aşağıdaki içeriğe sahip HDFS'de.
student_details.txt
001, Rajiv, Reddy, 21, 9848022337, Hyderabad
002, siddarth, Battacharya, 22, 9848022338, Kolkata
003, Rajesh, Khanna, 22, 9848022339, Delhi
004, Preethi, Agarwal, 21, 9848022330, Pune
005, Trupthi, Mohanthy, 23, 9848022336, Bhuwaneshwar
006, Archana, Mishra, 23, 9848022335, Chennai
007, Komal, Nayak, 24, 9848022334, trivendram
008, Bharathi, Nambiayar, 24, 9848022333, Chennai
Ayrıca adında bir örnek betiğimiz var. sample_script.pig, aynı HDFS dizininde. Bu dosya, üzerinde işlemleri ve dönüşümleri gerçekleştiren ifadeleri içerir.student ilişki, aşağıda gösterildiği gibi.
student = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING
PigStorage(',') as (id:int, firstname:chararray, lastname:chararray,
phone:chararray, city:chararray);
student_order = ORDER student BY age DESC;
STORE student_order INTO 'student_order_table' USING org.apache.HCatalog.pig.HCatStorer();
student_limit = LIMIT student_order 4;
Dump student_limit;
Komut dosyasının ilk ifadesi, verileri adlı dosyaya yükleyecektir. student_details.txt bir ilişki olarak student.
Betiğin ikinci ifadesi, ilişkinin demetlerini yaşa göre azalan sırada düzenleyecek ve şu şekilde saklayacaktır: student_order.
Üçüncü ifade işlenmiş verileri saklar student_order adlı ayrı bir tabloyla sonuçlanır student_order_table.
Komut dosyasının dördüncü ifadesi, komut dosyasının ilk dört demetini saklayacaktır. student_order gibi student_limit.
Son olarak beşinci ifade, ilişkinin içeriğini atacak student_limit.
Şimdi uygulayalım sample_script.pig Aşağıda gösterildiği gibi.
$./pig -useHCatalog hdfs://localhost:9000/pig_data/sample_script.pig
Şimdi, çıktı (part_0000, part_0001) için çıktı dizininizi (hdfs: user / tmp / hive) kontrol edin.