Talend-ビッグデータ

ビッグデータを使用するOpenStudioのキャッチフレーズは、「ビッグデータ用の主要な無料のオープンソースETLツールを使用してETLとELTを簡素化する」です。この章では、ビッグデータ環境でデータを処理するためのツールとしてのTalendの使用法を見てみましょう。

前書き

Talend Open Studio –ビッグデータは、ビッグデータ環境でデータを非常に簡単に処理するための無料のオープンソースツールです。Talend Open Studioには、いくつかのHadoopコンポーネントをドラッグアンドドロップするだけで、Hadoopジョブを作成して実行できるビッグデータコンポーネントがたくさんあります。

その上、MapReduceコードの大きな行を書く必要はありません。Talend Open Studioビッグデータは、そこに存在するコンポーネントを使用してこれを行うのに役立ちます。MapReduceコードが自動的に生成されます。コンポーネントをドラッグアンドドロップし、いくつかのパラメーターを構成するだけです。

また、Cloudera、HortonWorks、MapR、Amazon EMR、さらにはApacheなどのいくつかのビッグデータディストリビューションに接続するオプションも提供します。

ビッグデータのTalendコンポーネント

ビッグデータに含まれるビッグデータ環境でジョブを実行するためのコンポーネントを含むカテゴリのリストを以下に示します-

Talend OpenStudioのビッグデータコネクタとコンポーネントのリストを以下に示します-

  • tHDFSConnection − HDFS(Hadoop分散ファイルシステム)への接続に使用されます。

  • tHDFSInput −指定されたhdfsパスからデータを読み取り、それをtalendスキーマに配置してから、ジョブの次のコンポーネントに渡します。

  • tHDFSList −指定されたhdfsパス内のすべてのファイルとフォルダーを取得します。

  • tHDFSPut −指定されたパスでローカルファイルシステム(ユーザー定義)からhdfsにファイル/フォルダーをコピーします。

  • tHDFSGet −指定されたパスでhdfsからローカルファイルシステム(ユーザー定義)にファイル/フォルダーをコピーします。

  • tHDFSDelete −HDFSからファイルを削除します

  • tHDFSExist −ファイルがHDFSに存在するかどうかを確認します。

  • tHDFSOutput −HDFSにデータフローを書き込みます。

  • tCassandraConnection −Cassandraサーバーへの接続を開きます。

  • tCassandraRow −指定されたデータベースでCQL(Cassandraクエリ言語)クエリを実行します。

  • tHBaseConnection −HBaseデータベースへの接続を開きます。

  • tHBaseInput −HBaseデータベースからデータを読み取ります。

  • tHiveConnection −Hiveデータベースへの接続を開きます。

  • tHiveCreateTable −ハイブデータベース内にテーブルを作成します。

  • tHiveInput −ハイブデータベースからデータを読み取ります。

  • tHiveLoad −ハイブテーブルまたは指定されたディレクトリにデータを書き込みます。

  • tHiveRow −指定されたデータベースでHiveQLクエリを実行します。

  • tPigLoad −入力データを出力ストリームにロードします。

  • tPigMap −pigプロセスでデータを変換およびルーティングするために使用されます。

  • tPigJoin −結合キーに基づいて2つのファイルの結合操作を実行します。

  • tPigCoGroup −複数の入力からのデータをグループ化して集約します。

  • tPigSort − 1つ以上の定義済みソートキーに基づいて、指定されたデータをソートします。

  • tPigStoreResult −豚の手術の結果を定義された保管スペースに保管します。

  • tPigFilterRow −指定された条件に基づいてデータを分割するために、指定された列をフィルタリングします。

  • tPigDistinct −リレーションから重複するタプルを削除します。

  • tSqoopImport − MySQL、OracleDBなどのリレーショナルデータベースからHDFSにデータを転送します。

  • tSqoopExport − HDFSからMySQL、OracleDBなどのリレーショナルデータベースにデータを転送します