ggplot2-はじめに
ggplot2は、特にデータの視覚化と最良の探索的データ分析を提供するために設計されたRパッケージです。凡例の描画や表現などの細部を処理する、美しく手間のかからないプロットを提供します。プロットは繰り返し作成し、後で編集することができます。このパッケージは、Rを使用した探索的データ分析中に収集された生データを表示するレイヤーから始まり、注釈と統計要約のレイヤーを追加することで、レイヤー化された方法で機能するように設計されています。
最も経験豊富なRユーザーでさえ、エレガントなグラフィックを作成するための支援が必要です。このライブラリは、Rでグラフィックを作成するための驚異的なツールですが、ほぼ毎日使用した後でも、チートシートを参照する必要があります。
このパッケージは、「グラフィックの文法」と呼ばれる深い文法の下で機能します。これは、さまざまな方法で作成できる独立したコンポーネントのセットで構成されています。R開発者は他のパッケージで使用される事前に指定されたグラフィックのセットに限定されないため、「グラフィックの文法」がggplot2を非常に強力にする唯一の理由です。文法には、コアルールと原則の単純なセットが含まれています。
2005年、ウィルキンソンは、すべての統計グラフィックスの間に含まれる深い特徴を説明するために、グラフィックスの文法の概念を作成または開始しました。これは、Rに埋め込まれた機能の適応を含むレイヤーのプライマリに焦点を当てています。
「グラフィックの文法」とRの関係
これは、統計グラフィックを使用して、データを色、形状、点、線、棒などの関連する幾何学的オブジェクトのサイズなどの美的属性にマッピングすることをユーザーまたは開発者に通知します。プロットには、前述の座標系で描画された関連データのさまざまな統計変換も含まれる場合があります。また、前述のデータセットの異なるサブセットに対して同じプロットを作成するために一般的に使用される「ファセット」と呼ばれる機能も含まれています。Rには、さまざまな組み込みデータセットが含まれています。これらの独立したコンポーネントの組み合わせは、完全に特定のグラフィックを構成します。
ここで、文法を参照して作成できるさまざまなタイプのプロットに焦点を当てましょう。
データ
ユーザーが、マップされた美的属性を作成するためにデータ内の必要な変数がどのように一緒にマップされるかを説明する、与えられた美的マッピングのセットを視覚化したい場合。
レイヤー
これは、幾何学的要素と必要な統計的変換で構成されています。レイヤーには、幾何学的オブジェクト、ポイント、ライン、ポリゴンなどを使用して実際にプロットを表す短いデータのジオメトリが含まれます。最良のデモンストレーションは、観測値をビニングおよびカウントして、特定の線形モデルの2D関係を要約するための特定のヒストグラムを作成することです。
はかり
スケールは、色、サイズ、形状に関係なく、値の作成に使用されるデータ空間の値をマップするために使用されます。上記のプロットから元のデータ値を読み取ることを可能にする逆マッピングを提供するために必要な凡例または軸を描画するのに役立ちます。
座標系
これは、データ座標がグラフィックの言及された平面にどのように一緒にマッピングされるかを説明します。また、グラフを読み取るために必要な軸とグリッド線の情報も提供します。通常、極座標と地図投影法を含むデカルト座標系として使用されます。
ファセット
データを必要なサブセットに分割し、サブセットをデータの倍数として表示する方法に関する仕様が含まれています。これは、条件付けまたは格子プロセスとも呼ばれます。
テーマ
フォントサイズや背景色のプロパティなど、表示の細かい点を制御します。魅力的なプロットを作成するには、参照を検討することをお勧めします。
さて、文法が提供しない制限や機能について議論することも同様に重要です-
どのグラフィックを使用すべきか、またはユーザーが興味を持っているかについての提案が欠けています。
静的グラフィックの説明のみが含まれているため、対話性については説明していません。動的グラフィックスを作成するには、他の代替ソリューションを適用する必要があります。
ggplot2で作成された簡単なグラフを以下に示します-