ggplot2-소개

ggplot2는 데이터 시각화를 위해 특별히 설계된 R 패키지이며 최고의 탐색 데이터 분석을 제공합니다. 범례 그리기 및 표현과 같은 세부 사항을 처리하는 아름답고 번거롭지 않은 플롯을 제공합니다. 플롯은 반복적으로 생성하고 나중에 편집 할 수 있습니다. 이 패키지는 R로 탐색 적 데이터 분석 중에 수집 된 원시 데이터를 표시하는 계층으로 시작하여 주석 및 통계 요약 계층을 추가하는 계층화 된 방식으로 작동하도록 설계되었습니다.

가장 숙련 된 R 사용자조차도 우아한 그래픽을 만드는 데 도움이 필요합니다. 이 라이브러리는 R에서 그래픽을 만드는 경이로운 도구이지만, 거의 매일 사용해온 수년 후에도 여전히 치트 시트를 참조해야합니다.

이 패키지는 여러 가지 방법으로 만들 수있는 독립적 인 구성 요소 집합으로 구성된“Grammar of graphics”라는 깊은 문법 하에서 작동합니다. “Grammar of graphics”는 R 개발자가 다른 패키지에서 사용되는 미리 지정된 그래픽 세트에 국한되지 않기 때문에 ggplot2를 매우 강력하게 만드는 유일한 이유입니다. 문법에는 간단한 핵심 규칙과 원칙이 포함됩니다.

2005 년에 Wilkinson은 모든 통계 그래픽 사이에 포함 된 심층적 인 기능을 설명하기 위해 그래픽 문법 개념을 만들거나 시작했습니다. R에 포함 된 적응 기능을 포함하는 기본 계층에 중점을 둡니다.

“Grammar of Graphics”와 R의 관계

사용자 또는 개발자에게 데이터를 점, 선 및 막대와 같은 관련 기하학적 개체의 색상, 모양, 크기와 같은 미적 속성에 매핑하는 데 통계 그래픽이 사용됨을 알려줍니다. 플롯에는 언급 된 좌표계에 그려진 관련 데이터의 다양한 통계 변환이 포함될 수도 있습니다. 또한 언급 된 데이터 세트의 다른 하위 집합에 대해 동일한 플롯을 만드는 데 일반적으로 사용되는 "Faceting"이라는 기능도 포함합니다. R에는 다양한 내장 데이터 세트가 포함되어 있습니다. 이러한 독립 구성 요소의 조합은 완전히 특정 그래픽을 구성합니다.

이제 문법을 참조하여 생성 할 수있는 다양한 유형의 플롯에 초점을 맞 춥니 다.

데이터

사용자가 매핑 된 미적 속성을 생성하기 위해 데이터의 필수 변수가 함께 매핑되는 방식을 설명하는 미적 매핑의 주어진 세트를 시각화하려는 경우.

레이어

기하학적 요소와 필요한 통계 변환으로 구성됩니다. 레이어에는 점, 선, 다각형 등을 사용하여 실제로 플롯을 나타내는 기하학적 객체, 짧은 데이터 용 기하학이 포함됩니다. 가장 좋은 데모는 특정 선형 모델의 2D 관계를 요약하기위한 특정 히스토그램을 생성하기 위해 관측치를 비닝하고 계산하는 것입니다.

저울

스케일은 색상, 크기 및 모양에 관계없이 값 생성에 사용되는 데이터 공간의 값을 매핑하는 데 사용됩니다. 역 매핑을 제공하는 데 필요한 범례 또는 축을 그리면 언급 된 플롯에서 원래 데이터 값을 읽을 수 있습니다.

좌표계

데이터 좌표가 언급 된 그래픽 평면에 함께 매핑되는 방식을 설명합니다. 또한 그래프를 읽는 데 필요한 축 및 격자 선에 대한 정보를 제공합니다. 일반적으로 극좌표와지도 투영을 포함하는 데카르트 좌표계로 사용됩니다.

패싯

여기에는 데이터를 필수 하위 집합으로 나누고 하위 집합을 데이터의 배수로 표시하는 방법에 대한 사양이 포함되어 있습니다. 이것은 컨디셔닝 또는 격자 프로세스라고도합니다.

테마

글꼴 크기 및 배경색 속성과 같은 미세한 표시 지점을 제어합니다. 매력적인 플롯을 만들려면 항상 참조를 고려하는 것이 좋습니다.

이제 문법이 제공하지 않는 제한이나 기능에 대해 논의하는 것도 똑같이 중요합니다.

  • 어떤 그래픽을 사용해야하는지 또는 사용자가 관심을 갖고 있는지에 대한 제안이 없습니다.

  • 정적 그래픽에 대한 설명 만 포함하므로 상호 작용을 설명하지 않습니다. 동적 그래픽을 생성하려면 다른 대체 솔루션을 적용해야합니다.

ggplot2로 만든 간단한 그래프는 다음과 같습니다.