데이터

Apr 30 2023

데이터란 무엇입니까? 간단히 말해서 데이터는 어떤 것에 대한 사실의 모음입니다. 즉, 우리가 관심을 가질 수 있는 문제 또는 그 구성 요소와 관련된 단어, 숫자, 측정, 관찰 및/또는 설명을 수집한 다음 더 빨리 이해하는 데 도움이 되는 형식으로 제시합니다.

Anwita G가 Canva에서 제작

데이터란 무엇입니까?

간단히 말해서 데이터는 어떤 것에 대한 사실의 모음입니다. 즉, 우리가 관심을 가질 수 있는 문제 또는 해당 구성 요소와 관련된 단어, 숫자, 측정, 관찰 및/또는 설명을 수집한 다음 더 빨리 이해하는 데 도움이 되는 형식으로 제시합니다. 이 프레젠테이션은 일반적으로 관심 있는 문제에 대해 전달하려는 내용, 해당 유형 등에 따라 팩트가 정렬되는 테이블입니다. 즉, 단어와 숫자를 뒤섞는 것보다 읽기가 더 쉽습니다. 페이지에 던져졌습니다.

데이터 및 정보:

'데이터'라는 단어는 우리가 일상 생활에서 대화를 나눌 때 '정보'와 상호 교환적으로 사용되는 경우가 많습니다. 특정 종류의 정보, 특정 방식으로 제공되는 정보 등이 있지만 정보는 상관없습니다. 그러나 두 단어의 의미에는 미묘한 차이가 있습니다. 데이터 자체는 정제되지 않은 가공되지 않은 원시 데이터이므로 통찰력을 얻기 전에 추가 처리가 필요합니다.

그러나 정보는 처리, 구성 및 컨텍스트가 제공된 데이터입니다. 정보는 데이터 에 의존하며 (즉, 데이터 없이는 정보가 없음) 일반적으로 의사 결정을 내리기에 충분합니다. 정보에서 실제 통찰력을 얻고 이러한 통찰력을 기반으로 의사 결정을 내릴 수 있습니다. 이는 원시 형태의 데이터에서는 불가능합니다.

예를 들어, 일반적인 대학 관리 부서에는 학생, 등록한 학위 및 과정, 학업 기록, 현재 성적, 예상 졸업 연도, 교실 출석(추적하는 경우), 교실 외 활동에 대한 기록이 있습니다. 학생 동아리 회원 등. 이러한 모든 기록은 총체적으로 데이터 가 됩니다 .

그러나 회사에서 캠퍼스 배치 드라이브에 학생을 고용하려면 학생에 대해 몇 가지 정보를 알아야 대학에 알릴 수 있습니다. 이제 대학은 학생 데이터를 그대로 넘겨줄 수 없습니다. 그들은 데이터를 정렬하고 배치 드라이브와 관련된 항목만 제공해야 합니다. 성과 등 회사에 전달되는 데이터는 가공, 분석 및 컨텍스트에 배치되어 정보가 됩니다 .

일반적인 대학 행정 부서는 최소한 데이터를 정렬하고 처리하고 통찰력을 끌어내지 않고는 데이터를 방치하지 않는 경우가 많습니다. 대학은 필요할 때 즉시 사용할 수 있도록 거의 항상 학생들에 대한 정보를 가지고 있습니다. 즉, 학생 채용에 관심이 있는 회사와 정보를 공유하는 프로세스는 일반적으로 위의 예에서 제안하는 것보다 빠릅니다.

데이터를 테이블로 나타내기:

특정 특성에 따라 데이터를 구성하기 위해 테이블 형식의 분석용 데이터를 자주 사용합니다. 테이블 은 특정 의미를 전달하는 행과 열이 있는 데이터의 직사각형 배열입니다. 예를 들어, 자전거 가게에서 하루에 10대의 자전거를 판매하고, 주인이 자전거를 구입한 각 고객의 이름, 구입한 자전거 모델 및 가격을 기록한다고 가정합니다. 그는 나중에 쉽게 참조할 수 있도록 데이터를 다음과 같이 정리했습니다.

Anwita G가 Jupyter 노트북에서 구성

테이블의 각 가로 배열은 행 입니다 . 이는 데이터의 관찰 또는 사례를 나타냅니다. 즉, 자전거 상점의 각 판매 및 해당 특정 판매에 대한 모든 속성(자전거 구입자, 모델 및 가격)을 나타냅니다. 그런 사람 10명이 와서 이 가게에서 자전거를 사면 10줄이 될 것입니다.

한편, 테이블의 각 수직 배열은 열 또는 변수 라고 합니다. 즉, 클래스의 공통 속성에 대해 서로 다른 값을 찾을 것으로 예상합니다. 예를 들어 위의 테이블에는 자전거를 구입한 고객에 대한 열이 하나 있고, 모델, 하나는 가격입니다. 이러한 자전거에 더 많은 공통 속성이 있는 경우 테이블에 이러한 속성이 열로 표시되었을 것입니다.

테이블은 데이터 프레임 또는 데이터 세트라고도 하며 나중에 그래프와 그림을 구성하는 데 사용할 수 있으므로 테이블 읽기에 경험이 없는 사람(또는 테이블에서 데이터가 어떻게 보이는지 이해하려는 데이터 과학자도 쉽게 이해할 수 있습니다. 데이터를 더 복잡하게 분석하기 전에 한 눈에 보기).

변수 유형:

테이블의 변수는 보유하고 있는 값의 종류에 따라 두 가지 기본 유형 중 하나일 수 있습니다.

정량적 변수(Quantitative Variables) 는 일부 값이 다른 값보다 더 큰 숫자 값만을 보유하며 정량화할 수 있는 크기의 차이를 의미합니다.
또한 값이 유사한 관찰은 특성이 유사할 것으로 예상됩니다. 즉, 두 명의 학생이 비슷한 점수를 받았다면 비슷한 시간을 공부한 것으로 예상할 수 있습니다.
질적/범주적 변수는 학생이 졸업할 예정인 연도 또는 대학 기숙사에 거주하는지 여부 등과 같이 유한한 범주 집합 중 하나에 값이 속할 것으로 기대합니다.
일반적으로 범주형 변수는 범주 간의 명시적인 순서 지정/순위 지정을 허용하지 않습니다. 즉, 2022년에 졸업하는 학생은 졸업 연도만 기준으로 2023년에 졸업하는 학생보다 결코 우월하지 않습니다. 그러나 범주 간 순위 지정을 허용하는 정렬된
범주형 변수라고 하는 범주형 변수의 하위 유형이 있습니다 . 예를 들어 학생의 순위가 1위, 2위 또는 3위일 수 있습니다.그들의 수업에서. 그러나 이러한 순위 사이에는 정량화할 수 있는 고정된 크기가 없습니다. 즉, 1위와 2위의 차이는 2위와 3위의 차이와 같지 않을 수 있다. 또한 한 클래스의 1위와 2위의 차이는 다른 클래스의 1위와 2위의 차이와 같지 않을 수 있습니다.
단지 1등을 한 학생이 2등을 한 학생보다 수업에서 더 잘했고, 그 학생이 3등을 한 학생보다 더 잘했을 뿐입니다.

Python에서 데이터를 분석하려면 먼저 데이터를 컴파일러(제 경우에는 Jupyter Notebook)로 가져오고 싶습니다. 우리는 이것을 두 가지 방법으로 할 수 있습니다:

수동으로 테이블 생성:
여기서는 데이터를 수동으로 입력한 다음 테이블을 생성합니다. 각 행을 개별적으로 입력하는 SQL과 달리 인덱스에 대한 열 헤더가 있는 Python에서 사전을 만들고 pandas 라이브러리를 사용하여 데이터 프레임으로 변환할 수 있습니다.
예를 들어, 자전거를 구입한 고객의 이름, 자전거 모델 및 가격을 표시하는 자전거 상점용 장난감 판매 데이터 세트를 생성해 보겠습니다.

import pandas as pd
Data = {'Customer':['A','B','C','D','E','F','G','H','I','J'], 
'Model': ['a','b','c','d','e', 'b', 'd', 'c', 'e','a'], 
'Price':[2000, 2500, 3000, 4000, 1200,2500,4000,3000,1200,2000]}
df = pd.DataFrame(Data)
df                     # df is now the name of our dataframe

Anwita G가 Jupyter 노트북에서 생성

또한 목록을 사용하여 데이터 세트를 만드는 것은 여러 방법 중 하나일 뿐입니다. 이 방법은 실행하기 가장 쉬운 방법입니다.

2. 데이터 직접 가져오기:
위의 예는 10개의 행과 3개의 열만 있는 테이블을 보여줍니다. 그러나 실제 데이터에는 종종 수천 개의 행과 열이 포함되어 있어 수동으로 입력하는 데 시간이 오래 걸리고 많은 시간과 비용이 소요됩니다.
따라서 Python에는 누군가의 컴퓨터에서 데이터 파일을 직접 가져오는 방법이 있습니다. 위의 경우와 마찬가지로 데이터를 직접 가져오는 것도 pandas 라이브러리를 사용합니다.

df = pd.read_csv('toy_dataset.csv', sep=',',header=0)
df              # df is now the name of our dataframe

Kaggle에서 다운로드한 데이터와 Anwita G가 Jupyter Notebook에서 만든 테이블

이 데이터 세트에는 150,000개의 행과 6개의 열이 있으며 이는 많은 데이터입니다!

따라서 우리는 데이터 분석의 첫 번째 단계인 분석할 데이터를 찾고 도구에 설정하는 작업을 수행했습니다. 이제 진행하기 전에 먼저 속성을 탐색해야 합니다. 이것은 향후 게시물에서 다룰 것입니다.

들러 주셔서 감사합니다!

추신: 제가 여기에 쓴 것보다 데이터 자체에 더 많은 것이 있습니다. 인터넷에는 데이터의 다양한 측면을 다루는 방대한 리소스가 있습니다. 저는 제 게시물로 물을 테스트했을 뿐입니다.