данных

Apr 30 2023

Что такое данные? Проще говоря, данные — это совокупность фактов о чем-либо. То есть мы собираем слова, числа, измерения, наблюдения и/или описания, относящиеся к интересующей нас проблеме или ее компонентам, а затем представляем их в форме, которая помогает нам быстрее разобраться в них.

Создано на Canva Анвитой Г.

Что такое данные?

Проще говоря, данные — это совокупность фактов о чем-либо. То есть мы собираем слова, числа, измерения, наблюдения и/или описания, относящиеся к интересующей нас проблеме или ее компонентам, а затем представляем их в форме, которая помогает нам быстрее разобраться в них. Эта презентация обычно представляет собой таблицу, в которой факты отсортированы по тому, что они пытаются сообщить об интересующей нас проблеме, по типам, к которым они относятся, и т. д. — что облегчает чтение, чем набор просто перемешанных слов и цифр. и кинул на страницу.

Данные и информация:

Слово «данные» часто используется взаимозаменяемо со словом «информация», когда мы ведем разговоры в повседневной жизни — информация определенных видов, представленная определенным образом и т. д., но независимо от этого. Тем не менее, есть тонкая разница в значении этих двух слов. Данные сами по себе являются необработанными и необработанными, и нам потребуется их дальнейшая обработка, прежде чем мы сможем извлечь из них какую-либо информацию.

Однако информация – это данные, которые были обработаны, организованы и снабжены контекстом. Информация зависит от данных (т. е. без данных не было бы информации) и, как правило, достаточна для принятия решений. Мы можем извлекать реальные выводы из информации и принимать решения на основе этих выводов, что было бы невозможно из данных в их самых необработанных формах.

Например, административный отдел типичного университета будет иметь записи о своих студентах, степенях и курсах, на которые они записались, их академическую историю, текущие оценки, ожидаемый год выпуска, посещаемость занятий (если они отслеживают), внеаудиторные мероприятия. например, членство в студенческих клубах и т. д. Все эти записи в совокупности будут данными , т. е. кучами и кучами фактов о студенчестве во всей их сырой, необработанной красоте.

Однако, если компания хочет нанять студентов для размещения в кампусе, ей необходимо знать о них несколько вещей, которые она должна сообщить университету. Теперь университет не может просто передать данные своих студентов как есть. Им нужно будет отсортировать данные и предоставить только то, что имеет отношение к процессу трудоустройства — например, список студентов, которые должны закончить обучение в этом году, их квалификацию и опыт работы (если есть), их оценки, неакадемические производительность и т. д. Данные, которые поступают в компанию, были обработаны, проанализированы и помещены в контекст, что делает их информационными .

Типичный административный отдел университета не часто оставляет данные лежать без дела, по крайней мере, не сортируя их, не обрабатывая и не извлекая из них некоторое представление. У университета почти всегда будет под рукой некоторая информация о своих студентах, которую можно будет использовать немедленно, когда возникнет необходимость. Это означает, что процесс обмена информацией с компаниями, заинтересованными в найме своих студентов, обычно происходит быстрее, чем можно предположить в приведенном выше примере.

Представление данных в виде таблиц:

Мы часто используем данные для анализа в виде таблиц, чтобы организовать данные на основе определенных характеристик. Таблица представляет собой прямоугольную структуру данных, в которой строки и столбцы несут определенное значение . Например, предположим, что магазин велосипедов продает десять велосипедов в определенный день, и владелец записывает имя каждого покупателя, купившего велосипед, модель купленного велосипеда и его цену. Он упорядочил бы свои данные примерно так, чтобы потом было легче обращаться к ним:

Создано в Jupyter Notebooks Анвитой Г.

Каждый горизонтальный массив в таблице представляет собой строку . Он представляет собой наблюдение или случай в данных — то есть каждую продажу в магазине велосипедов и все атрибуты для этой конкретной продажи: кто купил велосипед, его модель и цену. Если десять таких людей придут и купят велосипеды в этом магазине, будет десять рядов.

При этом каждый вертикальный массив в таблице называется столбцом или переменной , т.е. мы ожидаем найти разные значения для общего атрибута классов — например, в приведенной выше таблице есть один столбец для покупателей, купивших велосипеды, и один для модель и один по цене. Если бы у этих велосипедов было больше общих атрибутов, таблица показала бы их в виде столбцов.

Таблицы также называются фреймами данных или наборами данных, и позже их можно использовать для построения графиков и изображений, которые упрощают понимание для тех, кто не имеет опыта чтения таблиц (или даже для специалистов по данным, которые хотят понять, как их данные выглядят в один взгляд, прежде чем переходить к дальнейшему, более сложному анализу данных).

Типы переменных:

Переменные в таблице могут быть одного из двух основных типов в зависимости от типа значений, которые они содержат:

Количественные переменные , которые содержат исключительно числовые значения, так что некоторые значения больше других, что подразумевает количественные различия в величине.
Кроме того, ожидается, что наблюдения, сходные по значению, будут схожими по свойствам. То есть, если два студента имеют одинаковые баллы, можно ожидать, что они потратили одинаковое количество времени на учебу и т. д.
Качественные/категориальные переменные, которые предполагают, что их значения принадлежат к одной из конечного набора категорий, таких как год выпуска студента, проживание в университетских общежитиях или нет, и так далее.
Как правило, категориальные переменные не допускают явного упорядочения/ранжирования между категориями. То есть студенты, окончившие школу в 2022 году, никоим образом не превосходят студентов, окончивших школу в 2023 году, только по году выпуска.
Однако существует подтип категориальных переменных, называемый упорядоченной категориальной переменной , который позволяет ранжировать категории. Например, студент может занять первое, второе или третье место.в своем классе. Однако между этими рангами нет фиксированной, измеримой величины. То есть разница между первым и вторым рангом может не совпадать с разницей между вторым и третьим рангом. Кроме того, разница между первым и вторым разрядами в одном классе может не совпадать с разницей между первым и вторым разрядами в другом классе.
Просто ученик, занявший первое место, показал лучшие результаты в классе, чем ученик, занявший второе место, который, в свою очередь, показал лучшие результаты, чем ученик, занявший третье место.

Когда мы хотим анализировать данные в python, мы сначала хотели бы получить наши данные в наш компилятор (в моем случае Jupyter Notebook). Мы можем сделать это двумя способами:

Вручную создайте таблицу:
Здесь мы вводим данные вручную, а затем создаем на их основе таблицу. В отличие от SQL, где мы вводим каждую строку отдельно, мы можем просто создать словарь в Python с заголовками столбцов для индексов и преобразовать его во фрейм данных с помощью библиотеки pandas.
Например, давайте создадим набор данных о продаже игрушек для магазина велосипедов, показывающий имя покупателя, купившего велосипед, модель велосипеда и его цену.

import pandas as pd
Data = {'Customer':['A','B','C','D','E','F','G','H','I','J'], 
'Model': ['a','b','c','d','e', 'b', 'd', 'c', 'e','a'], 
'Price':[2000, 2500, 3000, 4000, 1200,2500,4000,3000,1200,2000]}
df = pd.DataFrame(Data)
df                     # df is now the name of our dataframe

Создано на ноутбуках Jupyter Анвитой Г.

Также обратите внимание, что использование списков для создания наборов данных — это только один из многих способов сделать это. Этот метод мне кажется самым простым в исполнении.

2. Импорт данных напрямую.
В приведенном выше примере показана таблица, состоящая всего из 10 строк и 3 столбцов. Однако реальные данные часто содержат тысячи строк и столбцов, ввод которых вручную занял бы целую вечность и стоил бы целое состояние по времени и деньгам.
Таким образом, у Python есть способ прямого импорта файлов данных с чьего-либо компьютера. Как и в случае выше, для прямого импорта данных также используется библиотека pandas.

df = pd.read_csv('toy_dataset.csv', sep=',',header=0)
df              # df is now the name of our dataframe

Данные, загруженные из Kaggle, и таблица, созданная в Jupyter Notebooks Анвитой Г.

Обратите внимание, что в этом наборе данных 150 000 строк и 6 столбцов, а это очень много!

Таким образом, мы сделали первый шаг в анализе данных: нашли данные для анализа и настроили их в инструменте. Теперь мы должны сначала изучить его свойства, прежде чем двигаться дальше. Об этом я расскажу в следующих постах.

Спасибо, что зашли!

PS Самих данных гораздо больше, чем то, что я здесь написал. В Интернете есть обширные ресурсы, которые охватывают различные аспекты данных, и я только прощупал почву своим постом.