De datos

¿Qué son los datos?
Los datos, dicho simplemente, son una colección de hechos acerca de algo. Es decir, reunimos palabras, números, medidas, observaciones y/o descripciones relevantes para un problema en el que podríamos estar interesados o sus componentes, y luego lo presentamos en una forma que nos ayuda a entenderlo más rápido. Esta presentación suele ser una tabla, donde los hechos se ordenan por lo que intentan transmitir sobre nuestro problema de interés, los tipos en los que se dividen, etc., lo que hace que sea más fácil de leer que un montón de palabras y números revueltos. y tirado en una página.
Datos e información:
La palabra 'datos' a menudo se usa indistintamente con 'información' cuando tenemos conversaciones en la vida cotidiana: información de ciertos tipos, presentada de ciertas maneras, etc., pero independientemente de la información. Sin embargo, hay una diferencia sutil en el significado de las dos palabras. Los datos, por sí mismos, no están refinados y son crudos, y necesitaríamos procesarlos más antes de que podamos extraer alguna información de ellos.
Sin embargo, la información son datos que han sido procesados, organizados y contextualizados. La información depende de los datos (es decir, no habría información sin datos), y generalmente es suficiente para tomar decisiones. Podemos extraer conocimientos reales de la información y tomar decisiones basadas en estos conocimientos, lo que no sería posible a partir de los datos en su forma más cruda.
Por ejemplo, el departamento de administración de una universidad típica tendría registros de sus estudiantes, los títulos y cursos en los que se han inscrito, su historial académico, las calificaciones actuales, el año de graduación previsto, la asistencia al aula (si llevan un registro), las actividades fuera del aula como membresías de clubes estudiantiles, etc. Todos estos registros serían colectivamente datos , es decir, montones y montones de datos sobre el alumnado en todo su esplendor crudo y sin procesar.
Sin embargo, si una empresa quiere contratar estudiantes en campañas de colocación en el campus, necesitaría saber algunas cosas sobre ellos, que comunicaría a la universidad. Ahora, la universidad no puede simplemente entregar los datos de sus estudiantes tal como están. Tendrían que ordenar los datos y proporcionar solo lo que sea relevante para la campaña de colocación, por ejemplo, una lista de estudiantes que se espera que se gradúen ese año, sus calificaciones y experiencia laboral (si corresponde), sus calificaciones, datos no académicos. desempeño, etc. Los datos que llegan a la empresa han sido procesados, analizados y contextualizados, convirtiéndolos en información .
El típico departamento de administración de la universidad no suele dejar datos tirados sin, al menos, clasificarlos, procesarlos y obtener alguna información de ellos. La universidad casi siempre tendría alguna información sobre sus estudiantes a mano, para uso inmediato cuando surja la necesidad. Eso significa que el proceso de compartir información con empresas interesadas en contratar a sus estudiantes suele ser más rápido de lo que podría sugerir el ejemplo anterior.
Representación de datos como tablas:
A menudo usamos datos para el análisis en forma de tablas para organizar los datos en función de ciertas características. Una tabla es una disposición rectangular de datos, con filas y columnas que tienen un significado específico. Por ejemplo, supongamos que una tienda de bicicletas vende diez bicicletas en un día determinado y el propietario registra el nombre de cada cliente que compró una bicicleta, el modelo de bicicleta que compró y su precio. Organizaría sus datos de la siguiente manera para una referencia más fácil más adelante:

Cada arreglo horizontal en la tabla es una fila . Representa una observación o caso en los datos, es decir, cada venta de la tienda de bicicletas y todos los atributos de esa venta en particular: quién compró la bicicleta, su modelo y precio. Si diez de esas personas vienen y compran bicicletas en esta tienda, habrá diez filas
Mientras tanto, cada matriz vertical en la tabla se llama columna o variable , es decir, esperamos encontrar diferentes valores para un atributo común de las clases; por ejemplo, la tabla anterior tiene una columna para los clientes que compraron las bicicletas, otra para el modelo, y otro por precio. Si estas bicicletas tuvieran más atributos en común, la tabla los habría mostrado como columnas.
Las tablas también se denominan marcos de datos o conjuntos de datos, y luego se pueden usar para construir gráficos e imágenes, lo que hace que sea más fácil de entender para alguien sin experiencia en la lectura de tablas (o incluso para un científico de datos que quiere entender cómo se ven sus datos en una sola mirada, antes de entrar en análisis más complicados de los datos).
Tipos de Variables:
Las variables de una tabla pueden ser de dos tipos básicos, según el tipo de valores que contengan:
- Variables Cuantitativas , que contienen valores exclusivamente numéricos, de modo que algunos valores son mayores que otros, lo que implica diferencias cuantificables en magnitud.
Además, se espera que las observaciones de valor similar sean similares en propiedades. Es decir, si dos estudiantes tienen puntajes similares, uno podría esperar que hayan pasado la misma cantidad de tiempo estudiando, etc. - Variables cualitativas/categóricas, que esperan que sus valores pertenezcan a una de un conjunto finito de categorías, como el año en el que se espera que un estudiante se gradúe, o si reside en los dormitorios universitarios o no, etc.
Por lo general, las variables categóricas no permiten una ordenación/clasificación explícita entre las categorías. Es decir, los estudiantes que se gradúan en 2022 no son superiores a los estudiantes que se gradúan en 2023 basándose únicamente en el año de graduación.
Sin embargo, existe un subtipo de variables categóricas, denominadas variables categóricas ordenadas , que sí permiten la clasificación entre categorías. Por ejemplo, un estudiante puede clasificarse primero, segundo o tercero.en su clase Sin embargo, no existe una magnitud fija y cuantificable entre estos rangos. Es decir, la diferencia entre el primer y el segundo rango puede no ser la misma que la diferencia entre el segundo y el tercer rango. Además, la diferencia entre el primer y el segundo rango en una clase puede no ser la misma que la diferencia entre el primer y el segundo rango en otra clase.
Es solo que el estudiante que ocupó el primer lugar se desempeñó mejor en clase que el estudiante que ocupó el segundo lugar, quien, a su vez, se desempeñó mejor que el estudiante que ocupó el tercer lugar.
Cuando queremos analizar datos en python, primero nos gustaría obtener nuestros datos en nuestro compilador (en mi caso, Jupyter Notebook). Podemos hacer esto de dos maneras:
- Crear la tabla manualmente:
Aquí ingresamos los datos manualmente, y luego creamos una tabla a partir de ella. A diferencia de SQL, donde ingresamos cada fila por separado, simplemente podemos crear un diccionario en Python, con los encabezados de columna para los índices, y convertirlo en un marco de datos usando la biblioteca pandas.
Por ejemplo, creemos un conjunto de datos de ventas de juguetes para una tienda de bicicletas, que muestre el nombre del cliente que compró una bicicleta, el modelo de la bicicleta y su precio.
import pandas as pd
Data = {'Customer':['A','B','C','D','E','F','G','H','I','J'],
'Model': ['a','b','c','d','e', 'b', 'd', 'c', 'e','a'],
'Price':[2000, 2500, 3000, 4000, 1200,2500,4000,3000,1200,2000]}
df = pd.DataFrame(Data)
df # df is now the name of our dataframe

Además, tenga en cuenta que usar listas para crear conjuntos de datos es solo una de las muchas formas de hacerlo. Este método es el que encuentro más fácil de ejecutar.
2. Importación de datos directamente:
el ejemplo anterior mostraba una tabla con solo 10 filas y 3 columnas. Sin embargo, los datos de la vida real a menudo contienen miles de filas y columnas, que tomaría una eternidad ingresar manualmente y costaría una fortuna en tiempo y dinero.
Por lo tanto, Python tiene una forma de importar directamente archivos de datos desde la computadora de alguien. Como en el caso anterior, la importación de datos directamente también utiliza la biblioteca pandas.
df = pd.read_csv('toy_dataset.csv', sep=',',header=0)
df # df is now the name of our dataframe

Tenga en cuenta que este conjunto de datos tiene 150 000 filas y 6 columnas, ¡lo cual es una gran cantidad de datos!
Por lo tanto, hemos dado nuestro primer paso en el análisis de datos: encontrar datos para analizar y configurarlos en una herramienta. Ahora, primero debemos explorar sus propiedades antes de seguir adelante. Esto, lo cubriré en publicaciones futuras.
¡Gracias por pasar!
PD Hay mucho más en los datos en sí que lo que he escrito aquí. Internet tiene vastos recursos que cubren varios aspectos de los datos, y solo he probado las aguas con mi publicación.