Verilerin

Apr 30 2023
Veri nedir? Basitçe ifade edilen veriler, bir şey hakkındaki gerçeklerin bir koleksiyonudur. Yani, ilgilenebileceğimiz bir sorunla veya onun bileşenleriyle ilgili kelimeleri, sayıları, ölçümleri, gözlemleri ve/veya açıklamaları toplarız ve daha sonra onu daha hızlı anlamamıza yardımcı olacak bir biçimde sunarız.
Anwita G tarafından Canva'da oluşturuldu

Veri nedir?

Basitçe ifade edilen veriler, bir şey hakkındaki gerçeklerin bir koleksiyonudur. Yani, ilgilenebileceğimiz bir sorunla veya onun bileşenleriyle ilgili kelimeleri, sayıları, ölçümleri, gözlemleri ve/veya açıklamaları toplarız ve daha sonra onu daha hızlı anlamamıza yardımcı olacak bir biçimde sunarız. Bu sunum tipik olarak, gerçeklerin ilgi sorunumuz hakkında iletmeye çalıştıkları şeye, içine düştükleri türlere vb. göre sıralandığı bir tablodur. ve bir sayfaya atılır.

Veri ve Bilgi:

'Veri' kelimesi, günlük yaşamda sohbet ederken genellikle 'bilgi' ile birbirinin yerine kullanılır - belirli türden bilgiler, belirli şekillerde sunulur, vb., ancak bilgi ne olursa olsun. Bununla birlikte, iki kelimenin anlamında ince bir fark vardır. Veri kendi başına rafine edilmemiş ve hamdır ve ondan herhangi bir içgörü çıkarabilmemiz için onu daha fazla işlememiz gerekir.

Oysa bilgi, işlenmiş, düzenlenmiş ve bağlam verilmiş veridir. Bilgi verilere bağlıdır (yani veri olmadan bilgi olmaz) ve genellikle karar vermek için yeterlidir. Bilgiden gerçek içgörüler çıkarabilir ve bu içgörülere dayalı kararlar verebiliriz, ki bu en ham biçimlerdeki verilerden mümkün olmaz.

Örneğin, tipik bir üniversite yönetim departmanı, öğrencilerinin, kaydoldukları derecelerin ve derslerin, akademik geçmişlerinin, mevcut notlarının, beklenen mezuniyet yıllarının, sınıf katılımlarının (takip ediyorlarsa), sınıf dışı etkinliklerin kayıtlarına sahip olacaktır. öğrenci kulübü üyelikleri vb .

Bununla birlikte, bir şirket kampüs yerleştirme gezilerinde öğrenci kiralamak isterse, onlar hakkında üniversiteye ileteceği birkaç şey bilmesi gerekir. Artık üniversite, öğrenci verilerini olduğu gibi teslim edemez. Verileri tasnif etmeleri ve yalnızca yerleştirme güdüsüyle ilgili olanı sağlamaları gerekir - örneğin, o yıl mezun olması beklenen öğrencilerin bir listesi, nitelikleri ve (varsa) iş deneyimleri, notları, akademik olmayanlar performans vb. Şirkete giden veriler işlendi, analiz edildi ve bağlama yerleştirildi, bilgi haline getirildi .

Tipik bir üniversite yönetici departmanı, en azından sıralamadan, işlemeden ve ondan bir fikir çıkarmadan verileri ortalıkta bırakmaz. Üniversite, ihtiyaç duyulduğunda hemen kullanmak için öğrencileri hakkında neredeyse her zaman bazı bilgilere sahiptir. Bu, öğrencilerini işe almakla ilgilenen şirketlerle bilgi paylaşma sürecinin genellikle yukarıdaki örneğin önerebileceğinden daha hızlı olduğu anlamına gelir.

Verileri Tablo Olarak Temsil Etmek:

Verileri belirli özelliklere göre düzenlemek için genellikle tablo şeklinde analiz için verileri kullanırız. Tablo , özel anlam taşıyan satırlar ve sütunlardan oluşan dikdörtgen bir veri düzenlemesidir. Örneğin, bir bisiklet mağazasının belirli bir günde on bisiklet sattığını ve mal sahibinin bisiklet satın alan her müşterinin adını, aldıkları bisikletin modelini ve fiyatını kaydettiğini varsayalım. Daha sonra daha kolay başvurmak için verilerini şuna benzer bir şekilde düzenlerdi:

Anwita G tarafından Jupyter Defterlerinde Oluşturuldu

Tablodaki her yatay dizi bir satırdır . Verilerdeki bir gözlemi veya vakayı temsil eder - yani bisiklet mağazasından yapılan her bir satış ve o belirli satışın tüm özellikleri: bisikleti kim aldı, modeli ve fiyatı. Böyle on kişi gelip bu dükkandan bisiklet alsa on sıra olur.

Bu arada, tablodaki her bir dikey diziye bir sütun veya değişken adı verilir, yani sınıfların ortak bir özelliği için farklı değerler bulmayı bekleriz — örneğin, yukarıdaki tabloda bisiklet satın alan müşteriler için bir sütun, model ve bir fiyat için. Bu bisikletlerin daha fazla ortak özelliği olsaydı, tablo onları sütunlar halinde gösterirdi.

Tablolar aynı zamanda veri çerçeveleri veya veri kümeleri olarak da adlandırılır ve daha sonra tablolar ve resimler oluşturmak için kullanılabilirler; verilerin daha ileri, daha karmaşık analizlerine geçmeden önce tek bir bakış).

Değişken Türleri:

Bir tablodaki değişkenler, tuttukları değerlerin türüne bağlı olarak iki temel türden biri olabilir:

  • Niceliksel Değişkenler , bazı değerlerin diğerlerinden daha büyük olduğu şekilde özel olarak sayısal değerler tutan ve büyüklükte ölçülebilir farklılıklar olduğunu ima eder.
    Ayrıca, değer bakımından benzer olan gözlemlerin özellikler açısından da benzer olması beklenir. Yani, eğer iki öğrenci benzer puanlara sahipse, ders çalışmak için benzer miktarda zaman harcamış olmaları beklenebilir.
  • Niteliksel/Kategorik Değişkenler: Bir öğrencinin mezun olması beklenen yıl, üniversite yurtlarında kalıp kalmaması vb. gibi değerlerinin sonlu bir kategori kümesinden birine ait olmasını bekleyen Niteliksel/Kategorik Değişkenler.
    Tipik olarak, kategorik değişkenler, kategoriler arasında açık sıralamaya/sıralamaya izin vermez. Yani 2022'de mezun olan öğrencilerin 2023'te mezun olanlardan hiçbir üstünlüğü sadece mezuniyet yılına göre değil. Bununla birlikte, kategorik değişkenlerin, kategoriler arasında sıralamaya izin veren sıralı kategorik değişken
    adı verilen bir alt türü vardır . Örneğin, bir öğrenci birinci, ikinci veya üçüncü sırada yer alabilir.onların sınıfında. Ancak bu mertebeler arasında sabit, ölçülebilir bir büyüklük yoktur. Yani birinci ve ikinci sıralar arasındaki fark, ikinci ve üçüncü sıralar arasındaki fark kadar olmayabilir. Ayrıca bir sınıftaki birinci ve ikinci sıralar arasındaki fark, başka bir sınıftaki birinci ve ikinci sıralar arasındaki farkla aynı olmayabilir.
    Sadece birinci olan öğrenci sınıfta ikinci olan öğrenciden daha iyi performans gösterdi, o da üçüncü olan öğrenciden daha iyi performans gösterdi.

Python'da verileri analiz etmek istediğimizde, önce verilerimizi derleyicimize (benim durumumda Jupyter Notebook) almak isteriz. Bunu iki şekilde yapabiliriz:

  1. Tabloyu manuel olarak oluştur:
    Burada verileri manuel olarak giriyoruz ve ardından tablodan bir tablo oluşturuyoruz. Her satırı ayrı ayrı girdiğimiz SQL'den farklı olarak, Python'da dizinler için sütun başlıkları olan bir sözlük oluşturabilir ve onu pandas kitaplığını kullanarak bir veri çerçevesine dönüştürebiliriz.
    Örneğin bir bisiklet mağazası için bisiklet alan müşterinin adını, bisikletin modelini ve fiyatını gösteren bir oyuncak satış veri seti oluşturalım.
  2. import pandas as pd
    Data = {'Customer':['A','B','C','D','E','F','G','H','I','J'], 
    'Model': ['a','b','c','d','e', 'b', 'd', 'c', 'e','a'], 
    'Price':[2000, 2500, 3000, 4000, 1200,2500,4000,3000,1200,2000]}
    df = pd.DataFrame(Data)
    df                     # df is now the name of our dataframe
    

    Anwita G tarafından Jupyter Defterlerinde oluşturuldu

Ayrıca, veri kümeleri oluşturmak için listeleri kullanmanın, bunu yapmanın birçok yolundan yalnızca biri olduğunu unutmayın. Bu yöntem, yürütülmesi en kolay bulduğum yöntemdir.

2. Verileri Doğrudan İçe Aktarma:
Yukarıdaki örnekte yalnızca 10 satır ve 3 sütundan oluşan bir tablo gösterilmektedir. Bununla birlikte, gerçek hayattaki veriler genellikle, manuel olarak girilmesi sonsuza kadar sürecek ve zaman ve para açısından bir servete mal olacak binlerce satır ve sütun içerir.
Bu nedenle, Python'un veri dosyalarını doğrudan birinin bilgisayarından içe aktarma yöntemi vardır. Yukarıdaki durumda olduğu gibi, verileri doğrudan içe aktarmak da pandas kitaplığını kullanır.

df = pd.read_csv('toy_dataset.csv', sep=',',header=0)
df              # df is now the name of our dataframe

Kaggle'dan indirilen veriler ve Anwita G tarafından Jupyter Notebooks'ta oluşturulan tablo

Bu veri kümesinin 150.000 satır ve 6 sütun içerdiğini unutmayın ki bu çok fazla veri demektir!

Böylece, veri analizinde ilk adımımızı attık: analiz edilecek veriyi bulmak ve onu bir araçta kurmak. Şimdi, ilerlemeden önce özelliklerini keşfetmemiz gerekiyor. Buna gelecek yazılarımda değineceğim.

Uğradığınız için teşekkürler!

Not: Verilerin kendisinde burada yazdıklarımdan çok daha fazlası var. İnternet, verilerin çeşitli yönlerini kapsayan geniş kaynaklara sahiptir ve ben yalnızca gönderimle suları test ettim.