Veri Madenciliği - Hızlı Kılavuz

Bilgi Endüstrisinde çok miktarda veri mevcuttur. Bu veriler, yararlı bilgilere dönüştürülene kadar hiçbir işe yaramaz. Bu büyük miktardaki veriyi analiz etmek ve ondan faydalı bilgiler çıkarmak gerekiyor.

Bilginin çıkarılması, gerçekleştirmemiz gereken tek işlem değildir; veri madenciliği aynı zamanda Veri Temizleme, Veri Entegrasyonu, Veri Dönüştürme, Veri Madenciliği, Örüntü Değerlendirme ve Veri Sunumu gibi diğer süreçleri de içerir. Tüm bu süreçler bittikten sonra bu bilgileri Dolandırıcılık Tespiti, Pazar Analizi, Üretim Kontrolü, Bilim Keşfi vb. Birçok uygulamada kullanabileceğiz.

Veri Madenciliği nedir?

Veri Madenciliği, devasa veri kümelerinden bilgi çıkarmak olarak tanımlanır. Başka bir deyişle, veri madenciliğinin verilerden bilgi çıkarma prosedürü olduğunu söyleyebiliriz. Çıkarılan bilgi veya bilgi, aşağıdaki uygulamalardan herhangi biri için kullanılabilir -

  • Pazar araştırması
  • Dolandırıcılık Tespiti
  • Müşteri tutma
  • Üretim kontrolü
  • Bilim Keşfi

Veri Madenciliği Uygulamaları

Veri madenciliği aşağıdaki alanlarda oldukça kullanışlıdır -

  • Pazar Analizi ve Yönetimi
  • Kurumsal Analiz ve Risk Yönetimi
  • Dolandırıcılık Tespiti

Bunların dışında veri madenciliği üretim kontrolü, müşteriyi elde tutma, bilim keşfi, spor, astroloji ve İnternet Web Sörf Yardımı alanlarında da kullanılabilir.

Pazar Analizi ve Yönetimi

Aşağıda veri madenciliğinin kullanıldığı çeşitli pazar alanları listelenmiştir -

  • Customer Profiling - Veri madenciliği, ne tür insanların ne tür ürünler satın aldığını belirlemeye yardımcı olur.

  • Identifying Customer Requirements- Veri madenciliği, farklı müşteriler için en iyi ürünleri belirlemeye yardımcı olur. Yeni müşterileri çekebilecek faktörleri bulmak için tahmini kullanır.

  • Cross Market Analysis - Veri madenciliği, ürün satışları arasındaki İlişkilendirme / korelasyonları gerçekleştirir.

  • Target Marketing - Veri madenciliği, ilgi alanları, harcama alışkanlıkları, gelir vb. Gibi aynı özellikleri paylaşan model müşteri kümelerini bulmaya yardımcı olur.

  • Determining Customer purchasing pattern - Veri madenciliği, müşteri satın alma modelinin belirlenmesine yardımcı olur.

  • Providing Summary Information - Veri madenciliği bize çok boyutlu çeşitli özet raporlar sunar.

Kurumsal Analiz ve Risk Yönetimi

Veri madenciliği, Kurumsal Sektörün aşağıdaki alanlarında kullanılmaktadır -

  • Finance Planning and Asset Evaluation - Varlıkları değerlendirmek için nakit akışı analizi ve tahmini, koşullu hasar analizi içerir.

  • Resource Planning - Kaynakları ve harcamaları özetlemeyi ve karşılaştırmayı içerir.

  • Competition - Rakipleri ve pazar yönlerini izlemeyi içerir.

Dolandırıcılık Tespiti

Veri madenciliği, dolandırıcılıkların tespiti için kredi kartı hizmetleri ve telekomünikasyon alanlarında da kullanılmaktadır. Dolandırıcılık amaçlı telefon görüşmelerinde aramanın varış noktasını, aramanın süresini, günün veya haftanın saatini vb. Bulmaya yardımcı olur. Ayrıca beklenen normlardan sapan kalıpları da analiz eder.

Veri madenciliği, çıkarılabilecek model türleriyle ilgilenir. Çıkarılacak veri türüne göre, Veri Madenciliğinde yer alan iki işlev kategorisi vardır -

  • Descriptive
  • Sınıflandırma ve Tahmin

Tanımlayıcı İşlev

Tanımlayıcı işlev, veritabanındaki verilerin genel özellikleriyle ilgilenir. İşte tanımlayıcı işlevlerin listesi -

  • Sınıf / Konsept Tanımı
  • Sık Model Madenciliği
  • Dernek Madenciliği
  • Korelasyon Madenciliği
  • Küme Madenciliği

Sınıf / Konsept Tanımı

Sınıf / Kavram, sınıflar veya kavramlarla ilişkilendirilecek verileri ifade eder. Örneğin, bir şirkette, satış kalemleri sınıfları bilgisayar ve yazıcıları içerir ve müşteri kavramları, yüksek harcama yapanlar ve bütçe harcayanları içerir. Bir sınıfın veya bir kavramın bu tür tanımlarına sınıf / kavram tanımları denir. Bu açıklamalar aşağıdaki iki yoldan elde edilebilir:

  • Data Characterization- Bu, incelenen sınıfın verilerini özetlemeyi ifade eder. İncelenen bu sınıfa Hedef Sınıf denir.

  • Data Discrimination - Bir sınıfın önceden tanımlanmış bir grup veya sınıfla eşleştirilmesi veya sınıflandırılmasını ifade eder.

Sık Model Madenciliği

Sık görülen modeller, işlem verilerinde sıklıkla görülen kalıplardır. İşte sık görülen modellerin listesi -

  • Frequent Item Set - Süt ve ekmek gibi sıklıkla birlikte görünen bir dizi maddeyi ifade eder.

  • Frequent Subsequence - Kamera satın alma gibi sık görülen bir dizi örüntüyü bellek kartı izler.

  • Frequent Sub Structure - Altyapı, öğe grupları veya alt dizilerle birleştirilebilen grafikler, ağaçlar veya kafesler gibi farklı yapısal formları ifade eder.

Derneğin Madenciliği

İlişkilendirmeler, perakende satışlarda sıklıkla birlikte satın alınan kalıpları belirlemek için kullanılır. Bu süreç, veriler arasındaki ilişkiyi ortaya çıkarma ve ilişkilendirme kurallarını belirleme sürecini ifade eder.

Örneğin, bir perakendeci, sütün% 70'inin ekmekle satıldığını ve bisküvilerin yalnızca% 30'unun ekmekle satıldığını gösteren bir ilişki kuralı oluşturur.

Korelasyon Madenciliği

Birbirleri üzerinde olumlu, olumsuz veya hiç etkilerinin olup olmadığını analiz etmek için ilişkili özellik-değer çiftleri arasındaki veya iki öğe seti arasındaki ilginç istatistiksel korelasyonları ortaya çıkarmak için yapılan bir tür ek analizdir.

Küme Madenciliği

Küme, benzer türde bir nesne grubunu ifade eder. Küme analizi, birbirine çok benzeyen ancak diğer kümelerdeki nesnelerden oldukça farklı olan nesneler grubu oluşturmayı ifade eder.

Sınıflandırma ve Tahmin

Sınıflandırma, veri sınıflarını veya kavramlarını tanımlayan bir model bulma sürecidir. Amaç, bu modeli, sınıf etiketi bilinmeyen nesnelerin sınıfını tahmin etmek için kullanabilmektir. Bu türetilmiş model, eğitim veri setlerinin analizine dayanmaktadır. Elde edilen model aşağıdaki formlarda sunulabilir -

  • Sınıflandırma (IF-THEN) Kuralları
  • Karar ağaçları
  • Matematiksel Formüller
  • Nöral ağlar

Bu süreçlerde yer alan işlevlerin listesi aşağıdaki gibidir -

  • Classification- Sınıf etiketi bilinmeyen nesnelerin sınıfını tahmin eder. Amacı, veri sınıflarını veya kavramları tanımlayan ve ayırt eden türetilmiş bir model bulmaktır. Türetilmiş Model, eğitim verilerinin analiz setine, yani sınıf etiketi iyi bilinen veri nesnesine dayanmaktadır.

  • Prediction- Sınıf etiketleri yerine eksik veya mevcut olmayan sayısal veri değerlerini tahmin etmek için kullanılır. Regresyon Analizi genellikle tahmin için kullanılır. Tahmin, mevcut verilere dayalı olarak dağıtım eğilimlerinin belirlenmesi için de kullanılabilir.

  • Outlier Analysis - Aykırı değerler, mevcut verilerin genel davranışına veya modeline uymayan veri nesneleri olarak tanımlanabilir.

  • Evolution Analysis - Evrim analizi, davranışları zaman içinde değişen nesneler için açıklama ve model düzenliliklerini veya eğilimlerini ifade eder.

Veri Madenciliği Görev İlkeleri

  • Bir veri madenciliği sorgusu şeklinde bir veri madenciliği görevi belirleyebiliriz.
  • Bu sorgu sisteme girilir.
  • Bir veri madenciliği sorgusu, veri madenciliği görev ilkelleri açısından tanımlanır.

Note- Bu ilkeller, veri madenciliği sistemiyle etkileşimli bir şekilde iletişim kurmamızı sağlar. İşte Veri Madenciliği Görev İlkellerinin listesi -

  • Maden çıkarılacak görevle ilgili veri seti.
  • Maden çıkarılacak bir tür bilgi.
  • Keşif sürecinde kullanılacak arka plan bilgisi.
  • Örüntü değerlendirmesi için ilginçlik ölçüleri ve eşikler.
  • Keşfedilen kalıpları görselleştirmek için temsil.

Maden çıkarılacak görevle ilgili veri seti

Bu, veritabanının kullanıcının ilgilendiği kısmıdır. Bu bölüm aşağıdakileri içerir -

  • Veritabanı Öznitelikleri
  • İlgili Veri Ambarı boyutları

Çıkarılacak bilgi türü

Gerçekleştirilecek işlevlerin türünü ifade eder. Bu işlevler -

  • Characterization
  • Discrimination
  • İlişkilendirme ve Korelasyon Analizi
  • Classification
  • Prediction
  • Clustering
  • Aykırı Değer Analizi
  • Evrim Analizi

Arkaplan bilgisi

Arka plan bilgisi, verilerin birden fazla soyutlama düzeyinde çıkarılmasına izin verir. Örneğin, Kavram hiyerarşileri, verilerin birden çok soyutlama düzeyinde çıkarılmasına izin veren arka plan bilgilerinden biridir.

Örüntü değerlendirmesi için ilginçlik ölçüleri ve eşikler

Bu, bilgi keşfi süreci tarafından keşfedilen kalıpları değerlendirmek için kullanılır. Farklı bilgi türleri için farklı ilginç ölçüler vardır.

Keşfedilen kalıpları görselleştirmek için temsil

Bu, keşfedilen modellerin görüntüleneceği formu ifade eder. Bu temsiller aşağıdakileri içerebilir. -

  • Rules
  • Tables
  • Charts
  • Graphs
  • Karar ağaçları
  • Cubes

Veri madenciliği kolay bir iş değildir, çünkü kullanılan algoritmalar çok karmaşık olabilir ve veriler her zaman tek bir yerde bulunmaz. Çeşitli heterojen veri kaynaklarından entegre edilmesi gerekiyor. Bu faktörler ayrıca bazı sorunlar yaratır. İşte bu eğitimde, aşağıdakilerle ilgili ana sorunları tartışacağız -

  • Madencilik Metodolojisi ve Kullanıcı Etkileşimi
  • Performans sorunları
  • Çeşitli Veri Türleri Sorunları

Aşağıdaki şema ana sorunları açıklamaktadır.

Madencilik Metodolojisi ve Kullanıcı Etkileşimi Sorunları

Aşağıdaki tür sorunlara atıfta bulunur -

  • Mining different kinds of knowledge in databases- Farklı kullanıcılar, farklı bilgi türleriyle ilgilenebilir. Bu nedenle, veri madenciliğinin geniş bir bilgi keşif görevini kapsaması gereklidir.

  • Interactive mining of knowledge at multiple levels of abstraction - Veri madenciliği sürecinin etkileşimli olması gerekir çünkü kullanıcıların model aramaya odaklanmasına, geri dönen sonuçlara göre veri madenciliği taleplerini sağlamasına ve iyileştirmesine olanak tanır.

  • Incorporation of background knowledge- Keşif sürecine rehberlik etmek ve keşfedilen kalıpları ifade etmek için arka plan bilgisi kullanılabilir. Arka plan bilgisi, keşfedilen kalıpları sadece kısa terimlerle değil aynı zamanda çok sayıda soyutlama seviyesinde ifade etmek için kullanılabilir.

  • Data mining query languages and ad hoc data mining - Kullanıcının geçici madencilik görevlerini tanımlamasına olanak tanıyan Veri Madenciliği Sorgu dili, bir veri ambarı sorgu dili ile entegre edilmeli ve verimli ve esnek veri madenciliği için optimize edilmelidir.

  • Presentation and visualization of data mining results- Örüntüler keşfedildiğinde, yüksek seviyeli dillerde ve görsel sunumlarda ifade edilmesi gerekir. Bu temsiller kolayca anlaşılabilir olmalıdır.

  • Handling noisy or incomplete data- Veri düzenliliklerini araştırırken gürültü ve eksik nesneleri işlemek için veri temizleme yöntemleri gereklidir. Veri temizleme yöntemleri orada değilse, keşfedilen modellerin doğruluğu zayıf olacaktır.

  • Pattern evaluation - Keşfedilen modeller ilginç olmalı çünkü bunlar ya ortak bilgiyi temsil ediyorlar ya da yenilik içermiyorlar.

Performans sorunları

Aşağıdaki gibi performansla ilgili sorunlar olabilir -

  • Efficiency and scalability of data mining algorithms - Veritabanlarındaki büyük miktardaki veriden etkili bir şekilde bilgi elde etmek için, veri madenciliği algoritmasının verimli ve ölçeklenebilir olması gerekir.

  • Parallel, distributed, and incremental mining algorithms- Veri tabanlarının büyük boyutu, geniş veri dağılımı ve veri madenciliği yöntemlerinin karmaşıklığı gibi faktörler paralel ve dağıtılmış veri madenciliği algoritmalarının geliştirilmesini motive eder. Bu algoritmalar, verileri paralel bir şekilde daha da işlenen bölümlere ayırır. Daha sonra bölümlerin sonuçları birleştirilir. Artımlı algoritmalar, verileri sıfırdan yeniden araştırmadan veritabanlarını günceller.

Çeşitli Veri Türleri Sorunları

  • Handling of relational and complex types of data - Veritabanı karmaşık veri nesneleri, çoklu ortam veri nesneleri, uzamsal veriler, zamansal veriler vb. İçerebilir. Tek bir sistemin tüm bu tür verileri madenciliği yapması mümkün değildir.

  • Mining information from heterogeneous databases and global information systems- Veriler, LAN veya WAN üzerindeki farklı veri kaynaklarında mevcuttur. Bu veri kaynakları yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış olabilir. Bu nedenle, onlardan bilgi edinmek, veri madenciliğine zorluklar ekler.

Veri deposu

Bir veri ambarı, yönetimin karar verme sürecini desteklemek için aşağıdaki özellikleri sergiler:

  • Subject Oriented- Veri ambarı konu odaklıdır çünkü bize kuruluşun devam eden operasyonlarından ziyade bir konu etrafında bilgi sağlar. Bu konular ürün, müşteriler, tedarikçiler, satışlar, gelir vb. Olabilir. Veri ambarı, devam eden işlemlere odaklanmaz, bunun yerine karar verme için verilerin modellenmesine ve analizine odaklanır.

  • Integrated - Veri ambarı, ilişkisel veritabanları, düz dosyalar vb. Gibi heterojen kaynaklardan gelen verilerin entegrasyonu ile oluşturulur. Bu entegrasyon, verilerin etkili analizini geliştirir.

  • Time Variant- Bir veri ambarında toplanan veriler, belirli bir süre ile tanımlanır. Bir veri ambarındaki veriler, tarihsel bir bakış açısından bilgi sağlar.

  • Non-volatile- Kalıcı, yeni veriler eklendiğinde önceki verilerin kaldırılmadığı anlamına gelir. Veri ambarı, operasyonel veritabanından ayrı tutulur, bu nedenle operasyonel veritabanındaki sık değişiklikler veri ambarına yansıtılmaz.

Veri depolama

Veri ambarı, veri ambarını oluşturma ve kullanma sürecidir. Bir veri ambarı, birden çok heterojen kaynaktan gelen verilerin bütünleştirilmesiyle oluşturulur. Analitik raporlamayı, yapılandırılmış ve / veya geçici sorguları ve karar vermeyi destekler.

Veri ambarlama, veri temizleme, veri entegrasyonu ve veri konsolidasyonlarını içerir. Heterojen veritabanlarını entegre etmek için aşağıdaki iki yaklaşıma sahibiz:

  • Sorgu Odaklı Yaklaşım
  • Odaklı Yaklaşımı Güncelleme

Sorguya Dayalı Yaklaşım

Bu, heterojen veritabanlarını entegre etmek için geleneksel yaklaşımdır. Bu yaklaşım, birden fazla heterojen veritabanının üzerine sarmalayıcılar ve entegratörler oluşturmak için kullanılır. Bu entegratörler aynı zamanda arabulucular olarak da bilinir.

Sorgu Odaklı Yaklaşım Süreci

  • İstemci tarafına bir sorgu gönderildiğinde, bir meta veri sözlüğü sorguyu ilgili bireysel heterojen site için uygun olan sorgulara çevirir.

  • Artık bu sorgular eşlenir ve yerel sorgu işlemcisine gönderilir.

  • Heterojen sitelerden elde edilen sonuçlar küresel bir cevap setine entegre edilmiştir.

Dezavantajları

Bu yaklaşımın aşağıdaki dezavantajları vardır -

  • Sorgu Odaklı Yaklaşım, karmaşık entegrasyon ve filtreleme süreçleri gerektirir.

  • Sık sorgular için çok verimsiz ve çok pahalıdır.

  • Bu yaklaşım, toplama gerektiren sorgular için pahalıdır.

Güncelleme Odaklı Yaklaşım

Günümüzün veri ambarı sistemleri, daha önce tartışılan geleneksel yaklaşımdan ziyade güncelleme odaklı yaklaşımı takip etmektedir. Güncelleme odaklı yaklaşımda, birden fazla heterojen kaynaktan gelen bilgiler önceden entegre edilir ve bir depoda saklanır. Bu bilgiler doğrudan sorgulama ve analiz için mevcuttur.

Avantajlar

Bu yaklaşım aşağıdaki avantajlara sahiptir -

  • Bu yaklaşım, yüksek performans sağlar.

  • Veriler anlamsal veri deposunda önceden kopyalanabilir, işlenebilir, entegre edilebilir, açıklama eklenebilir, özetlenebilir ve yeniden yapılandırılabilir.

Sorgu işleme, yerel kaynaklardaki işlemeyle arayüz gerektirmez.

Veri Ambarlamadan (OLAP) Veri Madenciliğine (OLAM)

Çevrimiçi Analitik Madencilik, Çevrimiçi Analitik İşleme ile çok boyutlu veritabanlarında veri madenciliği ve madencilik bilgisi ile bütünleşir. İşte hem OLAP hem de OLAM'ın entegrasyonunu gösteren şema -

OLAM'ın Önemi

OLAM aşağıdaki nedenlerden dolayı önemlidir -

  • High quality of data in data warehouses- Veri madenciliği araçlarının entegre, tutarlı ve temizlenmiş veriler üzerinde çalışması gerekir. Bu adımlar, verilerin ön işlenmesinde çok maliyetlidir. Bu tür bir ön işleme ile inşa edilen veri ambarları, OLAP ve veri madenciliği için de değerli yüksek kaliteli veri kaynaklarıdır.

  • Available information processing infrastructure surrounding data warehouses - Bilgi işleme altyapısı, birden çok heterojen veritabanına, web erişimine ve hizmet tesislerine, raporlama ve OLAP analiz araçlarına erişim, entegrasyon, konsolidasyon ve dönüşüm anlamına gelir.

  • OLAP−based exploratory data analysis- Etkili veri madenciliği için keşifsel veri analizi gereklidir. OLAM, çeşitli veri alt kümelerinde ve farklı soyutlama düzeylerinde veri madenciliği için kolaylık sağlar.

  • Online selection of data mining functions - OLAP'ı birden çok veri madenciliği işlevi ve çevrimiçi analitik madencilik ile entegre etmek, kullanıcılara istenen veri madenciliği işlevlerini seçme ve veri madenciliği görevlerini dinamik olarak değiştirme esnekliği sağlar.

Veri madenciliği

Veri madenciliği, bilgileri çok büyük bir veri kümesinden çıkarmak olarak tanımlanır. Başka bir deyişle, veri madenciliğinin veriden bilgiyi araştırmak olduğunu söyleyebiliriz. Bu bilgiler aşağıdaki uygulamalardan herhangi biri için kullanılabilir -

  • Pazar araştırması
  • Dolandırıcılık Tespiti
  • Müşteri tutma
  • Üretim kontrolü
  • Bilim Keşfi

Veri Madenciliği Motoru

Veri madenciliği motoru, veri madenciliği sistemi için çok önemlidir. Aşağıdaki işlevleri yerine getiren bir dizi işlevsel modülden oluşur -

  • Characterization
  • İlişkilendirme ve Korelasyon Analizi
  • Classification
  • Prediction
  • Küme analizi
  • Aykırı değer analizi
  • Evrim analizi

Bilgi tabanı

Bu alan bilgisidir. Bu bilgi, ortaya çıkan modellerin ilginçliğini araştırmak veya değerlendirmek için kullanılır.

Bilgi keşfi

Bazı insanlar veri madenciliğini bilgi keşfi ile aynı şekilde ele alırken, diğerleri veri madenciliğini bilgi keşfi sürecinde önemli bir adım olarak görür. Bilgi keşfi sürecine dahil olan adımların listesi aşağıdadır -

  • Veri temizleme
  • Veri Entegrasyonu
  • Veri Seçimi
  • Veri Dönüşümü
  • Veri madenciliği
  • Desen Değerlendirmesi
  • Bilgi Sunumu

Kullanıcı arayüzü

Kullanıcı arayüzü, kullanıcılar ile veri madenciliği sistemi arasındaki iletişime yardımcı olan veri madenciliği sisteminin modülüdür. Kullanıcı Arayüzü aşağıdaki işlevlere izin verir -

  • Bir veri madenciliği sorgu görevi belirleyerek sistemle etkileşim kurun.
  • Aramaya odaklanmaya yardımcı olacak bilgi sağlamak.
  • Ara veri madenciliği sonuçlarına dayalı madencilik.
  • Veritabanı ve veri ambarı şemalarına veya veri yapılarına göz atın.
  • Mayınlı kalıpları değerlendirin.
  • Desenleri farklı şekillerde görselleştirin.

Veri Entegrasyonu

Veri Entegrasyonu, birden çok heterojen veri kaynağından gelen verileri tutarlı bir veri deposunda birleştiren bir veri ön işleme tekniğidir. Veri entegrasyonu tutarsız veriler içerebilir ve bu nedenle veri temizliği gerektirir.

Veri temizleme

Veri temizleme, gürültülü verileri ortadan kaldırmak ve verilerdeki tutarsızlıkları düzeltmek için uygulanan bir tekniktir. Veri temizleme, yanlış verileri düzeltmek için dönüşümler içerir. Veri temizleme, bir veri ambarı için verileri hazırlarken bir veri ön işleme adımı olarak gerçekleştirilir.

Veri Seçimi

Veri Seçimi, analiz göreviyle ilgili verilerin veri tabanından alındığı süreçtir. Bazen veri seçimi sürecinden önce veri dönüştürme ve konsolidasyon gerçekleştirilir.

Kümeler

Küme, benzer türde bir nesne grubunu ifade eder. Küme analizi, birbirine çok benzeyen ancak diğer kümelerdeki nesnelerden oldukça farklı olan nesneler grubu oluşturmayı ifade eder.

Veri Dönüşümü

Bu adımda, özet veya toplama işlemleri gerçekleştirilerek veriler madenciliğe uygun formlara dönüştürülür veya konsolide edilir.

Bilgi Keşfi nedir?

Bazı insanlar veri madenciliğini bilgi keşfinden ayırmazken, diğerleri veri madenciliğini bilgi keşfi sürecinde önemli bir adım olarak görüyor. Bilgi keşfi sürecine dahil olan adımların listesi aşağıdadır -

  • Data Cleaning - Bu adımda gürültü ve tutarsız veriler kaldırılır.

  • Data Integration - Bu adımda, birden çok veri kaynağı birleştirilir.

  • Data Selection - Bu adımda, analiz görevi ile ilgili veriler veri tabanından alınır.

  • Data Transformation - Bu adımda, özet veya toplama işlemleri gerçekleştirilerek veriler madenciliğe uygun formlara dönüştürülür veya konsolide edilir.

  • Data Mining - Bu adımda, veri desenlerini çıkarmak için akıllı yöntemler uygulanır.

  • Pattern Evaluation - Bu adımda veri örüntüleri değerlendirilir.

  • Knowledge Presentation - Bu adımda bilgi temsil edilir.

Aşağıdaki şema bilgi keşfetme sürecini göstermektedir -

Çok çeşitli veri madenciliği sistemleri mevcuttur. Veri madenciliği sistemleri aşağıdakilerden teknikleri entegre edebilir:

  • Konumsal Veri Analizi
  • Bilgi alma
  • Desen tanıma
  • Görüntü analizi
  • Sinyal işleme
  • Bilgisayar grafikleri
  • Web Teknolojisi
  • Business
  • Bioinformatics

Veri Madenciliği Sistem Sınıflandırması

Bir veri madenciliği sistemi aşağıdaki kriterlere göre sınıflandırılabilir -

  • Veritabanı Teknolojisi
  • Statistics
  • Makine öğrenme
  • Bilgi Bilimi
  • Visualization
  • Diğer Disiplinler

Bunların dışında, bir veri madenciliği sistemi (a) çıkarılan veri tabanları, (b) çıkarılan bilgi, (c) kullanılan teknikler ve (d) uyarlanan uygulamalara göre de sınıflandırılabilir.

Mayınlı Veritabanlarına Göre Sınıflandırma

Bir veri madenciliği sistemini, çıkarılan veri tabanlarının türüne göre sınıflandırabiliriz. Veritabanı sistemi, veri modelleri, veri türleri vb. Gibi farklı kriterlere göre sınıflandırılabilir ve veri madenciliği sistemi buna göre sınıflandırılabilir.

Örneğin, bir veritabanını veri modeline göre sınıflandırırsak, ilişkisel, işlemsel, nesne-ilişkisel veya veri ambarı madenciliği sistemimiz olabilir.

Çıkarılan Bilgi Türüne Göre Sınıflandırma

Bir veri madenciliği sistemini çıkarılan bilgi türüne göre sınıflandırabiliriz. Bu, veri madenciliği sisteminin aşağıdaki gibi işlevlere göre sınıflandırıldığı anlamına gelir:

  • Characterization
  • Discrimination
  • İlişkilendirme ve Korelasyon Analizi
  • Classification
  • Prediction
  • Aykırı Değer Analizi
  • Evrim Analizi

Kullanılan Tekniklere Göre Sınıflandırma

Bir veri madenciliği sistemini kullanılan tekniklerin türüne göre sınıflandırabiliriz. Bu teknikleri, ilgili kullanıcı etkileşiminin derecesine veya kullanılan analiz yöntemlerine göre tanımlayabiliriz.

Uyarlanan Uygulamalara Göre Sınıflandırma

Bir veri madenciliği sistemini uyarlanan uygulamalara göre sınıflandırabiliriz. Bu başvurular aşağıdaki gibidir -

  • Finance
  • Telecommunications
  • DNA
  • Borsalar
  • E-mail

Veri Madenciliği Sistemini DB / DW Sistemiyle Entegre Etme

Bir veri madenciliği sistemi bir veritabanı veya bir veri ambarı sistemi ile entegre değilse, iletişim kurulacak bir sistem olmayacaktır. Bu şema, kuplajsız şema olarak bilinir. Bu şemada, ana odak noktası, veri madenciliği tasarımı ve mevcut veri setlerini araştırmak için verimli ve etkili algoritmalar geliştirmektir.

Entegrasyon Şemalarının listesi aşağıdaki gibidir -

  • No Coupling- Bu şemada, veri madenciliği sistemi veritabanı veya veri ambarı işlevlerinden herhangi birini kullanmaz. Verileri belirli bir kaynaktan alır ve bu verileri bazı veri madenciliği algoritmalarını kullanarak işler. Veri madenciliği sonucu başka bir dosyada saklanır.

  • Loose Coupling- Bu şemada, veri madenciliği sistemi, veritabanı ve veri ambarı sisteminin bazı işlevlerini kullanabilir. Verileri bu sistemler tarafından yönetilen veri solunumundan alır ve bu veriler üzerinde veri madenciliği yapar. Daha sonra, madencilik sonucunu bir dosyada veya bir veritabanında veya bir veri ambarında belirlenmiş bir yerde depolar.

  • Semi−tight Coupling - Bu şemada, veri madenciliği sistemi bir veri tabanı veya bir veri ambarı sistemi ile bağlantılıdır ve buna ek olarak, veri tabanında birkaç veri madenciliği ilkesinin verimli uygulamaları sağlanabilir.

  • Tight coupling- Bu birleştirme şemasında, veri madenciliği sistemi sorunsuz bir şekilde veri tabanına veya veri ambarı sistemine entegre edilir. Veri madenciliği alt sistemi, bir bilgi sisteminin işlevsel bir bileşeni olarak ele alınır.

Veri Madenciliği Sorgu Dili (DMQL) Han, Fu, Wang ve diğerleri tarafından önerildi. DBMiner veri madenciliği sistemi için. Veri Madenciliği Sorgu Dili aslında Yapılandırılmış Sorgu Diline (SQL) dayanmaktadır. Veri Madenciliği Sorgu Dilleri, geçici ve etkileşimli veri madenciliğini desteklemek için tasarlanabilir. Bu DMQL, ilkelleri belirlemek için komutlar sağlar. DMQL, veritabanları ve veri ambarlarıyla da çalışabilir. DMQL, veri madenciliği görevlerini tanımlamak için kullanılabilir. Özellikle veri ambarlarını ve veri reyonlarını DMQL'de nasıl tanımlayacağımızı inceliyoruz.

Görevle İlgili Veri Spesifikasyonu için Sözdizimi

İşte görevle ilgili verileri belirtmek için DMQL sözdizimi -

use database database_name

or 

use data warehouse data_warehouse_name
in relevance to att_or_dim_list
from relation(s)/cube(s) [where condition]
order by order_list
group by grouping_list

Bilgi Türünü Belirlemek İçin Sözdizimi

Burada Karakterizasyon, Ayrımcılık, İlişkilendirme, Sınıflandırma ve Tahmin için sözdizimini tartışacağız.

Karakterizasyon

Karakterizasyon için sözdizimi -

mine characteristics [as pattern_name]
   analyze  {measure(s) }

Analiz koşulu, sayım, toplama veya sayım yüzdesi gibi toplu ölçüleri belirtir.

Örneğin -

Description describing customer purchasing habits.
mine characteristics as customerPurchasing
analyze count%

Ayrımcılık

Ayrımcılık için sözdizimi -

mine comparison [as {pattern_name]}
For {target_class } where  {t arget_condition } 
{versus  {contrast_class_i }
where {contrast_condition_i}}  
analyze  {measure(s) }

Örneğin, bir kullanıcı, yüksek harcama yapanları, maliyeti olan ürünler satın alan müşteriler olarak tanımlayabilir. $100 or more on an average; and budget spenders as customers who purchase items at less than $Ortalama 100. Bu kategorilerin her birinden müşteriler için ayrımcı tanımlamaların madenciliği DMQL'de şu şekilde belirtilebilir:

mine comparison as purchaseGroups
for bigSpenders where avg(I.price) ≥$100 versus budgetSpenders where avg(I.price)< $100
analyze count

bağlantı

İlişkilendirme için sözdizimi

mine associations [ as {pattern_name} ]
{matching {metapattern} }

Örneğin -

mine associations as buyingHabits
matching P(X:customer,W) ^ Q(X,Y) ≥ buys(X,Z)

burada X müşteri ilişkisinin anahtarıdır; P ve Q yüklem değişkenleridir; ve W, Y ve Z nesne değişkenleridir.

Sınıflandırma

Sınıflandırma için sözdizimi -

mine classification [as pattern_name]
analyze classifying_attribute_or_dimension

Örneğin, kalıpları araştırmak için, sınıfların kredi_rating özelliğine göre belirlendiği müşteri kredi derecelendirmesinin sınıflandırılması ve maden sınıflandırmasının classifyCustomerCreditRating olarak belirlendiği durumlarda.

analyze credit_rating

Tahmin

Tahmin için sözdizimi -

mine prediction [as pattern_name]
analyze prediction_attribute_or_dimension
{set {attribute_or_dimension_i= value_i}}

Kavram Hiyerarşi Belirtimi için Sözdizimi

Kavram hiyerarşilerini belirtmek için aşağıdaki sözdizimini kullanın -

use hierarchy <hierarchy> for <attribute_or_dimension>

Farklı hiyerarşi türlerini tanımlamak için farklı sözdizimleri kullanıyoruz, örneğin:

-schema hierarchies
define hierarchy time_hierarchy on date as [date,month quarter,year]
-
set-grouping hierarchies
define hierarchy age_hierarchy for age on customer as
level1: {young, middle_aged, senior} < level0: all
level2: {20, ..., 39} < level1: young
level3: {40, ..., 59} < level1: middle_aged
level4: {60, ..., 89} < level1: senior

-operation-derived hierarchies
define hierarchy age_hierarchy  for age  on customer  as
{age_category(1), ..., age_category(5)} 
:= cluster(default, age, 5) < all(age)

-rule-based hierarchies
define hierarchy profit_margin_hierarchy  on item  as
level_1: low_profit_margin < level_0:  all

if (price - cost)< $50 level_1: medium-profit_margin < level_0: all if ((price - cost) > $50)  and ((price - cost) ≤ $250)) 
   level_1:  high_profit_margin < level_0:  all

İlginçlik Ölçüleri Spesifikasyonu için Sözdizimi

İlginçlik ölçüleri ve eşikler kullanıcı tarafından ifade ile belirtilebilir -

with <interest_measure_name>  threshold = threshold_value

Örneğin -

with support threshold = 0.05
with confidence threshold = 0.7

Desen Sunumu ve Görselleştirme Spesifikasyonu için Sözdizimi

Kullanıcıların bir veya daha fazla biçimde keşfedilen kalıpların görüntüsünü belirlemelerine olanak tanıyan bir sözdizimimiz var.

display as <result_form>

Örneğin -

display as table

DMQL'in Tam Özellikleri

Bir şirketin pazar müdürü olarak, 100 $ 'dan az olmayan ürünleri satın alabilen müşterilerin satın alma alışkanlıklarını karakterize etmek istersiniz; müşterinin yaşına, satın alınan ürün türüne ve ürünün satın alındığı yere göre. Bu özelliğe sahip müşterilerin yüzdesini bilmek istersiniz. Özellikle, yalnızca Kanada'da yapılan ve American Express kredi kartıyla ödeme yaptığınız alışverişlerle ilgileniyorsunuz. Elde edilen açıklamaları bir tablo şeklinde görmek istiyorsunuz.

use database AllElectronics_db
use hierarchy location_hierarchy for B.address
mine characteristics as customerPurchasing
analyze count%
in relevance to C.age,I.type,I.place_made
from customer C, item I, purchase P, items_sold S,  branch B
where I.item_ID = S.item_ID and P.cust_ID = C.cust_ID and
P.method_paid = "AmEx" and B.address = "Canada" and I.price ≥ 100
with noise threshold = 5%
display as table

Veri Madenciliği Dilleri Standardizasyonu

Veri Madenciliği Dillerinin standartlaştırılması aşağıdaki amaçlara hizmet edecektir -

  • Veri madenciliği çözümlerinin sistematik olarak geliştirilmesine yardımcı olur.

  • Birden çok veri madenciliği sistemi ve işlevi arasında birlikte çalışabilirliği artırır.

  • Eğitimi ve hızlı öğrenmeyi teşvik eder.

  • Veri madenciliği sistemlerinin endüstride ve toplumda kullanımını teşvik eder.

Önemli sınıfları tanımlayan modelleri çıkarmak veya gelecekteki veri eğilimlerini tahmin etmek için kullanılabilecek iki veri analizi biçimi vardır. Bu iki form aşağıdaki gibidir -

  • Classification
  • Prediction

Sınıflandırma modelleri, kategorik sınıf etiketlerini öngörür; ve tahmin modelleri sürekli değerli fonksiyonları tahmin eder. Örneğin, banka kredisi uygulamalarını güvenli veya riskli olarak sınıflandırmak için bir sınıflandırma modeli veya gelir ve meslekleri göz önüne alındığında potansiyel müşterilerin bilgisayar donanımı üzerindeki harcamalarını dolar cinsinden tahmin etmek için bir tahmin modeli oluşturabiliriz.

Sınıflandırma nedir?

Aşağıda, veri analizi görevinin Sınıflandırma olduğu durumlara örnekler verilmiştir -

  • Bir banka kredi yetkilisi, hangi müşterinin (kredi başvurusu yapan) riskli veya hangilerinin güvenli olduğunu bilmek için verileri analiz etmek ister.

  • Bir şirketteki bir pazarlama müdürünün, yeni bir bilgisayar alacak olan belirli bir profile sahip bir müşteriyi analiz etmesi gerekir.

Yukarıdaki örneklerin her ikisinde de, kategorik etiketleri tahmin etmek için bir model veya sınıflandırıcı oluşturulur. Bu etiketler, kredi başvuru verileri için riskli veya güvenlidir ve pazarlama verileri için evet veya hayırdır.

Tahmin nedir?

Aşağıda, veri analizi görevinin Tahmin olduğu durumlara örnekler verilmiştir -

Pazarlama müdürünün, belirli bir müşterinin şirketindeki bir satış sırasında ne kadar harcayacağını tahmin etmesi gerektiğini varsayalım. Bu örnekte sayısal bir değeri tahmin etme zahmetine girdik. Bu nedenle, veri analizi görevi sayısal tahmin örneğidir. Bu durumda, sürekli değerli bir işlevi veya sıralı bir değeri tahmin eden bir model veya bir tahminci oluşturulacaktır.

Note - Regresyon analizi, çoğunlukla sayısal tahmin için kullanılan istatistiksel bir metodolojidir.

Sınıflandırma Nasıl Çalışır?

Yukarıda tartıştığımız banka kredisi uygulaması yardımıyla sınıflamanın işleyişini anlayalım. Veri Sınıflandırma süreci iki adım içerir -

  • Sınıflandırıcı veya Modeli Oluşturma
  • Sınıflandırma için Sınıflandırıcıyı Kullanma

Sınıflandırıcı veya Modeli Oluşturma

  • Bu adım, öğrenme aşaması veya öğrenme aşamasıdır.

  • Bu adımda, sınıflandırma algoritmaları sınıflandırıcıyı oluşturur.

  • Sınıflandırıcı, veritabanı tuple'larından ve bunların ilişkili sınıf etiketlerinden oluşan eğitim setinden oluşturulur.

  • Eğitim setini oluşturan her bir grup, bir kategori veya sınıf olarak adlandırılır. Bu demetler ayrıca örnek, nesne veya veri noktaları olarak da adlandırılabilir.

Sınıflandırma için Sınıflandırıcıyı Kullanma

Bu adımda sınıflandırıcı, sınıflandırma için kullanılır. Burada test verileri, sınıflandırma kurallarının doğruluğunu tahmin etmek için kullanılır. Doğruluk kabul edilebilir olarak kabul edilirse, sınıflandırma kuralları yeni veri gruplarına uygulanabilir.

Sınıflandırma ve Tahmin Sorunları

Temel sorun, verilerin Sınıflandırma ve Tahmin için hazırlanmasıdır. Verilerin hazırlanması aşağıdaki faaliyetleri içerir -

  • Data Cleaning- Veri temizleme, gürültünün giderilmesini ve eksik değerlerin işlenmesini içerir. Gürültü, yumuşatma teknikleri uygulanarak giderilir ve eksik değerler sorunu, eksik bir değerin o öznitelik için en yaygın olarak ortaya çıkan değerle değiştirilmesiyle çözülür.

  • Relevance Analysis- Veritabanı ayrıca ilgisiz özniteliklere sahip olabilir. Korelasyon analizi, verilen herhangi iki özelliğin ilişkili olup olmadığını bilmek için kullanılır.

  • Data Transformation and reduction - Veriler aşağıdaki yöntemlerden herhangi biri ile dönüştürülebilir.

    • Normalization- Veriler normalleştirme kullanılarak dönüştürülür. Normalleştirme, belirli bir öznitelik için tüm değerlerin belirli bir aralıkta yer almaları için ölçeklendirilmesini içerir. Normalleştirme, öğrenme aşamasında, sinir ağları veya ölçümleri içeren yöntemler kullanıldığında kullanılır.

    • Generalization- Veriler, daha yüksek konsepte genelleştirilerek de dönüştürülebilir. Bu amaçla kavram hiyerarşilerini kullanabiliriz.

Note - Veriler, dalgacık dönüşümü, binning, histogram analizi ve kümeleme gibi diğer bazı yöntemlerle de azaltılabilir.

Sınıflandırma ve Tahmin Yöntemlerinin Karşılaştırılması

Sınıflandırma ve Tahmin yöntemlerini karşılaştırmak için kriterler -

  • Accuracy- Sınıflandırıcının doğruluğu, sınıflandırıcının yeteneğini ifade eder. Sınıf etiketini doğru bir şekilde tahmin eder ve tahmincinin doğruluğu, belirli bir tahmincinin yeni bir veri için tahmin edilen özelliğin değerini ne kadar iyi tahmin edebileceğini gösterir.

  • Speed - Bu, sınıflandırıcı veya tahminciyi oluştururken ve kullanırken hesaplama maliyetini ifade eder.

  • Robustness - Sınıflandırıcının veya tahmin edicinin verilen gürültülü verilerden doğru tahminler yapabilme yeteneğini ifade eder.

  • Scalability- Ölçeklenebilirlik, sınıflandırıcıyı veya öngörücüyü verimli bir şekilde inşa etme yeteneğini ifade eder; büyük miktarda veri verildiğinde.

  • Interpretability - Sınıflandırıcının veya tahmincinin ne ölçüde anladığını ifade eder.

Karar ağacı, bir kök düğüm, dallar ve yaprak düğümleri içeren bir yapıdır. Her dahili düğüm, bir öznitelik üzerindeki bir testi ifade eder, her dal bir testin sonucunu belirtir ve her yaprak düğüm bir sınıf etiketi taşır. Ağaçtaki en üst düğüm, kök düğümdür.

Aşağıdaki karar ağacı, bir şirketteki bir müşterinin bilgisayar satın alma olasılığının yüksek olup olmadığını gösteren buy_computer kavramı içindir. Her dahili düğüm, bir öznitelik üzerindeki bir testi temsil eder. Her yaprak düğüm bir sınıfı temsil eder.

Karar ağacına sahip olmanın faydaları aşağıdaki gibidir:

  • Herhangi bir alan bilgisi gerektirmez.
  • Anlaşılması kolaydır.
  • Bir karar ağacının öğrenme ve sınıflandırma adımları basit ve hızlıdır.

Karar Ağacı İndüksiyon Algoritması

1980'de J. Ross Quinlan adlı bir makine araştırmacısı, ID3 (Yinelemeli Dikotomiser) olarak bilinen bir karar ağacı algoritması geliştirdi. Daha sonra ID3'ün halefi olan C4.5'i sundu. ID3 ve C4.5 açgözlü bir yaklaşım benimsiyor. Bu algoritmada geriye dönük izleme yoktur; ağaçlar, yukarıdan aşağıya yinelemeli böl ve yönet tarzında inşa edilmiştir.

Generating a decision tree form training tuples of data partition D
Algorithm : Generate_decision_tree

Input:
Data partition, D, which is a set of training tuples 
and their associated class labels.
attribute_list, the set of candidate attributes.
Attribute selection method, a procedure to determine the
splitting criterion that best partitions that the data 
tuples into individual classes. This criterion includes a 
splitting_attribute and either a splitting point or splitting subset.

Output:
 A Decision Tree

Method
create a node N;

if tuples in D are all of the same class, C then
   return N as leaf node labeled with class C;
   
if attribute_list is empty then
   return N as leaf node with labeled 
   with majority class in D;|| majority voting
   
apply attribute_selection_method(D, attribute_list) 
to find the best splitting_criterion;
label node N with splitting_criterion;

if splitting_attribute is discrete-valued and
   multiway splits allowed then  // no restricted to binary trees

attribute_list = splitting attribute; // remove splitting attribute
for each outcome j of splitting criterion

   // partition the tuples and grow subtrees for each partition
   let Dj be the set of data tuples in D satisfying outcome j; // a partition
   
   if Dj is empty then
      attach a leaf labeled with the majority 
      class in D to node N;
   else 
      attach the node returned by Generate 
      decision tree(Dj, attribute list) to node N;
   end for
return N;

Ağaç Budaması

Eğitim verilerinde gürültü veya aykırı değerler nedeniyle oluşan anormallikleri gidermek için ağaç budama yapılır. Budanmış ağaçlar daha küçük ve daha az karmaşıktır.

Ağaç Budama Yaklaşımları

Bir ağacı budamak için iki yaklaşım vardır -

  • Pre-pruning - Ağaç erken yapımına ara verilerek budanır.

  • Post-pruning - Bu yaklaşım, tamamen büyümüş bir ağaçtan bir alt ağacı kaldırır.

Maliyet Karmaşıklığı

Maliyet karmaşıklığı aşağıdaki iki parametre ile ölçülür -

  • Ağaçtaki yaprak sayısı ve
  • Ağacın hata oranı.

Bayes sınıflandırması, Bayes Teoremine dayanmaktadır. Bayes sınıflandırıcıları istatistiksel sınıflandırıcılardır. Bayes sınıflandırıcıları, belirli bir demetin belirli bir sınıfa ait olma olasılığı gibi sınıf üyelik olasılıklarını tahmin edebilir.

Bayes teoremi

Bayes Teoremi, Thomas Bayes'in adını almıştır. İki tür olasılık vardır -

  • Posterior Olasılık [P (H / X)]
  • Önceki Olasılık [P (H)]

burada X veri grubu ve H bir hipotezdir.

Bayes Teoremine göre,

P (H / X) = P (X / H) P (H) / P (X)

Bayesçi İnanç Ağı

Bayesçi İnanç Ağları, ortak koşullu olasılık dağılımlarını belirtir. Ayrıca İnanç Ağları, Bayes Ağları veya Olasılık Ağları olarak da bilinirler.

  • Bir İnanç Ağı, değişkenlerin alt kümeleri arasında sınıf koşullu bağımsızlıklarının tanımlanmasına izin verir.

  • Öğrenmenin gerçekleştirilebileceği nedensel ilişkinin grafiksel bir modelini sağlar.

  • Sınıflandırma için eğitimli bir Bayes Ağı kullanabiliriz.

Bayesçi bir İnanç Ağını tanımlayan iki bileşen vardır:

  • Yönlendirilmiş döngüsüz grafiği
  • Bir dizi koşullu olasılık tablosu

Yönlendirilmiş döngüsüz grafiği

  • Yönlendirilmiş döngüsel olmayan grafikteki her düğüm rastgele bir değişkeni temsil eder.
  • Bu değişken, ayrı veya sürekli değerli olabilir.
  • Bu değişkenler, verilerde verilen gerçek özniteliğe karşılık gelebilir.

Yönlendirilmiş Asiklik Grafik Gösterimi

Aşağıdaki diyagram, altı Boole değişkeni için yönlendirilmiş bir çevrimsiz grafiği göstermektedir.

Diyagramdaki yay, nedensel bilginin temsiline izin verir. Örneğin, akciğer kanseri kişinin ailesinde akciğer kanseri geçmişinden ve kişinin sigara içip içmemesinden etkilenir. Hastanın akciğer kanseri olduğunu bildiğimiz için PositiveXray değişkeninin, hastanın ailesinde akciğer kanseri öyküsü olup olmamasından veya hastanın sigara içiyor olmasından bağımsız olduğunu belirtmek gerekir.

Koşullu Olasılık Tablosu

Ana düğümleri, FamilyHistory (FH) ve Smoker (S) değerlerinin her bir olası kombinasyonunu gösteren değişken LungCancer (LC) değerleri için koşullu olasılık tablosu aşağıdaki gibidir -

IF-THEN Kuralları

Kural tabanlı sınıflandırıcı, sınıflandırma için bir dizi IF-THEN kuralı kullanır. Aşağıdakilerden bir kuralı ifade edebiliriz -

EĞER koşul SONRA sonuç

Bir R1 kuralı düşünelim,

R1: IF age = youth AND student = yes 
   THEN buy_computer = yes

Points to remember −

  • Kuralın EĞER kısmına denir rule antecedent veya precondition.

  • Kuralın THEN kısmına denir rule consequent.

  • Koşulun öncül kısmı, bir veya daha fazla öznitelik testinden oluşur ve bu testler mantıksal olarak VE yapılır.

  • Sonraki kısım, sınıf tahmininden oluşur.

Note - R1 kuralını da şu şekilde yazabiliriz -

R1: (age = youth) ^ (student = yes))(buys computer = yes)

Koşul belirli bir demet için doğruysa, öncül karşılanır.

Kural Çıkarma

Burada, bir karar ağacından IF-THEN kurallarını çıkararak kural tabanlı bir sınıflandırıcının nasıl oluşturulacağını öğreneceğiz.

Points to remember −

Bir karar ağacından bir kural çıkarmak için -

  • Kökten yaprak düğüme kadar her yol için bir kural oluşturulur.

  • Bir kural öncülü oluşturmak için, her bölme kriteri mantıksal olarak VE'lanmıştır.

  • Yaprak düğüm, sonuçta kuralı oluşturan sınıf tahminini tutar.

Sıralı Örtme Algoritmasını Kullanarak Kural Çıkarımı

Sıralı Kapsama Algoritması, eğitim verilerinden IF-THEN kurallarını çıkarmak için kullanılabilir. Önce bir karar ağacı oluşturmamıza gerek yoktur. Bu algoritmada, belirli bir sınıf için her kural, o sınıfın birçok tuplesini kapsar.

Sıralı Kaplama Algoritmalarından bazıları AQ, CN2 ve RIPPER'dir. Genel stratejiye göre, kurallar birer birer öğrenilir. Kurallar her öğrenildiğinde, kural tarafından kapsanan bir demet kaldırılır ve işlem, kayıtların geri kalanı için devam eder. Bunun nedeni, bir karar ağacındaki her yaprağa giden yolun bir kurala karşılık gelmesidir.

Note - Karar ağacı indüksiyonu, bir dizi kuralı aynı anda öğrenmek olarak düşünülebilir.

Aşağıdaki, kuralların her seferinde bir sınıf için öğrenildiği sıralı öğrenme Algoritmasıdır. Ci sınıfından bir kural öğrenirken, kuralın yalnızca C sınıfındaki tüm demetleri kapsamasını ve başka hiçbir sınıf oluşturmamasını istiyoruz.

Algorithm: Sequential Covering

Input: 
D, a data set class-labeled tuples,
Att_vals, the set of all attributes and their possible values.

Output:  A Set of IF-THEN rules.
Method:
Rule_set={ }; // initial set of rules learned is empty

for each class c do
   
   repeat
      Rule = Learn_One_Rule(D, Att_valls, c);
      remove tuples covered by Rule form D;
   until termination condition;
   
   Rule_set=Rule_set+Rule; // add a new rule to rule-set
end for
return Rule_Set;

Kural Budama

Kural aşağıdaki nedenden dolayı budanmıştır -

  • Kalite Değerlendirmesi, orijinal eğitim verileri setinde yapılır. Kural, eğitim verileri üzerinde iyi ancak sonraki verilerde daha az iyi performans gösterebilir. Bu yüzden kural budama gereklidir.

  • Konjonktür kaldırılarak kural budanır. R'nin budanmış versiyonu bağımsız bir demet kümesi üzerinde değerlendirilenden daha yüksek kaliteye sahipse, R kuralı budanır.

FOLYO, kural budama için basit ve etkili yöntemlerden biridir. Belirli bir kural R için,

FOIL_Prune = konum - neg / pos + neg

pos ve neg, sırasıyla R tarafından kapsanan pozitif tuple sayısıdır.

Note- Bu değer, budama setindeki R'nin doğruluğu ile artacaktır. Bu nedenle, FOIL_Prune değeri R'nin budanmış versiyonu için daha yüksekse, o zaman R'yi budarız.

Burada Genetik Algoritmalar, Kaba Küme Yaklaşımı ve Bulanık Küme Yaklaşımı gibi diğer sınıflandırma yöntemlerini tartışacağız.

Genetik Algoritmalar

Genetik algoritma fikri doğal evrimden türetilmiştir. Genetik algoritmada öncelikle ilk popülasyon oluşturulur. Bu ilk popülasyon, rastgele oluşturulmuş kurallardan oluşur. Her kuralı bir bit dizisi ile temsil edebiliriz.

Örneğin, belirli bir eğitim setinde örnekler, A1 ve A2 gibi iki Boole özelliği ile tanımlanır. Ve verilen bu eğitim seti C1 ve C2 gibi iki sınıf içerir.

Kuralı kodlayabiliriz IF A1 AND NOT A2 THEN C2 biraz dizeye 100. Bu bit gösteriminde, en soldaki iki bit sırasıyla A1 ve A2 niteliğini temsil eder.

Aynı şekilde kural IF NOT A1 AND NOT A2 THEN C1 olarak kodlanabilir 001.

Note- Eğer öznitelik K> 2 olduğunda K değerlerine sahipse, öznitelik değerlerini kodlamak için K bitlerini kullanabiliriz. Sınıflar da aynı şekilde kodlanmıştır.

Hatırlanması gereken noktalar -

  • En güçlü olanın hayatta kalması fikrinden hareketle, mevcut popülasyondaki en uygun kurallar ve bu kuralların yavru değerlerinden oluşan yeni bir popülasyon oluşturulur.

  • Bir kuralın uygunluğu, bir dizi eğitim örneği üzerindeki sınıflandırma doğruluğu ile değerlendirilir.

  • Yavru oluşturmak için çaprazlama ve mutasyon gibi genetik operatörler uygulanır.

  • Çaprazlamada, yeni bir kural çifti oluşturmak için kural çiftinin alt dizesi değiştirilir.

  • Mutasyonda, bir kuralın dizesindeki rastgele seçilen bitler ters çevrilir.

Kaba Set Yaklaşımı

Belirsiz ve gürültülü verilerdeki yapısal ilişkiyi keşfetmek için kaba küme yaklaşımını kullanabiliriz.

Note- Bu yaklaşım yalnızca ayrık değerli özniteliklere uygulanabilir. Bu nedenle, sürekli değerli öznitelikler, kullanılmadan önce ayrıştırılmalıdır.

Kaba Küme Teorisi, verilen eğitim verileri içinde denklik sınıflarının oluşturulmasına dayanmaktadır. Eşdeğerlik sınıfını oluşturan tuplelar ayırt edilemez. Verileri açıklayan niteliklere göre örneklerin aynı olduğu anlamına gelir.

Verilen gerçek dünya verilerinde mevcut nitelikler açısından ayırt edilemeyen bazı sınıflar vardır. Kaba setleri kullanabilirizroughly bu tür sınıfları tanımlayın.

Belirli bir C sınıfı için, kaba küme tanımına aşağıdaki gibi iki küme yaklaşılır -

  • Lower Approximation of C - C'nin daha düşük yaklaşımı, özniteliğin bilgisine dayalı olarak C sınıfına ait olduğu kesin olan tüm veri gruplarından oluşur.

  • Upper Approximation of C - C'nin üst yaklaşımı, özniteliklerin bilgisine dayalı olarak C'ye ait olmadığı şeklinde tanımlanamayan tüm tuple'lerden oluşur.

Aşağıdaki diyagram C sınıfının Üst ve Alt Yaklaşımını göstermektedir -

Bulanık Küme Yaklaşımları

Bulanık Küme Teorisi, Olasılık Teorisi olarak da adlandırılır. Bu teori, 1965'te Lotfi Zadeh tarafından alternatif olarak önerildi.two-value logic ve probability theory. Bu teori, yüksek bir soyutlama seviyesinde çalışmamızı sağlar. Aynı zamanda bize verilerin kesin olmayan ölçümleriyle başa çıkma araçları sağlar.

Bulanık küme teorisi ayrıca belirsiz veya kesin olmayan gerçeklerle başa çıkmamıza izin verir. Örneğin, yüksek gelirli bir grubun üyesi olmak tam anlamıyla (ör.$50,000 is high then what about $49.000 ve 48.000 $). Öğenin ya S'ye ya da onun tamamlayıcısına ait olduğu geleneksel CRISP kümesinin aksine, ancak bulanık küme teorisinde öğe birden fazla bulanık kümeye ait olabilir.

Örneğin, 49.000 dolarlık gelir değeri hem orta hem de yüksek bulanık kümelere, ancak farklı derecelere aittir. Bu gelir değeri için bulanık küme gösterimi aşağıdaki gibidir -

mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96

burada 'm', sırasıyla orta_gelir ve yüksek_gelir'in bulanık kümelerinde çalışan üyelik işlevidir. Bu gösterim aşağıdaki gibi şematik olarak gösterilebilir -

Küme, aynı sınıfa ait bir nesne grubudur. Başka bir deyişle, benzer nesneler bir kümede gruplanır ve benzer olmayan nesneler başka bir kümede gruplanır.

Kümeleme nedir?

Kümeleme, bir grup soyut nesneyi benzer nesnelerin sınıflarına dönüştürme işlemidir.

Points to Remember

  • Bir veri nesneleri kümesi tek bir grup olarak ele alınabilir.

  • Kümeleme analizi yaparken önce veri setini veri benzerliğine göre gruplara ayırıyoruz ve ardından etiketleri gruplara atıyoruz.

  • Kümelemenin sınıflandırmaya göre temel avantajı, değişikliklere uyarlanabilir olması ve farklı grupları ayıran kullanışlı özellikleri seçmeye yardımcı olmasıdır.

Küme Analizi Uygulamaları

  • Kümeleme analizi, pazar araştırması, örüntü tanıma, veri analizi ve görüntü işleme gibi birçok uygulamada yaygın olarak kullanılmaktadır.

  • Kümeleme, pazarlamacıların müşteri tabanındaki farklı grupları keşfetmesine de yardımcı olabilir. Müşteri gruplarını satın alma modellerine göre karakterize edebilirler.

  • Biyoloji alanında, bitki ve hayvan taksonomilerini türetmek, benzer işlevlere sahip genleri kategorilere ayırmak ve popülasyonlara özgü yapılara ilişkin fikir edinmek için kullanılabilir.

  • Kümeleme ayrıca bir yer gözlem veri tabanında benzer arazi kullanım alanlarının tanımlanmasına da yardımcı olur. Aynı zamanda bir şehirdeki ev gruplarının ev tipine, değerine ve coğrafi konuma göre belirlenmesine yardımcı olur.

  • Kümeleme, bilgi keşfi için web üzerindeki belgelerin sınıflandırılmasına da yardımcı olur.

  • Kümeleme, kredi kartı dolandırıcılığının tespiti gibi aykırı değer tespit uygulamalarında da kullanılmaktadır.

  • Bir veri madenciliği işlevi olarak, küme analizi, her bir kümenin özelliklerini gözlemlemek için verilerin dağılımına ilişkin içgörü kazanmak için bir araç görevi görür.

Veri Madenciliğinde Kümeleme Gereksinimleri

Aşağıdaki noktalar, veri madenciliğinde kümelemenin neden gerekli olduğuna ışık tutmaktadır -

  • Scalability - Büyük veri tabanlarıyla başa çıkmak için yüksek düzeyde ölçeklenebilir kümeleme algoritmalarına ihtiyacımız var.

  • Ability to deal with different kinds of attributes - Algoritmalar, aralık temelli (sayısal) veriler, kategorik ve ikili veriler gibi her türlü veriye uygulanabilmelidir.

  • Discovery of clusters with attribute shape- Kümeleme algoritması, rastgele şekle sahip kümeleri tespit edebilmelidir. Küçük boyutlarda küresel kümeler bulma eğiliminde olan yalnızca uzaklık ölçüleriyle sınırlanmamalıdırlar.

  • High dimensionality - Kümeleme algoritması yalnızca düşük boyutlu verileri değil, aynı zamanda yüksek boyutlu alanı da işleyebilmelidir.

  • Ability to deal with noisy data- Veritabanları gürültülü, eksik veya hatalı veriler içerir. Bazı algoritmalar bu tür verilere duyarlıdır ve düşük kaliteli kümelere yol açabilir.

  • Interpretability - Kümeleme sonuçları yorumlanabilir, anlaşılır ve kullanılabilir olmalıdır.

Kümeleme Yöntemleri

Kümeleme yöntemleri aşağıdaki kategorilere ayrılabilir -

  • Bölümleme Yöntemi
  • Hiyerarşik Yöntem
  • Yoğunluğa dayalı Yöntem
  • Izgara Tabanlı Yöntem
  • Modele Dayalı Yöntem
  • Kısıtlamaya Dayalı Yöntem

Bölümleme Yöntemi

Farz edelim ki bize 'n' nesneden oluşan bir veritabanı verildi ve bölümleme yöntemi verilerin 'k' bölümünü oluşturuyor. Her bölüm bir küme ve k ≤ n'yi temsil edecektir. Bu, verileri aşağıdaki gereksinimleri karşılayan k gruplarına sınıflandıracağı anlamına gelir -

  • Her grup en az bir nesne içerir.

  • Her nesne tam olarak bir gruba ait olmalıdır.

Points to remember −

  • Belirli sayıda bölüm için (k diyelim), bölümleme yöntemi bir ilk bölümleme yaratacaktır.

  • Daha sonra nesneleri bir gruptan diğerine taşıyarak bölümlemeyi iyileştirmek için yinelemeli yer değiştirme tekniğini kullanır.

Hiyerarşik Yöntemler

Bu yöntem, verilen veri nesneleri kümesinin hiyerarşik bir ayrışmasını yaratır. Hiyerarşik yöntemleri, hiyerarşik ayrıştırmanın nasıl oluştuğuna göre sınıflandırabiliriz. Burada iki yaklaşım var -

  • Aglomeratif Yaklaşım
  • Bölücü Yaklaşım

Aglomeratif Yaklaşım

Bu yaklaşım aynı zamanda aşağıdan yukarıya yaklaşım olarak da bilinir. Bunda, her nesnenin ayrı bir grup oluşturmasıyla başlıyoruz. Birbirine yakın olan nesneleri veya grupları birleştirmeye devam eder. Tüm gruplar tek bir grup altında birleştirilene veya fesih koşulu geçerli olana kadar bunu yapmaya devam eder.

Bölücü Yaklaşım

Bu yaklaşım aynı zamanda yukarıdan aşağıya yaklaşım olarak da bilinir. Bunda, aynı kümedeki tüm nesnelerle başlarız. Sürekli yinelemede, bir küme daha küçük kümelere bölünür. Bir kümedeki her nesne veya sonlandırma koşulu geçerli olana kadar çalışmaz. Bu yöntem katıdır, yani bir birleştirme veya bölme yapıldıktan sonra asla geri alınamaz.

Hiyerarşik Kümelemenin Kalitesini Artırma Yaklaşımları

Hiyerarşik kümelemenin kalitesini iyileştirmek için kullanılan iki yaklaşım şunlardır:

  • Her hiyerarşik bölümlemede nesne bağlantılarının dikkatli bir analizini yapın.

  • Önce nesneleri mikro kümeler halinde gruplandırmak için hiyerarşik bir kümelemeli algoritma kullanarak ve ardından mikro kümeler üzerinde makro kümeleme gerçekleştirerek hiyerarşik kümelemeyi entegre edin.

Yoğunluğa dayalı Yöntem

Bu yöntem yoğunluk kavramına dayanmaktadır. Temel fikir, mahalledeki yoğunluk bir eşiği aştığı sürece, belirli bir kümeyi büyütmeye devam etmektir, yani, belirli bir küme içindeki her veri noktası için, belirli bir kümenin yarıçapı en az minimum sayıda nokta içermelidir.

Izgara Tabanlı Yöntem

Bunda, nesneler birlikte bir ızgara oluşturur. Nesne uzayı, bir ızgara yapısı oluşturan sınırlı sayıda hücreye nicelendirilir.

Advantages

  • Bu yöntemin en büyük avantajı işlem süresinin hızlı olmasıdır.

  • Yalnızca nicelenmiş uzaydaki her boyuttaki hücre sayısına bağlıdır.

Model tabanlı yöntemler

Bu yöntemde, her bir küme için belirli bir model için en uygun veriyi bulmak üzere bir model varsayılır. Bu yöntem, yoğunluk işlevini kümeleyerek kümeleri bulur. Veri noktalarının uzamsal dağılımını yansıtır.

Bu yöntem aynı zamanda standart istatistiklere dayalı olarak küme sayısını, aykırı değerleri veya gürültüyü hesaba katarak otomatik olarak belirlemek için bir yol sağlar. Bu nedenle, sağlam kümeleme yöntemleri sağlar.

Kısıtlamaya Dayalı Yöntem

Bu yöntemde, kümeleme, kullanıcı veya uygulamaya yönelik kısıtlamaların dahil edilmesiyle gerçekleştirilir. Bir kısıtlama, kullanıcı beklentisini veya istenen kümeleme sonuçlarının özelliklerini ifade eder. Kısıtlamalar, bize kümeleme süreciyle etkileşimli bir iletişim yolu sağlar. Kısıtlamalar kullanıcı veya uygulama gereksinimi tarafından belirlenebilir.

Metin veritabanları büyük bir belge koleksiyonundan oluşur. Bu bilgileri haber makaleleri, kitaplar, dijital kütüphaneler, e-posta mesajları, web sayfaları vb. Gibi çeşitli kaynaklardan toplarlar. Bilgi miktarındaki artış nedeniyle metin veritabanları hızla büyüyor. Metin veri tabanlarının çoğunda veriler yarı yapılandırılmıştır.

Örneğin, bir belge başlık, yazar, yayın_tarihi vb. Gibi birkaç yapılandırılmış alan içerebilir. Ancak yapı verilerinin yanı sıra, belge ayrıca özet ve içerik gibi yapılandırılmamış metin bileşenleri içerir. Belgelerde ne olabileceğini bilmeden, verilerden yararlı bilgileri analiz etmek ve çıkarmak için etkili sorgular formüle etmek zordur. Kullanıcılar, belgeleri karşılaştırmak ve bunların önemini ve alaka düzeyini sıralamak için araçlara ihtiyaç duyar. Bu nedenle, metin madenciliği popüler hale geldi ve veri madenciliğinde önemli bir tema haline geldi.

Bilgi alma

Bilgi erişimi, çok sayıda metin tabanlı belgeden bilgi alınmasıyla ilgilenir. Veritabanı sistemlerinden bazıları genellikle bilgi erişim sistemlerinde mevcut değildir çünkü her ikisi de farklı türde verileri işler. Bilgi erişim sistemi örnekleri şunları içerir:

  • Çevrimiçi Kütüphane katalog sistemi
  • Çevrimiçi Doküman Yönetim Sistemleri
  • Web Arama Sistemleri vb.

Note- Bir bilgi erişim sistemindeki ana sorun, bir kullanıcının sorgusuna dayalı olarak bir belge koleksiyonundaki ilgili belgeleri bulmaktır. Bu tür bir kullanıcının sorgusu, bir bilgi ihtiyacını açıklayan bazı anahtar kelimelerden oluşur.

Bu tür arama problemlerinde, kullanıcı, ilgili bilgileri bir koleksiyondan çıkarmak için bir girişimde bulunur. Bu, kullanıcının geçici bilgi ihtiyacı olduğunda, yani kısa vadeli bir ihtiyaç olduğunda uygundur. Ancak kullanıcının uzun vadeli bir bilgi ihtiyacı varsa, erişim sistemi de yeni gelen herhangi bir bilgi öğesini kullanıcıya göndermek için bir girişimde bulunabilir.

Bilgiye bu tür erişime Bilgi Filtreleme adı verilir. Ve ilgili sistemler Filtreleme Sistemleri veya Tavsiye Sistemleri olarak bilinir.

Metin Erişimi İçin Temel Önlemler

Bir sistemin doğruluğunu, kullanıcı girdisi temelinde bir dizi belgeyi aldığında kontrol etmemiz gerekir. Bir sorgu ile ilgili belge kümesinin {İlgili} ve geri alınan belge kümesinin {Alındı} olarak gösterilmesine izin verin. Alakalı olan ve alınan belge seti, {İlgili} ∩ {Alındı} olarak gösterilebilir. Bu, aşağıdaki gibi bir Venn diyagramı şeklinde gösterilebilir -

Metin erişiminin kalitesini değerlendirmek için üç temel önlem vardır -

  • Precision
  • Recall
  • F-score

Hassas

Kesinlik, gerçekte sorguyla ilgili olan alınan belgelerin yüzdesidir. Hassasiyet şu şekilde tanımlanabilir -

Precision= |{Relevant} ∩ {Retrieved}| /  |{Retrieved}|

Geri çağırma

Geri çağırma, sorgu ile ilgili olan ve gerçekte alınan belgelerin yüzdesidir. Geri çağırma şu şekilde tanımlanır -

Recall = |{Relevant} ∩ {Retrieved}| /  |{Relevant}|

F puanı

F puanı, yaygın olarak kullanılan değiş tokuştur. Bilgi erişim sistemi genellikle kesinlikten vazgeçmeye ihtiyaç duyar veya tam tersi. F skoru, aşağıdaki gibi geri çağırma veya hassasiyetin harmonik ortalaması olarak tanımlanır -

F-score = recall x precision / (recall + precision) / 2

World Wide Web, veri madenciliği için zengin bir kaynak sağlayan büyük miktarda bilgi içerir.

Web Madenciliğindeki Zorluklar

Web, aşağıdaki gözlemlere dayanarak kaynak ve bilgi keşfi için büyük zorluklar ortaya çıkarmaktadır -

  • The web is too huge- Web'in boyutu çok büyük ve hızla artıyor. Bu, web'in veri ambarlama ve veri madenciliği için çok büyük olduğu görülüyor.

  • Complexity of Web pages- Web sayfalarının birleştirici yapısı yoktur. Geleneksel metin belgesine kıyasla çok karmaşıklar. Dijital web kütüphanesinde çok sayıda belge vardır. Bu kitaplıklar herhangi bir belirli sıraya göre düzenlenmemiştir.

  • Web is dynamic information source- Web'deki bilgiler hızla güncellenir. Haberler, borsalar, hava durumu, spor, alışveriş vb. Veriler düzenli olarak güncellenir.

  • Diversity of user communities- Web'deki kullanıcı topluluğu hızla genişliyor. Bu kullanıcıların farklı geçmişleri, ilgi alanları ve kullanım amaçları vardır. İnternete bağlı ve hala hızla artan 100 milyondan fazla iş istasyonu var.

  • Relevancy of Information - Belirli bir kişinin genellikle ağın yalnızca küçük bir kısmıyla ilgilendiği, ağın geri kalan kısmının ise kullanıcıyla ilgili olmayan bilgileri içerdiği ve istenen sonuçları batırabileceği düşünülmektedir.

Madencilik Web sayfası düzen yapısı

Web sayfasının temel yapısı Belge Nesne Modeline (DOM) dayanmaktadır. DOM yapısı, sayfadaki HTML etiketinin DOM ağacındaki bir düğüme karşılık geldiği ağaç benzeri bir yapıya işaret eder. HTML'de önceden tanımlanmış etiketleri kullanarak web sayfasını segmentlere ayırabiliriz. HTML sözdizimi esnektir, bu nedenle web sayfaları W3C spesifikasyonlarına uymaz. W3C spesifikasyonlarına uyulmaması, DOM ağaç yapısında hataya neden olabilir.

DOM yapısı başlangıçta web sayfasının anlamsal yapısının açıklaması için değil, tarayıcıda sunum için tanıtıldı. DOM yapısı, bir web sayfasının farklı bölümleri arasındaki anlamsal ilişkiyi doğru şekilde tanımlayamaz.

Görüntü tabanlı sayfa bölümleme (VIPS)

  • VIPS'nin amacı, bir web sayfasının anlamsal yapısını görsel sunumuna göre çıkarmaktır.

  • Böyle bir anlamsal yapı, bir ağaç yapısına karşılık gelir. Bu ağaçta her düğüm bir bloğa karşılık gelir.

  • Her düğüme bir değer atanır. Bu değer Tutarlılık Derecesi olarak adlandırılır. Bu değer, görsel algıya dayalı olarak bloktaki tutarlı içeriği belirtmek için atanır.

  • VIPS algoritması ilk önce tüm uygun blokları HTML DOM ağacından çıkarır. Daha sonra bu bloklar arasındaki ayırıcıları bulur.

  • Ayırıcılar, bir web sayfasındaki, blok olmadan görsel olarak kesişen yatay veya dikey çizgileri ifade eder.

  • Web sayfasının semantiği bu bloklar temelinde oluşturulmuştur.

Aşağıdaki şekil VIPS algoritmasının prosedürünü göstermektedir -

Veri madenciliği, çeşitli alanlarda yaygın olarak kullanılmaktadır. Bugün mevcut olan bir dizi ticari veri madenciliği sistemi vardır ve yine de bu alanda birçok zorluk vardır. Bu eğitimde, veri madenciliğinin uygulamalarını ve trendini tartışacağız.

Veri Madenciliği Uygulamaları

İşte veri madenciliğinin yaygın olarak kullanıldığı alanların listesi:

  • Finansal Veri Analizi
  • Perakende sektörü
  • Telekomünikasyon Sektörü
  • Biyolojik Veri Analizi
  • Diğer Bilimsel Uygulamalar
  • İzinsiz giriş tespiti

Finansal Veri Analizi

Bankacılık ve finans endüstrisindeki finansal veriler genellikle güvenilirdir ve yüksek kalitededir, bu da sistematik veri analizi ve veri madenciliğini kolaylaştırır. Tipik durumlardan bazıları aşağıdaki gibidir -

  • Çok boyutlu veri analizi ve veri madenciliği için veri ambarlarının tasarımı ve inşası.

  • Kredi ödeme tahmini ve müşteri kredi politikası analizi.

  • Hedeflenen pazarlama için müşterilerin sınıflandırılması ve kümelenmesi.

  • Kara para aklama ve diğer mali suçların tespiti.

Perakende sektörü

Veri Madenciliği Perakende Sektöründe harika bir uygulamaya sahiptir çünkü satışlar, müşteri satın alma geçmişi, mal taşımacılığı, tüketim ve hizmetlerden büyük miktarda veri toplar. Web'in artan kolaylığı, kullanılabilirliği ve popülerliği nedeniyle toplanan veri miktarının hızla artmaya devam etmesi doğaldır.

Perakende sektöründe veri madenciliği, müşteri hizmetlerinin kalitesini iyileştirmeye ve iyi müşteri tutma ve memnuniyetine yol açan müşteri satın alma modellerini ve eğilimlerini belirlemeye yardımcı olur. İşte perakende sektöründeki veri madenciliği örneklerinin listesi -

  • Veri madenciliğinin faydalarına göre veri ambarlarının tasarımı ve inşası.

  • Satışların, müşterilerin, ürünlerin, zamanın ve bölgenin çok boyutlu analizi.

  • Satış kampanyalarının etkinliğinin analizi.

  • Müşteri tutma.

  • Ürün önerisi ve öğelerin çapraz referanslanması.

Telekomünikasyon Sektörü

Günümüzde telekomünikasyon endüstrisi, faks, çağrı cihazı, cep telefonu, internet messenger, görüntüler, e-posta, web veri iletimi vb. Gibi çeşitli hizmetler sunan en gelişmekte olan sektörlerden biridir. Yeni bilgisayar ve iletişim teknolojilerinin gelişmesi nedeniyle, telekomünikasyon endüstrisi hızla genişliyor. Veri madenciliğinin işletmeye yardımcı olmak ve anlamak için çok önemli olmasının nedeni budur.

Telekomünikasyon endüstrisindeki veri madenciliği, telekomünikasyon modellerinin belirlenmesine, dolandırıcılık faaliyetlerinin yakalanmasına, kaynakların daha iyi kullanılmasına ve hizmet kalitesinin iyileştirilmesine yardımcı olur. Veri madenciliğinin telekomünikasyon hizmetlerini iyileştirdiği örneklerin listesi:

  • Telekomünikasyon verilerinin çok boyutlu analizi.

  • Hileli model analizi.

  • Olağandışı modellerin tanımlanması.

  • Çok boyutlu ilişki ve sıralı örüntü analizi.

  • Mobil Telekomünikasyon hizmetleri.

  • Telekomünikasyon veri analizinde görselleştirme araçlarının kullanımı.

Biyolojik Veri Analizi

Son zamanlarda, genomik, proteomik, fonksiyonel Genomik ve biyomedikal araştırma gibi biyoloji alanında muazzam bir büyüme gördük. Biyolojik veri madenciliği, Biyoinformatiğin çok önemli bir parçasıdır. Veri madenciliğinin biyolojik veri analizine katkıda bulunduğu yönler aşağıdadır -

  • Heterojen, dağıtık genomik ve proteomik veri tabanlarının anlamsal entegrasyonu.

  • Hizalama, indeksleme, benzerlik araştırması ve karşılaştırmalı analiz çoklu nükleotid dizileri.

  • Yapısal modellerin keşfi ve genetik ağların ve protein yollarının analizi.

  • İlişki ve yol analizi.

  • Genetik veri analizinde görselleştirme araçları.

Diğer Bilimsel Uygulamalar

Yukarıda tartışılan uygulamalar, istatistiksel tekniklerin uygun olduğu nispeten küçük ve homojen veri setlerini işleme eğilimindedir. Yer bilimleri, astronomi vb. Bilimsel alanlardan büyük miktarda veri toplanmıştır. İklim ve ekosistem modellemesi, kimya mühendisliği, akışkanlar dinamiği gibi çeşitli alanlarda hızlı sayısal simülasyonlar nedeniyle büyük miktarda veri seti üretilmektedir. Aşağıda Bilimsel Uygulamalar alanında veri madenciliği uygulamaları yer almaktadır -

  • Veri Ambarları ve veri ön işleme.
  • Grafik tabanlı madencilik.
  • Görselleştirme ve alana özel bilgi.

İzinsiz giriş tespiti

İzinsiz giriş, bütünlüğü, gizliliği veya ağ kaynaklarının kullanılabilirliğini tehdit eden her türlü eylemi ifade eder. Bu bağlantı dünyasında, güvenlik ana sorun haline geldi. Artan internet kullanımı ve ağa izinsiz giriş ve saldırı için araçların ve püf noktalarının kullanılabilirliği, izinsiz giriş tespitini ağ yönetiminin kritik bir bileşeni haline getirdi. İzinsiz giriş tespiti için veri madenciliği teknolojisinin uygulanabileceği alanların listesi:

  • Saldırı tespiti için veri madenciliği algoritmasının geliştirilmesi.

  • Ayrımcı niteliklerin seçilmesine ve oluşturulmasına yardımcı olmak için ilişkilendirme ve korelasyon analizi, toplama.

  • Akış verilerinin analizi.

  • Dağıtık veri madenciliği.

  • Görselleştirme ve sorgulama araçları.

Veri Madenciliği Sistemi Ürünleri

Birçok veri madenciliği sistemi ürünü ve alana özgü veri madenciliği uygulamaları vardır. Yeni veri madenciliği sistemleri ve uygulamaları önceki sistemlere eklenmektedir. Ayrıca, veri madenciliği dillerini standartlaştırmak için çaba sarf edilmektedir.

Veri Madenciliği Sistemi Seçimi

Bir veri madenciliği sisteminin seçimi aşağıdaki özelliklere bağlıdır -

  • Data Types- Veri madenciliği sistemi, biçimlendirilmiş metni, kayda dayalı verileri ve ilişkisel verileri işleyebilir. Veriler ayrıca ASCII metninde, ilişkisel veritabanı verilerinde veya veri ambarı verilerinde olabilir. Bu nedenle, veri madenciliği sisteminin tam olarak hangi formatı işleyebileceğini kontrol etmeliyiz.

  • System Issues- Bir veri madenciliği sisteminin farklı işletim sistemleriyle uyumluluğunu dikkate almalıyız. Bir veri madenciliği sistemi yalnızca bir işletim sisteminde veya birkaçında çalışabilir. Web tabanlı kullanıcı arayüzleri sağlayan ve XML verilerine girdi olarak izin veren veri madenciliği sistemleri de vardır.

  • Data Sources- Veri kaynakları, veri madenciliği sisteminin çalışacağı veri formatlarını ifade eder. Bazı veri madenciliği sistemleri yalnızca ASCII metin dosyalarında çalışırken diğerleri çoklu ilişkisel kaynaklarda çalışabilir. Veri madenciliği sistemi ayrıca ODBC bağlantılarını veya ODBC bağlantıları için OLE DB'yi desteklemelidir.

  • Data Mining functions and methodologies - Sınıflandırma gibi yalnızca tek bir veri madenciliği işlevi sağlayan bazı veri madenciliği sistemleri varken, bazıları kavram tanımlama, keşif odaklı OLAP analizi, ilişkilendirme madenciliği, bağlantı analizi, istatistiksel analiz, sınıflandırma, tahmin, kümeleme gibi çoklu veri madenciliği işlevleri sağlar. aykırı değer analizi, benzerlik araması vb.

  • Coupling data mining with databases or data warehouse systems- Veri madenciliği sistemlerinin bir veritabanı veya bir veri ambarı sistemi ile birleştirilmesi gerekir. Birleştirilmiş bileşenler, tek tip bir bilgi işleme ortamına entegre edilmiştir. Aşağıda listelenen kaplin türleri şunlardır:

    • Kaplin yok
    • Gevşek Kaplin
    • Yarı sıkı Kaplin
    • Sıkı bağlama
  • Scalability - Veri madenciliğinde iki ölçeklenebilirlik sorunu vardır -

    • Row (Database size) Scalability- Bir veri madenciliği sistemi, sayı veya satırlar 10 kat büyütüldüğünde satır ölçeklenebilir olarak kabul edilir. Bir sorguyu yürütmek 10 kereden fazla sürmez.

    • Column (Dimension) Salability - Bir veri madenciliği sistemi, madencilik sorgusu yürütme süresi sütun sayısı ile doğrusal olarak artarsa ​​sütun ölçeklenebilir olarak kabul edilir.

  • Visualization Tools - Veri madenciliğinde görselleştirme aşağıdaki şekilde kategorize edilebilir -

    • Veri goruntuleme
    • Madencilik Sonuçları Görselleştirme
    • Madencilik süreci görselleştirme
    • Görsel veri madenciliği
  • Data Mining query language and graphical user interface- Kullanımı kolay bir grafik kullanıcı arayüzü, kullanıcı rehberliğinde, etkileşimli veri madenciliğini desteklemek için önemlidir. İlişkisel veritabanı sistemlerinden farklı olarak, veri madenciliği sistemleri temelde yatan veri madenciliği sorgu dilini paylaşmaz.

Veri Madenciliğinde Eğilimler

Veri madenciliği kavramları hala gelişiyor ve işte bu alanda görebileceğimiz en son eğilimler -

  • Uygulama Keşfi.

  • Ölçeklenebilir ve etkileşimli veri madenciliği yöntemleri.

  • Veri madenciliğinin veritabanı sistemleri, veri ambarı sistemleri ve web veritabanı sistemleri ile entegrasyonu.

  • Veri madenciliği sorgu dilinin standardizasyonu.

  • Görsel veri madenciliği.

  • Karmaşık veri türlerini incelemek için yeni yöntemler.

  • Biyolojik veri madenciliği.

  • Veri madenciliği ve yazılım mühendisliği.

  • Web madenciliği.

  • Dağıtık veri madenciliği.

  • Gerçek zamanlı veri madenciliği.

  • Çoklu veritabanı veri madenciliği.

  • Veri madenciliğinde gizlilik koruması ve bilgi güvenliği.

Veri Madenciliğinin Teorik Temelleri

Veri madenciliğinin teorik temelleri aşağıdaki kavramları içerir:

  • Data Reduction- Bu teorinin temel fikri, çok büyük veri tabanlarında sorgulara hızlı ve yaklaşık yanıtlar alma ihtiyacına yanıt olarak hız için doğruluk ticareti yapan veri temsilini azaltmaktır. Veri azaltma tekniklerinden bazıları aşağıdaki gibidir -

    • Tekil değer Ayrıştırma

    • Wavelets

    • Regression

    • Log-lineer modeller

    • Histograms

    • Clustering

    • Sampling

    • İndeks Ağaçlarının İnşası

  • Data Compression - Bu teorinin temel fikri, verilen verileri aşağıdaki şekilde kodlayarak sıkıştırmaktır -

    • Bits

    • İlişkilendirme Kuralları

    • Karar ağaçları

    • Clusters

  • Pattern Discovery- Bu teorinin temel fikri, bir veri tabanında meydana gelen kalıpları keşfetmektir. Bu teoriye katkıda bulunan alanlar şunlardır -

    • Makine öğrenme

    • Sinir ağı

    • Dernek Madenciliği

    • Sıralı Desen Eşleştirme

    • Clustering

  • Probability Theory- Bu teori istatistiksel teoriye dayanmaktadır. Bu teorinin arkasındaki temel fikir, rastgele değişkenlerin ortak olasılık dağılımlarını keşfetmektir.

  • Probability Theory - Bu teoriye göre veri madenciliği, ancak bazı işletmelerin karar verme süreçlerinde kullanılabildikleri ölçüde ilginç olan kalıpları bulur.

  • Microeconomic View- Bu teoriye göre, bir veritabanı şeması, bir veritabanında depolanan verilerden ve modellerden oluşur. Bu nedenle, veri madenciliği, veritabanları üzerinde indüksiyon gerçekleştirme görevidir.

  • Inductive databases- Veri tabanı odaklı tekniklerin yanı sıra, veri analizi için istatistiksel teknikler mevcuttur. Bu teknikler bilimsel verilere ve ekonomik ve sosyal bilimlerden gelen verilere de uygulanabilir.

İstatistiksel Veri Madenciliği

İstatistiksel Veri Madenciliği Tekniklerinden bazıları aşağıdaki gibidir -

  • Regression- Değişkenlerin sayısal olduğu bir veya daha fazla yordayıcı değişkenden yanıt değişkeninin değerini tahmin etmek için regresyon yöntemleri kullanılır. Aşağıda Regresyon biçimleri listelenmiştir -

    • Linear

    • Multiple

    • Weighted

    • Polynomial

    • Nonparametric

    • Robust

  • Generalized Linear Models - Genelleştirilmiş Doğrusal Model şunları içerir -

    • Lojistik regresyon

    • Poisson Regresyonu

    Modelin genellemesi, bir kategorik yanıt değişkeninin, doğrusal regresyon kullanılarak sayısal yanıt değişkeninin modellemesine benzer bir şekilde bir dizi yordayıcı değişkenle ilişkilendirilmesine izin verir.

  • Analysis of Variance - Bu teknik analiz eder -

    • Sayısal yanıt değişkeni ile tanımlanan iki veya daha fazla popülasyon için deneysel veriler.

    • Bir veya daha fazla kategorik değişken (faktör).

  • Mixed-effect Models- Bu modeller, gruplanmış verileri analiz etmek için kullanılır. Bu modeller, bir yanıt değişkeni ile bir veya daha fazla faktöre göre gruplandırılmış verilerdeki bazı eş varyasyonlar arasındaki ilişkiyi tanımlar.

  • Factor Analysis- Faktör analizi, kategorik bir yanıt değişkenini tahmin etmek için kullanılır. Bu yöntem, bağımsız değişkenlerin çok değişkenli bir normal dağılım izlediğini varsayar.

  • Time Series Analysis - Zaman serisi verilerini analiz etme yöntemleri aşağıdadır -

    • Otomatik regresyon Yöntemleri.

    • Univariate ARIMA (AutoRegressive Integrated Moving Average) Modelleme.

    • Uzun bellekli zaman serisi modelleme.

Görsel Veri Madenciliği

Görsel Veri Madenciliği, büyük veri kümelerinden örtük bilgileri keşfetmek için veri ve / veya bilgi görselleştirme tekniklerini kullanır. Görsel veri madenciliği aşağıdaki disiplinlerin bir entegrasyonu olarak görülebilir -

  • Veri goruntuleme

  • Veri madenciliği

Görsel veri madenciliği aşağıdakilerle yakından ilgilidir:

  • Bilgisayar grafikleri

  • Multimedya Sistemleri

  • İnsan bilgisayar etkileşimi

  • Desen tanıma

  • Yüksek Performanslı Bilgi İşlem

Genel olarak veri görselleştirme ve veri madenciliği aşağıdaki şekillerde entegre edilebilir -

  • Data Visualization - Bir veri tabanındaki veya bir veri ambarındaki veriler, aşağıda listelenen çeşitli görsel formlarda görüntülenebilir -

    • Boxplots

    • 3 Boyutlu Küpler

    • Veri dağıtım şemaları

    • Curves

    • Surfaces

    • Bağlantı grafikleri vb.

  • Data Mining Result Visualization- Veri Madenciliği Sonuç Görselleştirme, veri madenciliği sonuçlarının görsel formlarda sunulmasıdır. Bu görsel formlar dağınık grafikler, kutu grafikler vb. Olabilir.

  • Data Mining Process Visualization- Veri Madenciliği Süreç Görselleştirme, veri madenciliğinin çeşitli süreçlerini sunar. Kullanıcıların verilerin nasıl çıkarıldığını görmelerini sağlar. Ayrıca, kullanıcıların hangi veri tabanından veya veri ambarından verilerin temizlendiğini, entegre edildiğini, ön işlemden geçirildiğini ve çıkarıldığını görmelerini sağlar.

Ses Veri Madenciliği

Ses veri madenciliği, veri modellerini veya veri madenciliği sonuçlarının özelliklerini belirtmek için ses sinyallerini kullanır. Kalıpları sese ve derin düşünmeye dönüştürerek, ilginç herhangi bir şeyi tanımlamak için resimleri izlemek yerine perdeleri ve melodileri dinleyebiliriz.

Veri Madenciliği ve İşbirliğine Dayalı Filtreleme

Tüketiciler günümüzde alışveriş yaparken çeşitli mal ve hizmetlerle karşılaşmaktadır. Canlı müşteri işlemleri sırasında, bir Öneri Sistemi tüketiciye ürün tavsiyeleri vererek yardımcı olur. İşbirliğine Dayalı Filtreleme Yaklaşımı genellikle müşterilere ürün önermek için kullanılır. Bu öneriler diğer müşterilerin görüşlerine dayanmaktadır.