Veri Ambarından Veri Madenciliğine


Eğitmenler: Ömer Utku Erzengin, SDÜ, omererzengin@sdu.edu.tr, Emine Çetin Teke, SDÜ, eeminecetin@windowslive.com, Nurzen Üzümcü, SDÜ, nurzenuzumcu@gmail.com

İçerik:
Bu eğitimde MySQL Server ve PostgreSQL Server üzerindeki verilerin GNU tabanlı Veri madenciliği yazılımlarına nasıl aktarılacağı ve temel birkaç veri madenciliği tekniği anlatılacaktır.

Orange, Weka, RapidMiner ve Knime GNU tabanlı yazılımlardır. Bu veri madenciliği yazılımlarının analiz için kullandığı dosya türlerinin birbirlerinden faklılıkları vardır. Örneğin WEKA *.arff (Attribute-Relation File Format) dosyasını kullanırken Orange *.tab (Tab-Delimited) veri dosyası kullanmaktadır. Aynı veri iki farklı dosya türünde ayrı biçimlerde (format) kullanılması gerekmektedir. Bir dosya türü bir platformda (Java, .Net, Phyton) veri tabanı sunucusundan kolay çekilirken diğer bir platformda aynı dosyayı elde etmek bazı sorunlara yol açmaktadır.

Bu veri madenciliği yazılımlarının kullandığı veri dosyaları SQL sunucuların üzerinden de çekilebilir. Orange, Weka, RapidMiner ve Knime yazılımlarının geliştirildiği platformlar birbirlerinden farklıdır. Örneğin WEKA Java üzerinde geliştirilirken, Orange Phyton üzerinde geliştirilmektedir. Veri madenciliği yazılımlarının geliştirildiği platformlara bağlı olarak veri tabanı sunucularına ayrı arabirimlerle (IDE,…) bağlanmaktadır. Ayrıca bir yazılım veri tabanı sunucusuna ODBC üzerinden bağlanmaktayken diğer bir yazılım Java arabirimiyle diğer bir yazılım ise Phyton altındaki bir uygulamayla bağlanmaktadır.

Yapılacak eğitimde eldeki veri tabanı sunucularıyla veri madenciliği yazılımları arasındaki uyum ve uyumsuzluklar anlatılacaktır. Veri madenciliği uygulaması olarak önceden geliştirilmiş belli bir ölçek için toplanan verilerin MySQL ve PostgreSQL’den çekilmesi anlatılacaktır.

Veri madenciliği eğitiminde kullanılacak veri tarafımızdan geliştirilen bir ölçek aracılığıyla toplanmıştır. Eğitimde kullanılacak olan veriyi oluşturan ölçek, ulusal ve uluslar arası alanda kullanılabilecek Tüketici Çevre Bilinç Endeksi çalışmalarına bağlı bir sürecin parçasıdır. Veri tabanı sunucusunda kullanılan Tüketici Çevre Bilinç Endeksi verisine bağlı çalışmalar bazı ulusal ve uluslar arası kongrelerde sunulmuştur.

Eğitimde kullanılacak ikinci veri seti ise Borsa İstanbul’dan alınmış bilanço verileri üzerine olacaktır. Borsa İstanbul’da elde edilmiş veri setinin oluşturulmasındaki amaç kredi verilecek riskli ve risksiz firmaları bilanço üzerindeki hesaplamalarla elde edilen oranlara bağlı olarak ayrıştırıp kümelemektir. Bu çalışma aynı zamanda finansal başarısızlığın veri madenciliğiyle belirlenmesi üzerine kuruludur.
Yapılacak sunumda veri tabanı sunucularından veriyi veri madenciliği yazılımlarına aktarma sonrasında veri madenciliği kısmında ise yazılımlarla veri filtrelenmesi, verilerin başka biçimlere aktarılması, verilerin gözlem ve değişken bazında birleştirilmesi, veri madenciliği yazılımlarında simülasyon, verinin kesikli ve sürekli hale getirilmesi ve aykırı gözlemlerin bulunmasının teorisiyle pratiği veri madenciliği yazılımlarında karşılaştırılmalı olarak anlatılacaktır.

Gerekli vakit kalırsa geçerlik ve güvenirlik çalışmalarının veri madenciliğinde nasıl yapıldığı ve kümeleme analizlerinden belli başlıklar gösterilecektir.