XVII. Akademik Bilisim Konferansi

BaşlıkEş-Talim Yöntemi ile Metin Sınıflandırma İçin Bir Uygulama
ÖğrenciHayır
Yazar(lar) Yazar 1
Name: Katira Soleymanzadeh
Org: Ege Üniversitesi, Uluslararası Bilgisayar Enstitüsü
Country: TR
E-mail: katirasole_AT_gmail.com

Yazar 2
Name: Ufuk Hürriyetoğlu
Org: Ege Üniversitesi, Uluslararası Bilgisayar Enstitüsü
Country: TR
E-mail: ufuk.hurriyetoglu_AT_gmail.com

Yazar 3
Name: Bahar Karaoğlan
Org: Ege Üniversitesi, Uluslararası Bilgisayar Enstitüsü
Country: TR
E-mail: bahar.karaoglan_AT_ege.edu.tr

Yazar 4
Name: Senem Kumova Metin
Org: İzmir Ekonomi Üniversitesi, Yazılım Mühendisliği Bölümü
Country: TR
E-mail: senem.kumova_AT_izmirekonomi.edu.tr

Yazar 5
Name: Tarık Kışla
Org: Ege Üniversitesi, Bilgisayar ve Öğretim Teknolojileri Eğitim Bölümü
Country: TR
E-mail: tarik.kisla_AT_ege.edu.tr
Anahtar KelimelerEş-Talim, Sınıflandırma, Naive Bayes
ÖzetBüyük miktarda verinin sınıflandırılması bilgi geri getirim alanında önemli bir konudur. Sınıflandırma algoritmaları bir metni bir veya birden fazla sınıfa ayırmaktadır. Etiketlenmiş verilerin eksikliği ve etiketlenmemiş verilerin etiketlenmesi, metin sınıflandırmanın temel sorunlarından yer almaktadır. Metin sınıflandırması üç farklı kategoriye ayrılmaktadır: gözetimli, gözetimsiz ve yarı-gözetimli öğrenme. Gözetimli öğrenmede binlerce verinin sınıfı önceden elle belirlenmektedir ve makine öğrenme sistemleri bu veriler üzerinden gelen yeni bir veriyi yüksek dikkatle sınıflandırmaktadır. Ancak böyle bir öğrenme kümesini oluşturmak için çok çaba gösterilmelidir. Yarı- gözetimli öğrenme sistemi olan eş-talim algoritmasında çok küçük etiketlenmiş öğrenme kümeye ihtiyaç vardır. Blum ve Mitchell[1] tarafından önerilen yarı-gözetimli öğrenme eş-talim tekrarlamalı algoritmasına göre etiketlenmemiş verilerin sınıflandırması çok küçük bir etiketlenmiş verilere dayanarak yapılır ve sonra etiketlenen veriler eğitim kümesine ilave edilerek sınıflandırma doğruluğu arttırılır. Eş-talim yöntemi web, e-posta, soru ve elektroansefalo (EGG) sınıflandırması gibi birçok uygulamalarda kullanılmaktadır [2-5]. Eş-talim yönteminde iki ayrı özellik kümesi tanımlanır ve bu özelliklere göre sınıflandırma yapılır. İki özellik kümeleri birbirinden bağımsız olarak, doğru bir sınıflandırma yapmaktadır. İlk başta düşük sınıflandırmasına rağmen, etiketlenmemmiş örnekleri sınıflandırıp ve sonra onları her tekrarlamada öğrenme kümesini ilave ederek, sınıflandırma gücünü arttırmaktadır. Bu yaklaşımın temeli verilerin redundant bilgileri üzerine dayanmaktadır, başka bir deyişle veriler bazı belli özelliklerine dayanarak sınıflandırmaları yeterli olmaktadır. Ancak Muslea et.al [6] ve Zhang et al.'ın [7] görüşlerine göre iki ayrı özellik kümesi üzerinden yapılan sınıflandırmalar aynı niteliğe sahip değiller ve bir özellik diğerine göre daha iyi sınıflandırma yapabilir. Bu bildiride eş-talim algoritmasının başarısı Türkiye Üniversitelerinde BM bölümünde verilen derslerin sınıflandırmasında incelenmektedir. BM dersleri ACM sınıflandırmasına göre 12 ayrı sınıfa ayrılmaktadır; donanım, bilgisayar sistemleri organizasyonu, ağlar, yazılım ve mühendisliği, hesaplama teorisi, bilişim matematiği, bilgi sistemleri, güvenlik ve gizlilik, İnsan-merkezli bilişim, bilişim metodolojileri, uygulamalı bilişim, sosyal ve mesleki konular. Bizim çalışmamızda sadece ders başlığını kullanmak, sınıflandırma doğruluğunu azaltabilir. Önerilen yöntemde derslerin bilgilerini iki farklı kümeye ayırmaktadır: başlık ve içerik. Öğrenme sınıflandırıcı algoritması olarak Naive Bayes kullanılmaktadır. Başlıkla etiketlenmiş eğitim kümesi ilk sınıflandırıcıya eğitilir ve aynı işlem içerik özelliği için de yapılır. Etiketlenmemiş örneklerden birisi, y seçilir ve her iki sınıflandırıcı tarafından her bir sınıfa ait olma olasılığı hesaplanır. y örneğin hangi sınıfa atılmasını hesaplamak için, iki sınıflandırıcıdan elde edilen olasılıklara göre bir karşılaştırma yapılır. Ders içeriği daha çok bilgi taşımakta ve daha doğru bir sınıflandırma yapabilir ancak bazı durumlarda içerik özelliği açısından sınıflandırma sonucunda, bir sınıfa atma olasılığı daha az iken, ders başlığı o sınıfa daha yüksek bir olasılık hesaplayabilir. Örneğin, bir y örneği ders başlığı altında sınıflandırmadan sonra A sınıfına 90% ve B sınıfına 50% olasılıkla sınıflandırılır ve içerik altında sınıflandırıcıya göre A'ya 60% ve B'ye 70% olasılıkla atanmaktadır. y örneğin hangi sınıfa ait olma olasılığını hesaplamak için ortalama alınarak yapılmaktadır. Ders içeriğin katsayısı 3 olsun ve ders başlığı 1 olsun. Ortalama yapıldıktan sonra A sınıfına 67,5% ve B sınıfına 65% sınıflandırılmış oysa sadece ders içeriliğine göre y örneği B sınıfına atanmıştır. Fig.1’de yöntemin ana şeması gösterilmektedir. Çalışmamızda ders başlıkları ve ders içeriği (amaç,konu,plan, dersin çıktıları,ders ve referans kitapları) kullanılarak salt Naive Bayesian ve içerik-başlık eş-talim yöntemi ile sınıflandırma uygulanıp karşılaştırılacaktır. Bu üç farklı sınıflandırmadan elde edilen sonuçlar tartışılacaktır. Gelecek çalışmalarda sınıflandırıcı algoritması olarak SVM kullanılıp ve sonuçlar Naive Bayes sınıflandırıcı sonuçlarıyla karışlaştırılacaktır. Eğitim kümesini etiketlenmesi için 3 lisansüstü ve alanda uzman olan kişiler tarafından etiketlenmektedir. Etiketleyiciler arasında etiket anlaşılmazlığı olan örnekler bir uzman tarafından yeniden etiketlenmektedir.
Başlıklar AB-KısaBildiri
Veri Madenciliği
Yapay Zeka
Dosya  
 

 

Powered by OpenConf®
Copyright ©2002-2014 Zakon Group LLC