Akademik Bilişim 2010 - Muğla Üniversitesi

Title Metin İçerikli Türkçe Dokümanların Sınıflandırılması
Author(s) Author #1
Name : Rıfat Aşlıyan
Org : Adnan Menderes Üniversitesi
Country : Turkey
Email : rasliyan__at__yahoo.com

Author #2
Name : Korhan Günel
Org : Adnan Menderes Üniversitesi
Country : Turkey
Email : kgunel__at__adu.edu.tr

Other Author(s)
Keywords Doküman Sınıflandırma, En Yakın Komşu Metodu, K-En Yakın Komşu Metodu, Veri Madenciliği, Metin Madenciliği.
Abstract Bu çalışmada, En Yakın Komşu ve K-En Yakın Komşu metotlarını kullanarak metin içerikli dokümanların sınıflandırılmasını gerçekleştiren bir sistem geliştirilmiştir. Bu çalışmanın yapılmasında iki derlem oluşturulmuştur: Birincisi, eğitim, otomobil, sağlık, spor ve teknoloji sınıflarından oluşan toplam 125 tane doküman içeren derlemdir. İkinci olarak sistemin test edilmesi için kullanılan her bir sınıf için 50, toplam 250 doküman içeren derlem oluşturulmuştur. Çalışmanın ön işleme safhasında bütün dokümanlar temizlenir. Sonra, her bir doküman için sözcüğün doküman içindeki bulunma olasılığı hesaplanır. Böylece, her bir dokümana ait sözcük öznitelik vektörleri oluşturulur. Öznitelik vektörlerindeki sözcüklerin belirlenmesi iki yaklaşıma göre yapıldı. Sistem için kullanılan öznitelik vektör veritabanının oluşturulmasında da iki farklı yaklaşım kullanılmıştır ve başarı oranları karşılaştırılmıştır. Bu öznitelik vektörlerine göre En Yakın Komşu ve K-En Yakın Komşu metotlarını kullanarak test derlemindeki dokümanların hangi sınıfa ait olduğu tespit edilmiştir. Deneylerden elde edilen en yüksek doğru sınıflandırma oranı En Yakın Komşu metodu kullanılarak %88.4 olmuştur.
Topics • Veri Madenciliği