XIV. Akademik Bilisim Konferansi

BaşlıkOtomatik Doküman Sınıflandırma
ÖğrenciHayır
Yazar(lar) Yazar 1
Name: Rumeysa YILMAZ
Org: Adnan Menderes Üniversitesi
Country: TR
E-mail: rumeysa2903_AT_gmail.com

Yazar 2
Name: Rıfat AŞLIYAN
Org: Adnan Menderes Üniversitesi
Country: TR
E-mail: rasliyan_AT_adu.edu.tr

Yazar 3
Name: Korhan GÜNEL
Org: Adnan Menderes Üniversitesi
Country: TR
E-mail: kgunel_AT_adu.edu.tr
Diğer Yazar(lar)rasliyan_AT_yahoo.com
Anahtar KelimelerDoküman Sınıflandırma, Yapay Sinir Ağları, Çok Katmanlı Algılayıcı, Veri Madenciliği
Özetİnternetin hızla gelişmesi elektronik ortamdaki bilgileri ve işlemleri hızlandırmış fakat bu ortamlarda depolanan ve işlenen bilgilerin boyutunun artması aranan bilgiye erişmekte problemler çıkarmıştır. Kullanıcıların istedikleri bilgiye daha doğru ve hızlı bir şekilde ulaşma ihtiyacı doğmuştur. Bu amaçla elektronik ortamdaki dokümanların sınıflandırılmasında yeni yaklaşımlar geliştirilmiştir. Bu çalışmada metin içerikli dokümanların sınıflandırılmasında Yapay Sinir Ağlarından Çok Katmanlı Algılayıcı metodu kullanılarak bir sistem geliştirilmiştir. Çalışmanın gerçekleştirilmesi için her biri 75?er doküman içeren eğitim, otomobil, sağlık, spor ve teknoloji sınıfları ele alınmıştır. Bu dokümanlardan 25?er tanesi sistemin eğitilmesi aşamasında 50?şer tanesi ise sistemin test edilmesi aşamasında kullanılmıştır. Çalışmada sisteme verilen dokümanlar öncelikle önişlemden geçirilmiştir. Önişlemden geçirilen dokümanların frekansları hesaplanıp normalize edildikten sonra her bir sınıf için öznitelik sözcük ve hece vektör veritabanı oluşturulmuştur. Öznitelik vektör veritabanı oluşturulurken sözcüklerin ve hecelerin dokümanlarda karşılaştırılmasında belli bir eşik değeri kullanılmıştır. Sistemin test edilmesinde; test setindeki dokümanlar sisteme verilmiş ve her bir sınıf için oluşturulan öznitelik vektör veritabanındaki sözcükler ve heceler ile karşılaştırılarak dokümanın hangi sınıfa dahil olduğu belirlenmiştir. Sonuç olarak, bu yaklaşım ile en iyi sınıflandırma başarı oranı, sözcük tabanlı sistemde %87 ve hece tabanlı sistemde ise %93 olarak bulunmuştur.
Başlıklar Veri Madenciliği
Dosya  
 

 

Powered by OpenConf®
Copyright ©2002-2009 Zakon Group LLC