Başlık | Otomatik Doküman Sınıflandırma |
Öğrenci | Hayır |
Yazar(lar) |
Yazar 1 Name: Rumeysa YILMAZ Org: Adnan Menderes Üniversitesi Country: TR E-mail: rumeysa2903_AT_gmail.com Yazar 2 Name: Rıfat AŞLIYAN Org: Adnan Menderes Üniversitesi Country: TR E-mail: rasliyan_AT_adu.edu.tr Yazar 3 Name: Korhan GÜNEL Org: Adnan Menderes Üniversitesi Country: TR E-mail: kgunel_AT_adu.edu.tr |
Diğer Yazar(lar) | rasliyan_AT_yahoo.com |
Anahtar Kelimeler | Doküman Sınıflandırma, Yapay Sinir Ağları, Çok Katmanlı Algılayıcı, Veri Madenciliği |
Özet | İnternetin hızla gelişmesi elektronik ortamdaki bilgileri ve işlemleri hızlandırmış fakat bu ortamlarda depolanan ve işlenen bilgilerin boyutunun artması aranan bilgiye erişmekte problemler çıkarmıştır. Kullanıcıların istedikleri bilgiye daha doğru ve hızlı bir şekilde ulaşma ihtiyacı doğmuştur. Bu amaçla elektronik ortamdaki dokümanların sınıflandırılmasında yeni yaklaşımlar geliştirilmiştir. Bu çalışmada metin içerikli dokümanların sınıflandırılmasında Yapay Sinir Ağlarından Çok Katmanlı Algılayıcı metodu kullanılarak bir sistem geliştirilmiştir. Çalışmanın gerçekleştirilmesi için her biri 75?er doküman içeren eğitim, otomobil, sağlık, spor ve teknoloji sınıfları ele alınmıştır. Bu dokümanlardan 25?er tanesi sistemin eğitilmesi aşamasında 50?şer tanesi ise sistemin test edilmesi aşamasında kullanılmıştır. Çalışmada sisteme verilen dokümanlar öncelikle önişlemden geçirilmiştir. Önişlemden geçirilen dokümanların frekansları hesaplanıp normalize edildikten sonra her bir sınıf için öznitelik sözcük ve hece vektör veritabanı oluşturulmuştur. Öznitelik vektör veritabanı oluşturulurken sözcüklerin ve hecelerin dokümanlarda karşılaştırılmasında belli bir eşik değeri kullanılmıştır. Sistemin test edilmesinde; test setindeki dokümanlar sisteme verilmiş ve her bir sınıf için oluşturulan öznitelik vektör veritabanındaki sözcükler ve heceler ile karşılaştırılarak dokümanın hangi sınıfa dahil olduğu belirlenmiştir. Sonuç olarak, bu yaklaşım ile en iyi sınıflandırma başarı oranı, sözcük tabanlı sistemde %87 ve hece tabanlı sistemde ise %93 olarak bulunmuştur. |
Başlıklar | Veri Madenciliği |
Dosya | |