Akademik Bilisim 2008

Öneri Özeti

ID45
TitleWEB İÇERİK MADENCİLİĞİ VE KONU SINIFLANDIRILMASI
Author(s)Author #1
Name: fatih gürcan
Org: KTÜ ENFORMATİK BÖLÜMÜ
Country: TÜRKİYE
Email: fgurcan__at__ktu.edu.tr

Other Author(s)
Keywords Web İçerik Madenciliği, Arama Sonuç Madenciliği, Bilgi çıkartımı, Konu sınıflandırma, Metinsel veri madenciliği.
Abstractİnternet çok büyük bir bilgi deposudur. İnternetteki bu bilgiler büyük olduğu kadar düzensiz ve birbirinden bağımsız oluşturulmuş bilgilerdir. Bu yönüyle web deki bilgiler tamamen, anlamlı ve işe yarayan bilgiler değildir. Bu büyük düzensiz verilerden anlamlı bilgilerin elde edilebilmesi için, günümüze kadar değişik metotlar denenmiştir. Web İçerik Madenciliği, World Wide Web deki bütün dokümanları (metin, resim, ses, görüntü v.s.) inceleyerek, bu dokümanların içerikleri arasındaki ilişkisel benzerlikleri ve farklılıkları ortaya çıkaran bir metottur. Böylece birbiriyle gerçek anlamda ilişkili ve aynı konuda olan sayfalar, kendi içinde sınıflandırılabilir. Sayfaların içeriği analiz edilir ve sayfanın temeline inilerek gerçekte sayfanın hangi konuyu içerdiğine bakılır. Bu çalışmada, web ortamları için, Google arama motoru bütünleşik, bir konu sınıflandırma sistemi geliştirilmiştir. Böylece, arama motorunun bulduğu sayfalar belirlenen yatay ve dikey arama derinliklerine kadar indirilmiş ve belirli ölçütler çerçevesinde analiz edilmişlerdir. Yapılan analiz sonucunda sayfanın gerçekte hangi konu ile ilgili olduğu tahmin edilmiştir. Yapılan bu tahminlerin, web ortamında, kullanıcıların aradığı bilgilere daha kestirme ulaşmasına yardımcı olacağı düşünülmektedir.
Topics• Veri Madenciligi
Comments
Paper 45.doc (94KB)
 

 

Powered by OpenConf
Copyright ©2002-2006 Zakon Group LLC