Öneri Özeti
ID | 45 |
Title | WEB İÇERİK MADENCİLİĞİ VE KONU SINIFLANDIRILMASI |
Author(s) | Author #1 Name: fatih gürcan Org: KTÜ ENFORMATİK BÖLÜMÜ Country: TÜRKİYE Email: fgurcan__at__ktu.edu.tr
|
Other Author(s) | |
Keywords | Web İçerik Madenciliği, Arama Sonuç Madenciliği, Bilgi çıkartımı, Konu sınıflandırma, Metinsel veri madenciliği. |
Abstract | İnternet çok büyük bir bilgi deposudur. İnternetteki bu bilgiler büyük olduğu kadar düzensiz ve birbirinden bağımsız oluşturulmuş bilgilerdir. Bu yönüyle web deki bilgiler tamamen, anlamlı ve işe yarayan bilgiler değildir. Bu büyük düzensiz verilerden anlamlı bilgilerin elde edilebilmesi için, günümüze kadar değişik metotlar denenmiştir. Web İçerik Madenciliği, World Wide Web deki bütün dokümanları (metin, resim, ses, görüntü v.s.) inceleyerek, bu dokümanların içerikleri arasındaki ilişkisel benzerlikleri ve farklılıkları ortaya çıkaran bir metottur. Böylece birbiriyle gerçek anlamda ilişkili ve aynı konuda olan sayfalar, kendi içinde sınıflandırılabilir. Sayfaların içeriği analiz edilir ve sayfanın temeline inilerek gerçekte sayfanın hangi konuyu içerdiğine bakılır. Bu çalışmada, web ortamları için, Google arama motoru bütünleşik, bir konu sınıflandırma sistemi geliştirilmiştir. Böylece, arama motorunun bulduğu sayfalar belirlenen yatay ve dikey arama derinliklerine kadar indirilmiş ve belirli ölçütler çerçevesinde analiz edilmişlerdir. Yapılan analiz sonucunda sayfanın gerçekte hangi konu ile ilgili olduğu tahmin edilmiştir. Yapılan bu tahminlerin, web ortamında, kullanıcıların aradığı bilgilere daha kestirme ulaşmasına yardımcı olacağı düşünülmektedir. |
Topics | • Veri Madenciligi |
Comments | |
Paper | 45.doc (94KB) |