Paper 195

Generated: Tue Feb 28 17:21:17 2006

prev (194) overview next (196)

195 - TitleTÜRKÇE OTOMATİK HECELEME SİSTEMİ VE HECE İSTATİSTİKLERİ
AuthorsRıfat AŞLIYAN, Adnan Menderes Üniversitesi
Korhan GÜNEL, Adnan Menderes Üniversitesi
Ali FİLİZ, Adnan Menderes Üniversitesi
PC MemberNo
Contact personRıfat AŞLIYAN, rasliyan_at_yahoo.com, 05058025390
Main Fields22. Akıllı Sistemler ve Uygulamaları
26. İşaret İşleme
Other Main FieldsDoğal Dil İşleme
Abstract + KeywordsÖZET

Bir dildeki sözcüklerin hecelenmesi işlemi, Doğal Dil İşleme’nin önemli konularındandır. Bu çalışmada, Türkçe sözcükleri heceleyen bir algoritma geliştirilmiştir. Önerilen algoritma MATLAB kullanılarak beş farklı Türkçe külliyat üzerinde test edilmiştir. Test sonuçlarına göre her bir külliyatın ilk 2000 sözcüğü için algoritmanın hatalı heceleme oranının yaklaşık %0 olduğu gözlemlenmiştir. Çalışmanın sonraki adımında istatistiksel n-gram dil modelleri kullanılarak, Türkçe hece istatistiği çıkartılmıştır. Her bir hecenin n-gram frekansları ile hece uzunlukları hesaplatılmıştır ve Türkçe’deki ortalama hece uzunluğu tespit edilmiştir.

ABSTRACT

One of the subjects of Natural Language Processing is to spell out the words by syllables. In this study, firstly, Turkish Automatic Spelling Algorithm is developed for spelling of Turkish words. The algorithm is implemented with Matlab and tested over 5 different corpora. The results show that the algorithm's error rate is 0% for the first 2000 Turkish words in each corpus. Then we calculate the total number of syllables and the number of syllables in Turkish for each corpus. The frequency of each syllable is analyzed. The syllable length distribution over each corpus and the average syllable length are determined.

Anahtar Kelimeler: Türkçe heceleme sistemi, istatistiksel dil modelleri, n-gram, n-gram dil modeli, hece uzunlukları
RemarksBildirinin kabülü halinde, yazarların ilk gün üniversitelerindeki görevlerinden dolayı sunumun ikinci veya üçüncü gününe yerleştirilmesi rica olunur.

prev (194) overview next (196)

CyberChair Author: Richard van de Stadt  (Borbala Online Conference Services) Development supported by TRESE Copyright © by University of Twente