IAD Index of Academic Documents
  • Home Page
  • About
    • About Izmir Academy Association
    • About IAD Index
    • IAD Team
    • IAD Logos and Links
    • Policies
    • Contact
  • Submit A Journal
  • Submit A Conference
  • Submit Paper/Book
    • Submit a Preprint
    • Submit a Book
  • Contact
  • İstanbul Ticaret Üniversitesi Teknoloji ve Uygulamalı Bilimler Dergisi
  • Volume:2 Issue:1
  • METİN MADENCİLİĞİ KULLANARAK İNGİLİZCE DOKÜMAN SINIFLAMA

METİN MADENCİLİĞİ KULLANARAK İNGİLİZCE DOKÜMAN SINIFLAMA

Authors : Ahmet Görkem ÖZDOĞAN, Metin TURAN
Pages : 37-46
View : 42 | Download : 19
Publication Date : 2019-07-01
Article Type : Research Paper
Abstract :Günümüzde metin tabanlı dokümanların sınıflandırılması özellikle kurumsal yazışmaların ve dijital dokümantasyonun çok yapıldığı durumlarda ciddi öneme sahiptir. Metin yığınlarından benzer olanları sınıflandırma üretkenliği arttıran bir faktördür. Bu makalede tema ve alt kavramı tespit edilmiş dokümanlarda benzerliğin tespiti ile ilgili bir model önerilmiş ve deneysel bulgular değerlendirilmiştir. Dokümanlarda tema ve alt kavramların tespiti için kullanılabilecek anlamlı sözcüklerin belirlenmesi amacıyla Helmholtz prensibi temelli Gestalt teorisi kullanılmıştır. Sınama doküman veri seti spor ve eğitim temalarında olup, toplam 14 alt kavram belirlenmiştir.Daha sonra doküman kümesinden rastgele seçilen dokümanların birbirlerine olan benzerlikleri hesaplanmıştır. Önceden belirlenmiş sınıflara sahip dokümanlar için Kosinüs, Jaccard ve PMI benzerlik ölçütleri karşılaştırılmıştır. Benzerlik oranı toplam doküman benzerlikleri ortalama değerin üzerinde olan dokümanların tümü baz alındığında Kosinüs benzerlik ölçütü %75, Jaccard Indeks’i %40, PMI benzerlik ölçütü ise %55 başarı sağlamıştır. Buna rağmen doğruluk değerleri baz alındığında Kosinüs benzerlik ölçütü %80, Jaccard Indeks’i %65 ve aynı şekilde PMI benzerlik ölçütü de %65 başarı sağlamıştır. Her bir dokümanın benzerlik katsayılarının ortalamaları baz alınarak yapılan sınıflama ise anlamlı kelimelerin yüzdelik değerlerine göre farklı başarımlar elde edilmiştir. Bu bakımdan PMI benzerlik ölçütü anlamlı kelime dağılımlarına adaptif bir yaklaşım sergiler iken Kosinüs benzerlik ölçütünde ve Jaccard Indeks’inde herhangi bir iyileşme gözlemlenmemiştir
Keywords : Metin sınıflandırma, noktasal karşılıklı bilgi, helmholtz prensibi, benzerlik metrikleri, kosinüs benzerlik ölçütü, noktasal ortak bilgi benzerlik ölçütü, jaccard benzerlik ölçütü

ORIGINAL ARTICLE URL

* There may have been changes in the journal, article,conference, book, preprint etc. informations. Therefore, it would be appropriate to follow the information on the official page of the source. The information here is shared for informational purposes. IAD is not responsible for incorrect or missing information.


Index of Academic Documents
İzmir Academy Association
CopyRight © 2023-2026