- Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi
- Volume:13 Issue:2
- Türkçe İstenmeyen E-postaların Farklı Öznitelik Seçim Yöntemleri Kullanılarak Makine Öğrenmesi Algor...
Türkçe İstenmeyen E-postaların Farklı Öznitelik Seçim Yöntemleri Kullanılarak Makine Öğrenmesi Algoritmaları ile Tespit Edilmesi
Authors : Ersin Enes ERYILMAZ, Durmuş Özkan ŞAHİN, Erdal KILIÇ
Pages : 57-77
View : 34 | Download : 10
Publication Date : 2020-12-16
Article Type : Research Paper
Abstract :Elektronik postalar, kullanımının kolaylığı, maliyetlerinin ucuz olmasından dolayı propaganda, reklam, oltalama yapmak isteyen kişi veya topluluklar tarafından etkin bir biçimde kullanılmaktadır. Amaçlarını gerçekleştirmek isteyen kişi veya topluluklar hiç tanımadıkları e-posta hesaplarına gereksiz ve yaramaz postalar gönderirler. Bu postalar internet kullanıcılarına maddi ve manevi ciddi zararlar vermekte ayrıca internet trafiğini de meşgul etmektedirler. Yaramaz e-postalar alıcıya rızası dışında gönderilen ve genellikle kötü niyetli veya tanıtım amaçlı olan kişilerin başvurduğu bir yöntemdir. Bu çalışmada iki farklı Türkçe e-posta veri kümesi üzerinde yedi farklı makine öğrenmesi algoritması kullanılarak yaramaz e-postalar tespit edilmeye çalışılmıştır. Bu algoritmaları kullanmadan önce veri kümesi üzerinde ön işlem adımları gerçekleştirilmiştir. Daha sonrasında ise öznitelik çıkarımı ve öznitelik seçimi yapılmıştır. Öznitelik seçimleri sonrasında özellik vektörü oluşturarak makinenin anlayacağı formatta değerler elde edilmiştir. Özellik vektörü makine öğrenmesi algoritmaları ile test edilerek yaramaz e-posta filtreleme işlemiyle elde edilen başarım sonuçları değerlendirilmiştir. Metin sınıflandırma çalışmalarında sıkça kullanılan filtreleme tabanlı Ki-kare insert ignore into journalissuearticles values(CHI);, Bilgi Kazancı insert ignore into journalissuearticles values(IG);, Doküman Frekansı Eşikleme insert ignore into journalissuearticles values(DF);, Odds Oranı insert ignore into journalissuearticles values(OR); ve ACC öznitelik seçme yöntemleri kullanılmaktadır. İki Türkçe e-posta veri kümesi ile CHI, IG, ACC, OR, DF öznitelik seçme yöntemlerinin çeşitli makine öğrenmesi sınıflandırma algoritmaları üzerinde verdiği sonuçlar incelendiğinde en başarılı sonuç Ki-Kare öznitelik seçimi ile görülmüştür. “TurkishEmail” veri kümesi ile Destek Vektör Makinesi tabanlı SMO algoritması ve CHI öznitelik seçimi ile 0,985 F-ölçütü başarım sonucu elde edilmiştir. “TRHamSpamEmailv1.0” veri kümesi ile CHI öznitelik seçim yöntemi Rastgele Orman insert ignore into journalissuearticles values(RF); ve Naive Bayes insert ignore into journalissuearticles values(NB); algoritması ile 0,748 F-ölçütü başarıma ulaşmıştır. Herhangi bir öznitelik seçimi yapılmadan tüm özniteliklerin kullanılması ile elde edilen sınıflandırma başarıları da verilmiştir. Öznitelik seçimi yapılmadan “TurkishEmail” veri kümesi üzerinde RF algoritması ile başarım sonucu 0,514 F-ölçütü, “TRHamSpamEmailv1.0” veri kümesi üzerinde RF algoritması ile başarım sonucu 0,535 F-ölçütü olarak elde edilmiştir.Keywords : e posta sınıflandırma, öznitelik çıkarımı, özellik seçimi, istenmeyen e posta, spam filtreleme, makine öğrenmesi, Türkçe e posta sınıflandırma, Türkçe spam filtreleme, metin sınıflandırma
ORIGINAL ARTICLE URL
