- Uludağ Üniversitesi Mühendislik Fakültesi Dergisi
- Volume:27 Issue:1
- WEB PAGE CLASSIFICATION WITH DEEP LEARNING METHODS
WEB PAGE CLASSIFICATION WITH DEEP LEARNING METHODS
Authors : Mehmet Salih KURT, Eylem YÜCEL DEMİREL
Pages : 191-204
Doi:10.17482/uumfd.891038
View : 48 | Download : 18
Publication Date : 2022-04-30
Article Type : Research Paper
Abstract :Günümüzde bilgiye erişmek için internet ağı üzerinde milyonlarca web sitesi yaygın olarak kullanılmaktadır. Sayıları her geçen gün artan web sayfalarının daha etkin kullanılabilmesi için iyi bir şekilde kategorize edilmeleri önem kazanmıştır. Bu çalışmada, web sayfalarını yüksek doğrulukta sınıflandırabilen ikili ve çok sınıflı sınıflandırma modelleri oluşturulmuştur. Bu çalışmada, Açık Dizin Projesindeki insert ignore into journalissuearticles values(ODP); İngilizce web sayfalarının URL`leri ve kategorileri kullanıldı. Web sayfası metinleri URL bilgilerinden çekilerek eğitim veri kümesi oluşturuldu. Bildiğimiz kadarıyla bu, Türkçe için ilk kapsamlı web sayfası sınıflandırma veri setidir. Bu çalışmada, metin sınıflandırmada etkili olan Evrişimsel Sinir Ağı insert ignore into journalissuearticles values(CNN);, Uzun Kısa Süreli Bellek insert ignore into journalissuearticles values(LSTM); ve Geçitli Tekrarlayan Birim insert ignore into journalissuearticles values(GRU); derin öğrenme yöntemleri kullanılmıştır. Metin sınıflandırma çalışmalarında özellik çıkarımı için yaygın olarak kullanılan n-gram yaklaşımları yerine kelime temsilleri kullanılmıştır. Bu çalışmada derin öğrenme modelleri için hiperparametre optimizasyonu yapılmıştır. En iyi parametrelerle ikili ve çok sınıflı sınıflandırma modelleri oluşturulmuştur. İkili sınıflandırma modelleri başka bir çalışmanın sonuçlarıyla ve çok sınıflı sınıflandırma modelleri kendi aralarında karşılaştırılmıştır. Tüm modellerin performansları eğitim süreleri ve f1 puanları dikkate alınarak incelenmiştir.Keywords : Web Sayfası Sınıflandırma, Derin Öğrenme, CNN, LSTM, GRU
ORIGINAL ARTICLE URL
