- Fırat Üniversitesi Mühendislik Bilimleri Dergisi
- Volume:33 Issue:2
- Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti
Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti
Authors : İlhami SEL, Davut HANBAY
Pages : 675-684
Doi:10.35234/fumbd.929133
View : 41 | Download : 9
Publication Date : 2021-09-15
Article Type : Research Paper
Abstract :Yazar profili oluşturma (Author Profiling) bir metnin üslup ve içeriğine bakarak yazarın çeşitli özelliklerinin ortaya çıkarılmasına yönelik bir metin kümesi analizidir. Bu özellikler yaş, cinsiyet, kişilik özellikleri ve hatta meslek gibi unsurları barındırır. Cinsiyet belirleme yazar profili oluşturma çalışmalarının alt alanlarından birisidir. Siber suçlar başta olmak üzere sahte haber yayma gibi adli olayların yanında pazarlama (reklamcılık), sosyolojik ve psikolojik olayların incelenmesinde cinsiyet belirleme oldukça önemlidir. Twitter gönderileri dil kurallarına uymayan, kısaltılmış kelimeler ve anlamsız cümle yapıları da içerme ihtimallerine rağmen cinsiyet belirleme görevi için yaygın bir şekilde kullanılmaktadır. Bu çalışmada Türkçe Twitter gönderilerinden cinsiyet tespiti yapılmaya çalışılmıştır. Problem bir sınıflandırma görevi olarak ele alınmıştır. Yapılan çalışmada makine öğrenmesi metotları(TF-IDF + SVM), derin öğrenme yöntemleri (LSTM, CNN) ve Türkçe için ön eğitimli dil modelleri(BERT, DistilBert, Electra) kullanılmıştır. Yapılan deneyler sonucunda en yüksek başarımı (%80.1) kelime boyutunun 128k olduğu Bert modeli sağlamıştır. Bu çalışma diğer metin sınıflandırma görevleri için de detaylı bir çalışma olma özelliği göstermektedir.Keywords : Yazar profili oluşturma, cinsiyet tespiti, doğal dil işleme, dil modelleri, metin sınıflandırma
ORIGINAL ARTICLE URL
