- Çukurova Üniversitesi Mühendislik Fakültesi Dergisi
- Cilt: 40 Sayı: 3
- Tıbbi Akıl Yürütme için Gemma 3 Modellerinin CoT Destekli SFT ve GRPO ile İncelenmesi
Tıbbi Akıl Yürütme için Gemma 3 Modellerinin CoT Destekli SFT ve GRPO ile İncelenmesi
Authors : İsmail İşeri, Alper Yıldırım, Alihan Öztorun, Tuğba Tuna, Arda Turan
Pages : 593-606
Doi:10.21605/cukurovaumfd.1755684
View : 61 | Download : 49
Publication Date : 2025-09-26
Article Type : Research Paper
Abstract :Bu çalışmada, Gemma 3 1B ve Gemma 4B büyük dil modellerinin tıbbi alandaki karmaşık akıl yürütme yeteneklerinin geliştirilmesi ve değerlendirilmesi amaçlanmıştır. Bu kapsamda, SFT (Gözetimli İnce Ayar) ve GRPO (Grup Göreli Politika Optimizasyonu) gibi eğitim stratejilerinin Gemma 3 1B ve Gemma 4B modelleri üzerindeki performansı incelenmiştir. Temel modellerin değerlendirilmesi sürecinde, SFT ile Düşünce Zinciri (CoT) formatının öğretilmesi ve GRPO ile akıl yürütmenin rafine edilmesi adımlarını içeren çok aşamalı bir yaklaşım izlenmiştir. GPT-4.1 hakem modeliyle yapılan değerlendirmeler sonucunda, model performansının belirgin şekilde artırıldığı gösterilmiştir. SFT ve GRPO eğitimleriyle modelin mantıksal olarak tutarlı bir akıl yürütme süreci oluşturma becerisinin (Mantık Yürütme Doğruluğu’nun %26’dan %31’e yükseltilmesiyle) başarıyla geliştirildiği ortaya konmuştur. Bu durum, modelin cevapları ezberlemek yerine nasıl düşüneceğinin öğrenildiğini kanıtlamaktadır.Keywords : Büyük Dil Modelleri (LLM), Tıbbi Akıl Yürütme, Düşünce Zinciri (CoT), Grup Göreli Politika Optimizasyonu (GRPO)
ORIGINAL ARTICLE URL
