Tıbbi Akıl Yürütme için Gemma 3 Modellerinin CoT Destekli SFT ve GRPO ile İncelenmesi

Home Page
About
Submit A Journal
Submit A Conference
Submit Paper/Book
- Submit a Preprint
- Submit a Book
Contact

Çukurova Üniversitesi Mühendislik Fakültesi Dergisi
Cilt: 40 Sayı: 3
Tıbbi Akıl Yürütme için Gemma 3 Modellerinin CoT Destekli SFT ve GRPO ile İncelenmesi

Tıbbi Akıl Yürütme için Gemma 3 Modellerinin CoT Destekli SFT ve GRPO ile İncelenmesi

Authors : İsmail İşeri, Alper Yıldırım, Alihan Öztorun, Tuğba Tuna, Arda Turan

Pages : 593-606

Doi:10.21605/cukurovaumfd.1755684

View : 65 | Download : 49

Publication Date : 2025-09-26

Article Type : Research Paper

Abstract :Bu çalışmada, Gemma 3 1B ve Gemma 4B büyük dil modellerinin tıbbi alandaki karmaşık akıl yürütme yeteneklerinin geliştirilmesi ve değerlendirilmesi amaçlanmıştır. Bu kapsamda, SFT (Gözetimli İnce Ayar) ve GRPO (Grup Göreli Politika Optimizasyonu) gibi eğitim stratejilerinin Gemma 3 1B ve Gemma 4B modelleri üzerindeki performansı incelenmiştir. Temel modellerin değerlendirilmesi sürecinde, SFT ile Düşünce Zinciri (CoT) formatının öğretilmesi ve GRPO ile akıl yürütmenin rafine edilmesi adımlarını içeren çok aşamalı bir yaklaşım izlenmiştir. GPT-4.1 hakem modeliyle yapılan değerlendirmeler sonucunda, model performansının belirgin şekilde artırıldığı gösterilmiştir. SFT ve GRPO eğitimleriyle modelin mantıksal olarak tutarlı bir akıl yürütme süreci oluşturma becerisinin (Mantık Yürütme Doğruluğu’nun %26’dan %31’e yükseltilmesiyle) başarıyla geliştirildiği ortaya konmuştur. Bu durum, modelin cevapları ezberlemek yerine nasıl düşüneceğinin öğrenildiğini kanıtlamaktadır.
Keywords : Büyük Dil Modelleri (LLM), Tıbbi Akıl Yürütme, Düşünce Zinciri (CoT), Grup Göreli Politika Optimizasyonu (GRPO)

ORIGINAL ARTICLE URL

* There may have been changes in the journal, article,conference, book, preprint etc. informations. Therefore, it would be appropriate to follow the information on the official page of the source. The information here is shared for informational purposes. IAD is not responsible for incorrect or missing information.