state-spaces/mamba-130m-hf üzerine Türkçe continued pretraining. ~400MB Türkçe metin, ~80-120M token ile eğitildi. Hafif ve hızlı — fine-tuning için ideal başlangıç noktası.
130M'nin büyük kardeşi. Embedding uyumsuzluk sorunu bu modelde çözüldü. Türkçe akıcılık ve gramer tarafı güçlü — mantıksal tutarlılık için dataset iyileştirmeleri devam ediyor.
Takımın amiral gemisi. Jamba2 mimarisi SSM ve Attention katmanlarını birleştiriyor — hem uzun bağlam hem de güçlü anlama yeteneği. 3B parametre ile Türkçe'nin en büyük SSM tabanlı modeli.
LinguAI'ın ilk modeli. Amacımız Türkçe'de SSM mimarisinin nasıl çalıştığını görmekti. Base model olarak State Spaces'ın Mamba 130M'ini seçtik — küçük, hızlı ve RTX 4060 Laptop'ta eğitilebilir.
~400MB web scraping ile toplanan Türkçe metin üzerinde continued pretraining yaptık. Model Türkçe token'ları öğrendi ama embedding katmanında uyumsuzluk sorunu tespit ettik.
⚠ Bilinen sorun: Embedding uyumsuzluğu — 370M'de çözüldü.
130M'deki embedding sorununu analiz ettikten sonra 370M modeline geçtik. Bu sefer embedding katmanını düzeltip yeniden eğittik — Türkçe akıcılık dramatik şekilde arttı.
CPU testlerinde 1.15 tok/s hızla çalışıyor. Türkçe doğruluk skoru 4.0/5'e ulaştı, ancak konu uygunluğu ve mantıksal tutarlılık hâlâ düşük — model tekrar sorunları yaşıyor.
Gramer güçlü ama reasoning zayıf — bu bizi hybrid mimariye (Jamba) yönlendirdi.
Pure SSM'in reasoning sınırlamalarını gördükten sonra AI21 Labs'ın Jamba mimarisine yöneldik — SSM ve Attention katmanlarını interleave eden hybrid bir yaklaşım.
Sonuçlar etkileyici: Mamba 370M'ye göre %83 daha hızlı inference, %46 daha kısa yanıt süresi. Konu uygunluğu 1.3'ten 3.0'a, Türkçe doğruluk 4.7/5'e çıktı.
256K context window ile uzun doküman analizi mümkün. BF16 hassasiyet ile bellek verimliliği sağlandı. Hâlâ tekrar sorunu var ama pure SSM'e göre ciddi ilerleme.
Bir sonraki adım: Bu model üzerine derin düşünme (reasoning) ve instruction-following yetenekleri eklenmesi planlanıyor.