🟢 RELEASED

Mamba 130M Turkish

State Space Model · Selective SSM

state-spaces/mamba-130m-hf üzerine Türkçe continued pretraining. ~400MB Türkçe metin, ~80-120M token ile eğitildi. Hafif ve hızlı — fine-tuning için ideal başlangıç noktası.

Parametre130M
TensorF32
DonanımRTX 4060 Laptop
LisansApache 2.0
HuggingFace'de Görüntüle →
🟢 RELEASED

Mamba 370M Turkish

State Space Model · Selective SSM

130M'nin büyük kardeşi. Embedding uyumsuzluk sorunu bu modelde çözüldü. Türkçe akıcılık ve gramer tarafı güçlü — mantıksal tutarlılık için dataset iyileştirmeleri devam ediyor.

Parametre370M
TensorF32
DurumEmbedding fix ✓
LisansApache 2.0
HuggingFace'de Görüntüle →
⚡ FLAGSHIP

Jamba2 3B Turkish

Hybrid SSM + Attention · Jamba Architecture

Takımın amiral gemisi. Jamba2 mimarisi SSM ve Attention katmanlarını birleştiriyor — hem uzun bağlam hem de güçlü anlama yeteneği. 3B parametre ile Türkçe'nin en büyük SSM tabanlı modeli.

Parametre3B
TensorBF16
MimariSSM + Attention
LisansApache 2.0
HuggingFace'de Görüntüle →
🔁
Mamba 130M Turkish
State Space Model · Selective SSM · Continued Pretraining
İlk Türkçe Mamba modeli. state-spaces/mamba-130m-hf base modeli üzerine ~400MB Türkçe metin ile CPT uygulandı. Fine-tuning denemeleri ve SSM araştırmaları için hafif başlangıç noktası.
✓ Released
Teknik Özellikler
Parametre130M
MimariSelective SSM (Mamba)
Context Window2K
HassasiyetF32
Eğitim DonanımıRTX 4060 Laptop
Eğitim Verisi~400MB Türkçe metin
InferenceLineer O(n)
LisansApache 2.0
Geliştirme Hikayesi

LinguAI'ın ilk modeli. Amacımız Türkçe'de SSM mimarisinin nasıl çalıştığını görmekti. Base model olarak State Spaces'ın Mamba 130M'ini seçtik — küçük, hızlı ve RTX 4060 Laptop'ta eğitilebilir.

~400MB web scraping ile toplanan Türkçe metin üzerinde continued pretraining yaptık. Model Türkçe token'ları öğrendi ama embedding katmanında uyumsuzluk sorunu tespit ettik.

⚠ Bilinen sorun: Embedding uyumsuzluğu — 370M'de çözüldü.

🔁
Mamba 370M Turkish
State Space Model · Selective SSM · Embedding Fix
130M'nin büyük kardeşi. Embedding uyumsuzluk sorunu bu modelde tespit edilip çözüldü. Türkçe akıcılık ve gramer kalitesi belirgin şekilde arttı.
✓ Released
Teknik Özellikler
Parametre371.5M
MimariSelective SSM (Mamba)
Context Window2K
HassasiyetF32
Eğitim DonanımıRTX 4060 Laptop
CPU Hızı1.15 tok/s
RAM Kullanımı2,529 MB
Kalite Skoru1.9 / 5
LisansApache 2.0
Geliştirme Hikayesi

130M'deki embedding sorununu analiz ettikten sonra 370M modeline geçtik. Bu sefer embedding katmanını düzeltip yeniden eğittik — Türkçe akıcılık dramatik şekilde arttı.

CPU testlerinde 1.15 tok/s hızla çalışıyor. Türkçe doğruluk skoru 4.0/5'e ulaştı, ancak konu uygunluğu ve mantıksal tutarlılık hâlâ düşük — model tekrar sorunları yaşıyor.

Gramer güçlü ama reasoning zayıf — bu bizi hybrid mimariye (Jamba) yönlendirdi.

Jamba2 3B Turkish — Flagship
Hybrid SSM + Attention · Jamba Architecture · BF16
Takımın amiral gemisi. SSM'nin lineer inference hızı ile Attention'ın güçlü anlama yeteneğini birleştiren hybrid mimari. 3B parametre ile Türkçe'nin en büyük SSM tabanlı açık kaynak modeli.
✓ Released
Teknik Özellikler
Parametre3,039.8M (3B)
MimariHybrid SSM + Attention
Context Window256K
HassasiyetBF16
CPU Hızı2.11 tok/s (+83% vs 370M)
Yanıt Süresi28.6s (-46% vs 370M)
RAM Kullanımı14,216 MB
Kalite Skoru2.9 / 5
Türkçe Doğruluk4.7 / 5
LisansApache 2.0
Geliştirme Hikayesi

Pure SSM'in reasoning sınırlamalarını gördükten sonra AI21 Labs'ın Jamba mimarisine yöneldik — SSM ve Attention katmanlarını interleave eden hybrid bir yaklaşım.

Sonuçlar etkileyici: Mamba 370M'ye göre %83 daha hızlı inference, %46 daha kısa yanıt süresi. Konu uygunluğu 1.3'ten 3.0'a, Türkçe doğruluk 4.7/5'e çıktı.

256K context window ile uzun doküman analizi mümkün. BF16 hassasiyet ile bellek verimliliği sağlandı. Hâlâ tekrar sorunu var ama pure SSM'e göre ciddi ilerleme.

Bir sonraki adım: Bu model üzerine derin düşünme (reasoning) ve instruction-following yetenekleri eklenmesi planlanıyor.

🧠
Derin Düşünme LLM — 3B
Transformer · Reasoning · Chain-of-Thought
SSM mimarilerinin yanı sıra Transformer tabanlı derin düşünme modeli geliştiriyoruz. DeepSeek-R1 tarzı çok adımlı muhakeme, zincir düşünce ve karmaşık problem çözme yetenekleri hedefleniyor.
◉ Geliştiriliyor
📐
Matematik & Fizik — SFT
LLM · Supervised Fine-Tuning · Reasoning Benchmarks
Derin düşünme modelini matematik ve fizik alanında fine-tune edeceğiz. GSM8K ve MATH benchmark'larında rekabetçi sonuçlar, Türkçe akademik problem çözme yeteneği.
○ Planlanan