Modeller — LinguAI

🟢 RELEASED

Mamba 130M Turkish

State Space Model · Selective SSM

state-spaces/mamba-130m-hf üzerine Türkçe continued pretraining. ~400MB Türkçe metin, ~80-120M token ile eğitildi. Hafif ve hızlı — fine-tuning için ideal başlangıç noktası.

Parametre130M

TensorF32

DonanımRTX 4060 Laptop

LisansApache 2.0

HuggingFace'de Görüntüle →

🟢 RELEASED

Mamba 370M Turkish

State Space Model · Selective SSM

130M'nin büyük kardeşi. Embedding uyumsuzluk sorunu bu modelde çözüldü. Türkçe akıcılık ve gramer tarafı güçlü — mantıksal tutarlılık için dataset iyileştirmeleri devam ediyor.

Parametre370M

TensorF32

DurumEmbedding fix ✓

LisansApache 2.0

HuggingFace'de Görüntüle →

⚡ FLAGSHIP

Jamba2 3B Turkish

Hybrid SSM + Attention · Jamba Architecture

Takımın amiral gemisi. Jamba2 mimarisi SSM ve Attention katmanlarını birleştiriyor — hem uzun bağlam hem de güçlü anlama yeteneği. 3B parametre ile Türkçe'nin en büyük SSM tabanlı modeli.

Parametre3B

TensorBF16

MimariSSM + Attention

LisansApache 2.0

HuggingFace'de Görüntüle →

🔁

Mamba 130M Turkish

State Space Model · Selective SSM · Continued Pretraining

İlk Türkçe Mamba modeli. state-spaces/mamba-130m-hf base modeli üzerine ~400MB Türkçe metin ile CPT uygulandı. Fine-tuning denemeleri ve SSM araştırmaları için hafif başlangıç noktası.

✓ Released

Teknik Özellikler

Parametre130M

MimariSelective SSM (Mamba)

Context Window2K

HassasiyetF32

Eğitim DonanımıRTX 4060 Laptop

Eğitim Verisi~400MB Türkçe metin

InferenceLineer O(n)

LisansApache 2.0

Geliştirme Hikayesi

LinguAI'ın ilk modeli. Amacımız Türkçe'de SSM mimarisinin nasıl çalıştığını görmekti. Base model olarak State Spaces'ın Mamba 130M'ini seçtik — küçük, hızlı ve RTX 4060 Laptop'ta eğitilebilir.

~400MB web scraping ile toplanan Türkçe metin üzerinde continued pretraining yaptık. Model Türkçe token'ları öğrendi ama embedding katmanında uyumsuzluk sorunu tespit ettik.

⚠ Bilinen sorun: Embedding uyumsuzluğu — 370M'de çözüldü.

↗ HuggingFace ↗ Base Model

🔁

Mamba 370M Turkish

State Space Model · Selective SSM · Embedding Fix

130M'nin büyük kardeşi. Embedding uyumsuzluk sorunu bu modelde tespit edilip çözüldü. Türkçe akıcılık ve gramer kalitesi belirgin şekilde arttı.

✓ Released

Teknik Özellikler

Parametre371.5M

MimariSelective SSM (Mamba)

Context Window2K

HassasiyetF32

Eğitim DonanımıRTX 4060 Laptop

CPU Hızı1.15 tok/s

RAM Kullanımı2,529 MB

Kalite Skoru1.9 / 5

LisansApache 2.0

Geliştirme Hikayesi

130M'deki embedding sorununu analiz ettikten sonra 370M modeline geçtik. Bu sefer embedding katmanını düzeltip yeniden eğittik — Türkçe akıcılık dramatik şekilde arttı.

CPU testlerinde 1.15 tok/s hızla çalışıyor. Türkçe doğruluk skoru 4.0/5'e ulaştı, ancak konu uygunluğu ve mantıksal tutarlılık hâlâ düşük — model tekrar sorunları yaşıyor.

Gramer güçlü ama reasoning zayıf — bu bizi hybrid mimariye (Jamba) yönlendirdi.

↗ HuggingFace ↗ Base Model

⚡

Jamba2 3B Turkish — Flagship

Hybrid SSM + Attention · Jamba Architecture · BF16

Takımın amiral gemisi. SSM'nin lineer inference hızı ile Attention'ın güçlü anlama yeteneğini birleştiren hybrid mimari. 3B parametre ile Türkçe'nin en büyük SSM tabanlı açık kaynak modeli.

✓ Released

Teknik Özellikler

Parametre3,039.8M (3B)

MimariHybrid SSM + Attention

Context Window256K

HassasiyetBF16

CPU Hızı2.11 tok/s (+83% vs 370M)

Yanıt Süresi28.6s (-46% vs 370M)

RAM Kullanımı14,216 MB

Kalite Skoru2.9 / 5

Türkçe Doğruluk4.7 / 5

LisansApache 2.0

Geliştirme Hikayesi

Pure SSM'in reasoning sınırlamalarını gördükten sonra AI21 Labs'ın Jamba mimarisine yöneldik — SSM ve Attention katmanlarını interleave eden hybrid bir yaklaşım.

Sonuçlar etkileyici: Mamba 370M'ye göre %83 daha hızlı inference, %46 daha kısa yanıt süresi. Konu uygunluğu 1.3'ten 3.0'a, Türkçe doğruluk 4.7/5'e çıktı.

256K context window ile uzun doküman analizi mümkün. BF16 hassasiyet ile bellek verimliliği sağlandı. Hâlâ tekrar sorunu var ama pure SSM'e göre ciddi ilerleme.

Bir sonraki adım: Bu model üzerine derin düşünme (reasoning) ve instruction-following yetenekleri eklenmesi planlanıyor.

↗ HuggingFace

🧠

Derin Düşünme LLM — 3B

Transformer · Reasoning · Chain-of-Thought

SSM mimarilerinin yanı sıra Transformer tabanlı derin düşünme modeli geliştiriyoruz. DeepSeek-R1 tarzı çok adımlı muhakeme, zincir düşünce ve karmaşık problem çözme yetenekleri hedefleniyor.

◉ Geliştiriliyor