Selective SSM ile lineer zamanda dizi modelleme. Transformer'dan 5x hızlı inference, milyon uzunluğunda dizilerde performans.
PDF Aç ↗State Space Duality çerçevesi — SSM ve Attention arasındaki bağlantı. 2-8x daha hızlı Mamba-2 algoritması.
PDF Aç ↗Mamba serisinin en yeni üyesi. Structured State Space Duality üzerine geliştirilmiş dizi modelleme iyileştirmeleri.
PDF Aç ↗Transformer ve Mamba katmanlarını birleştiren hybrid mimari. Uzun bağlam + güçlü reasoning bir arada.
PDF Aç ↗Transformer mimarisinin temeli. Self-attention mekanizması ve modern dil modellerinin başlangıç noktası.
PDF Aç ↗4-bit quantization ile bellek verimli fine-tuning. Küçük GPU'larda büyük model eğitiminin kapısını açan çalışma.
PDF Aç ↗Düşük rank matris ayrışımı ile parametre verimli fine-tuning. Büyük modelleri küçük kaynaklarla adapte etmenin standardı.
PDF Aç ↗RLHF ile instruction following. SFT + reward modeling + PPO pipeline'ının temel referansı.
PDF Aç ↗Derin düşünme ve çok adımlı muhakeme yeteneği. RL ile reasoning capacity artırma — deep thinking modellerinin referansı.
PDF Aç ↗Sınırlı veri ile dil modeli ölçekleme stratejileri. Tekrarlı eğitim, veri kalitesi ve küçük dil kaynakları için kritik rehber.
PDF Aç ↗Meta'nın açık kaynak LLM serisi. Pretraining, fine-tuning ve safety alignment süreçlerinin detaylı dokümantasyonu.
PDF Aç ↗Model boyutu, veri miktarı ve compute arasındaki ölçekleme yasaları. Kaynakları verimli kullanmanın teorik temeli.
PDF Aç ↗Reward model olmadan doğrudan tercih verisiyle politika optimizasyonu. PPO'ya alternatif olarak SFT pipeline'ına entegre edilebilen alignment yöntemi.
PDF Aç ↗GRPO yöntemi ile matematik reasoning'de çığır açan çalışma. SFT, RFT, DPO ve GRPO karşılaştırması.
PDF Aç ↗Kendi ürettiği çıktılarla iteratif self-training. Reward filtreli rejection sampling ile SFT kalitesini artırma yöntemi.
PDF Aç ↗Modelin kendi çıktılarını değerlendirip ödüllendirmesi. İnsan geri bildirimi olmadan iteratif SFT iyileştirme — self-play fine-tuning.
PDF Aç ↗SFT verisinden ek reward sinyali çıkarma. İnsan demo verisini hem SFT hem reward öğrenimi için kullanarak alignment kalitesini artırma.
PDF Aç ↗SFT ve alignment'ı tek aşamada birleştiren Unified Fine-Tuning. Catastrophic forgetting sorununa çözüm — implicit reward fonksiyonu.
PDF Aç ↗RLHF'nin temel optimizasyon algoritması. Clipped surrogate objective ile stabil politika güncelleme — tüm modern alignment pipeline'larının bel kemiği.
PDF Aç ↗Sadece 1,000 yüksek kaliteli örnekle SFT yaparak güçlü alignment. Veri kalitesinin veri miktarından çok daha önemli olduğunu kanıtlayan çalışma.
PDF Aç ↗Sadece 1K kaliteli reasoning trace ile SFT yapıp test-time'da "Wait" token'ları ile düşünme süresini uzatma. Minimal veri, maksimum reasoning.
PDF Aç ↗SFT ve RLHF'yi tek bir eğitim sürecinde birleştiren IFT yöntemi. Pairwise veri ihtiyacını ortadan kaldırarak basitleştirilmiş alignment.
PDF Aç ↗Neredeyse her deep learning projesinde kullanılan optimizer. Momentum + adaptive learning rate birleşimi.
PDF Aç ↗Modern AI'ın temel taşı. Self-attention mekanizması ve Transformer mimarisi. GPT, BERT, LLaMA — hepsi buradan doğdu.
PDF Aç ↗Transfer learning'i NLP'ye taşıyan çalışma. Masked language modeling + next sentence prediction.
PDF Aç ↗175B parametre ile in-context learning'in keşfi. Prompt engineering kavramının doğuşu.
PDF Aç ↗İki sinir ağının yarışarak öğrenmesi — generatif AI'ın temeli.
PDF Aç ↗Skip connection ile derin ağları eğitilebilir kılan çalışma. 152 katmanlı ağ.
PDF Aç ↗"King - Man + Woman = Queen" — kelime vektörlerinin gücünü dünyaya gösteren çalışma.
PDF Aç ↗Stable Diffusion, DALL-E, Midjourney — hepsinin arkasındaki teori. Gürültüden görüntü üretme.
PDF Aç ↗Eğitimi hızlandıran ve stabilize eden teknik. Internal covariate shift sorununa çözüm.
PDF Aç ↗"Daha derin = daha iyi" ilkesini kanıtlayan çalışma. 16-19 katmanlı ağ.
PDF Aç ↗Multimodal büyük dil modeli. Görüntü + metin anlama, bar exam'ı geçebilen reasoning.
PDF Aç ↗Meta'nın 405B'ye kadar açık kaynak model ailesi. Tüm pipeline detayları.
PDF Aç ↗671B parametre MoE modeli, sadece $5.6M eğitim maliyeti ile GPT-4o seviyesinde performans.
PDF Aç ↗O1'e rakip açık kaynak reasoning modeli. RL ile ortaya çıkan chain-of-thought.
PDF Aç ↗Daha büyük model yerine daha fazla düşünme süresi. O1/R1'in teorik temeli.
PDF Aç ↗Scaling laws'u yeniden tanımlayan çalışma. LLM eğitim stratejisini kökten değiştirdi.
PDF Aç ↗Meta'nın açık kaynak LLM devrimini başlatan çalışma. Açık kaynak AI ekosisteminin Big Bang'i.
PDF Aç ↗SFT + RLHF pipeline'ının en detaylı açık dokümantasyonu.
PDF Aç ↗0.6B'den 235B'ye 8 model, thinking/non-thinking dual mod. 119 dil desteği, 36T token.
PDF Aç ↗"Adım adım düşünelim" ifadesinin gücünü keşfeden çalışma. Tüm thinking modellerin ilham kaynağı.