PDF Aç ↗
arXiv - Dec 2023

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Selective SSM ile lineer zamanda dizi modelleme. Transformer'dan 5x hızlı inference, milyon uzunluğunda dizilerde performans.

Albert Gu, Tri DaoSSM
PDF Aç ↗
ICML 2024

Transformers are SSMs: Generalized Models and Efficient Algorithms (Mamba-2)

State Space Duality çerçevesi — SSM ve Attention arasındaki bağlantı. 2-8x daha hızlı Mamba-2 algoritması.

Tri Dao, Albert GuSSM
PDF Aç ↗
arXiv - Mar 2026

Mamba-3: Improved Sequence Modeling using State Space Principles

Mamba serisinin en yeni üyesi. Structured State Space Duality üzerine geliştirilmiş dizi modelleme iyileştirmeleri.

Lahoti, Li, Chen et al.SSM
PDF Aç ↗
arXiv - Aug 2024

Jamba: A Hybrid Transformer-Mamba Language Model

Transformer ve Mamba katmanlarını birleştiren hybrid mimari. Uzun bağlam + güçlü reasoning bir arada.

AI21 LabsHybrid
PDF Aç ↗
NeurIPS 2017

Attention Is All You Need

Transformer mimarisinin temeli. Self-attention mekanizması ve modern dil modellerinin başlangıç noktası.

Vaswani et al.Transformer
PDF Aç ↗
arXiv - May 2023

QLoRA: Efficient Finetuning of Quantized Language Models

4-bit quantization ile bellek verimli fine-tuning. Küçük GPU'larda büyük model eğitiminin kapısını açan çalışma.

Dettmers et al.Fine-tuning
PDF Aç ↗
ICLR 2022

LoRA: Low-Rank Adaptation of Large Language Models

Düşük rank matris ayrışımı ile parametre verimli fine-tuning. Büyük modelleri küçük kaynaklarla adapte etmenin standardı.

Hu et al.Fine-tuning
PDF Aç ↗
NeurIPS 2022

Training Language Models to Follow Instructions with Human Feedback (InstructGPT)

RLHF ile instruction following. SFT + reward modeling + PPO pipeline'ının temel referansı.

Ouyang et al.Alignment
PDF Aç ↗
arXiv - Jan 2024

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Derin düşünme ve çok adımlı muhakeme yeteneği. RL ile reasoning capacity artırma — deep thinking modellerinin referansı.

DeepSeek AIReasoning
PDF Aç ↗
ICLR 2023

Scaling Data-Constrained Language Models

Sınırlı veri ile dil modeli ölçekleme stratejileri. Tekrarlı eğitim, veri kalitesi ve küçük dil kaynakları için kritik rehber.

Muennighoff et al.Scaling
PDF Aç ↗
arXiv - Jul 2023

Llama 2: Open Foundation and Fine-Tuned Chat Models

Meta'nın açık kaynak LLM serisi. Pretraining, fine-tuning ve safety alignment süreçlerinin detaylı dokümantasyonu.

Touvron et al.Alignment
PDF Aç ↗
arXiv - Jan 2020

Scaling Laws for Neural Language Models

Model boyutu, veri miktarı ve compute arasındaki ölçekleme yasaları. Kaynakları verimli kullanmanın teorik temeli.

Kaplan et al.Scaling
PDF Aç ↗
NeurIPS 2023

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Reward model olmadan doğrudan tercih verisiyle politika optimizasyonu. PPO'ya alternatif olarak SFT pipeline'ına entegre edilebilen alignment yöntemi.

Rafailov, Sharma, Mitchell et al.SFT
PDF Aç ↗
arXiv - Feb 2024

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

GRPO yöntemi ile matematik reasoning'de çığır açan çalışma. SFT, RFT, DPO ve GRPO karşılaştırması.

Shao et al. (DeepSeek)SFT
PDF Aç ↗
arXiv - Aug 2023

Reinforced Self-Training (ReST) for Language Modeling

Kendi ürettiği çıktılarla iteratif self-training. Reward filtreli rejection sampling ile SFT kalitesini artırma yöntemi.

Gulcehre et al. (Google DeepMind)SFT
PDF Aç ↗
arXiv - Jan 2024

Self-Rewarding Language Models

Modelin kendi çıktılarını değerlendirip ödüllendirmesi. İnsan geri bildirimi olmadan iteratif SFT iyileştirme — self-play fine-tuning.

Yuan et al. (Meta AI)SFT
PDF Aç ↗
NeurIPS 2024

Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration

SFT verisinden ek reward sinyali çıkarma. İnsan demo verisini hem SFT hem reward öğrenimi için kullanarak alignment kalitesini artırma.

Li, Zeng et al.SFT
PDF Aç ↗
arXiv - Oct 2024

UFT: Unifying Fine-Tuning of SFT and RLHF/DPO through a Generalized Implicit Reward

SFT ve alignment'ı tek aşamada birleştiren Unified Fine-Tuning. Catastrophic forgetting sorununa çözüm — implicit reward fonksiyonu.

Wang et al.SFT
PDF Aç ↗
arXiv - Jul 2017

Proximal Policy Optimization Algorithms (PPO)

RLHF'nin temel optimizasyon algoritması. Clipped surrogate objective ile stabil politika güncelleme — tüm modern alignment pipeline'larının bel kemiği.

Schulman et al. (OpenAI)SFT
PDF Aç ↗
ICLR 2024

LIMA: Less Is More for Alignment

Sadece 1,000 yüksek kaliteli örnekle SFT yaparak güçlü alignment. Veri kalitesinin veri miktarından çok daha önemli olduğunu kanıtlayan çalışma.

Zhou et al. (Meta AI)SFT
PDF Aç ↗
arXiv - Jan 2025

s1: Simple Test-Time Scaling (Budget Forcing)

Sadece 1K kaliteli reasoning trace ile SFT yapıp test-time'da "Wait" token'ları ile düşünme süresini uzatma. Minimal veri, maksimum reasoning.

Muennighoff et al.SFT
PDF Aç ↗
arXiv - May 2024

Intuitive Fine-Tuning: Towards Unifying SFT and RLHF into a Single Process

SFT ve RLHF'yi tek bir eğitim sürecinde birleştiren IFT yöntemi. Pairwise veri ihtiyacını ortadan kaldırarak basitleştirilmiş alignment.

Luo et al.SFT
PDF Aç ↗
ICLR 2015

Adam: A Method for Stochastic Optimization

Neredeyse her deep learning projesinde kullanılan optimizer. Momentum + adaptive learning rate birleşimi.

Kingma, BaKlasik
PDF Aç ↗
NeurIPS 2017

Attention Is All You Need

Modern AI'ın temel taşı. Self-attention mekanizması ve Transformer mimarisi. GPT, BERT, LLaMA — hepsi buradan doğdu.

Vaswani et al. (Google)Klasik
PDF Aç ↗
NAACL 2019

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Transfer learning'i NLP'ye taşıyan çalışma. Masked language modeling + next sentence prediction.

Devlin et al. (Google)Klasik
PDF Aç ↗
NeurIPS 2020

Language Models are Few-Shot Learners (GPT-3)

175B parametre ile in-context learning'in keşfi. Prompt engineering kavramının doğuşu.

Brown et al. (OpenAI)Klasik
PDF Aç ↗
NeurIPS 2014

Generative Adversarial Networks (GANs)

İki sinir ağının yarışarak öğrenmesi — generatif AI'ın temeli.

Goodfellow et al.Klasik
PDF Aç ↗
CVPR 2016

Deep Residual Learning for Image Recognition (ResNet)

Skip connection ile derin ağları eğitilebilir kılan çalışma. 152 katmanlı ağ.

He et al. (Microsoft)Klasik
PDF Aç ↗
ICLR 2013

Efficient Estimation of Word Representations in Vector Space (Word2Vec)

"King - Man + Woman = Queen" — kelime vektörlerinin gücünü dünyaya gösteren çalışma.

Mikolov et al. (Google)Klasik
PDF Aç ↗
NeurIPS 2020

Denoising Diffusion Probabilistic Models (DDPM)

Stable Diffusion, DALL-E, Midjourney — hepsinin arkasındaki teori. Gürültüden görüntü üretme.

Ho, Jain, AbbeelKlasik
PDF Aç ↗
ICML 2015

Batch Normalization: Accelerating Deep Network Training

Eğitimi hızlandıran ve stabilize eden teknik. Internal covariate shift sorununa çözüm.

Ioffe, Szegedy (Google)Klasik
PDF Aç ↗
ICLR 2015

Very Deep Convolutional Networks for Large-Scale Image Recognition (VGGNet)

"Daha derin = daha iyi" ilkesini kanıtlayan çalışma. 16-19 katmanlı ağ.

Simonyan, Zisserman (Oxford)Klasik
PDF Aç ↗
arXiv - Mar 2023

GPT-4 Technical Report

Multimodal büyük dil modeli. Görüntü + metin anlama, bar exam'ı geçebilen reasoning.

OpenAIDevrim
PDF Aç ↗
arXiv - Jul 2024

The Llama 3 Herd of Models

Meta'nın 405B'ye kadar açık kaynak model ailesi. Tüm pipeline detayları.

Grattafiori et al. (Meta)Devrim
PDF Aç ↗
arXiv - Dec 2024

DeepSeek-V3 Technical Report

671B parametre MoE modeli, sadece $5.6M eğitim maliyeti ile GPT-4o seviyesinde performans.

DeepSeek AIDevrim
PDF Aç ↗
arXiv - Jan 2025

DeepSeek-R1: Incentivizing Reasoning Capability via RL

O1'e rakip açık kaynak reasoning modeli. RL ile ortaya çıkan chain-of-thought.

DeepSeek AIDevrim
PDF Aç ↗
arXiv - Aug 2024

Scaling LLM Test-Time Compute Optimally

Daha büyük model yerine daha fazla düşünme süresi. O1/R1'in teorik temeli.

Snell et al. (Google DeepMind)Devrim
PDF Aç ↗
NeurIPS 2022

Training Compute-Optimal Large Language Models (Chinchilla)

Scaling laws'u yeniden tanımlayan çalışma. LLM eğitim stratejisini kökten değiştirdi.

Hoffmann et al. (DeepMind)Devrim
PDF Aç ↗
NeurIPS 2023

LLaMA: Open and Efficient Foundation Language Models

Meta'nın açık kaynak LLM devrimini başlatan çalışma. Açık kaynak AI ekosisteminin Big Bang'i.

Touvron et al. (Meta)Devrim
PDF Aç ↗
arXiv - Jul 2023

Llama 2: Open Foundation and Fine-Tuned Chat Models

SFT + RLHF pipeline'ının en detaylı açık dokümantasyonu.

Touvron et al. (Meta)Devrim
PDF Aç ↗
arXiv - May 2025

Qwen3 Technical Report

0.6B'den 235B'ye 8 model, thinking/non-thinking dual mod. 119 dil desteği, 36T token.

Qwen Team (Alibaba)Devrim
PDF Aç ↗
NeurIPS 2022

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

"Adım adım düşünelim" ifadesinin gücünü keşfeden çalışma. Tüm thinking modellerin ilham kaynağı.

Wei et al. (Google)Devrim