Araştırma — LinguAI

Selective SSM ile lineer zamanda dizi modelleme. Transformer'dan 5x hızlı inference, milyon uzunluğunda dizilerde performans.

Albert Gu, Tri DaoSSM

PDF Aç ↗

ICML 2024

Transformers are SSMs: Generalized Models and Efficient Algorithms (Mamba-2)

State Space Duality çerçevesi — SSM ve Attention arasındaki bağlantı. 2-8x daha hızlı Mamba-2 algoritması.

Tri Dao, Albert GuSSM

PDF Aç ↗

arXiv - Mar 2026

Mamba-3: Improved Sequence Modeling using State Space Principles

Mamba serisinin en yeni üyesi. Structured State Space Duality üzerine geliştirilmiş dizi modelleme iyileştirmeleri.

Lahoti, Li, Chen et al.SSM

PDF Aç ↗

arXiv - Aug 2024

Jamba: A Hybrid Transformer-Mamba Language Model

Transformer ve Mamba katmanlarını birleştiren hybrid mimari. Uzun bağlam + güçlü reasoning bir arada.

AI21 LabsHybrid

PDF Aç ↗

NeurIPS 2017

Attention Is All You Need

Transformer mimarisinin temeli. Self-attention mekanizması ve modern dil modellerinin başlangıç noktası.

Vaswani et al.Transformer

PDF Aç ↗

arXiv - May 2023

QLoRA: Efficient Finetuning of Quantized Language Models

4-bit quantization ile bellek verimli fine-tuning. Küçük GPU'larda büyük model eğitiminin kapısını açan çalışma.

Dettmers et al.Fine-tuning

PDF Aç ↗

ICLR 2022

LoRA: Low-Rank Adaptation of Large Language Models

Düşük rank matris ayrışımı ile parametre verimli fine-tuning. Büyük modelleri küçük kaynaklarla adapte etmenin standardı.

Hu et al.Fine-tuning

PDF Aç ↗

NeurIPS 2022

Training Language Models to Follow Instructions with Human Feedback (InstructGPT)

RLHF ile instruction following. SFT + reward modeling + PPO pipeline'ının temel referansı.

Ouyang et al.Alignment

PDF Aç ↗

arXiv - Jan 2024

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Derin düşünme ve çok adımlı muhakeme yeteneği. RL ile reasoning capacity artırma — deep thinking modellerinin referansı.

DeepSeek AIReasoning

PDF Aç ↗

ICLR 2023

Scaling Data-Constrained Language Models

Sınırlı veri ile dil modeli ölçekleme stratejileri. Tekrarlı eğitim, veri kalitesi ve küçük dil kaynakları için kritik rehber.

Muennighoff et al.Scaling

PDF Aç ↗

arXiv - Jul 2023

Llama 2: Open Foundation and Fine-Tuned Chat Models

Meta'nın açık kaynak LLM serisi. Pretraining, fine-tuning ve safety alignment süreçlerinin detaylı dokümantasyonu.

Touvron et al.Alignment

PDF Aç ↗

arXiv - Jan 2020

Scaling Laws for Neural Language Models

Model boyutu, veri miktarı ve compute arasındaki ölçekleme yasaları. Kaynakları verimli kullanmanın teorik temeli.

Kaplan et al.Scaling

PDF Aç ↗

NeurIPS 2023

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Reward model olmadan doğrudan tercih verisiyle politika optimizasyonu. PPO'ya alternatif olarak SFT pipeline'ına entegre edilebilen alignment yöntemi.

Rafailov, Sharma, Mitchell et al.SFT

PDF Aç ↗

arXiv - Feb 2024

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

GRPO yöntemi ile matematik reasoning'de çığır açan çalışma. SFT, RFT, DPO ve GRPO karşılaştırması.

Shao et al. (DeepSeek)SFT

PDF Aç ↗

arXiv - Aug 2023

Reinforced Self-Training (ReST) for Language Modeling

Kendi ürettiği çıktılarla iteratif self-training. Reward filtreli rejection sampling ile SFT kalitesini artırma yöntemi.

Gulcehre et al. (Google DeepMind)SFT

PDF Aç ↗

arXiv - Jan 2024

Self-Rewarding Language Models

Modelin kendi çıktılarını değerlendirip ödüllendirmesi. İnsan geri bildirimi olmadan iteratif SFT iyileştirme — self-play fine-tuning.

Yuan et al. (Meta AI)SFT

PDF Aç ↗

NeurIPS 2024

Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration

SFT verisinden ek reward sinyali çıkarma. İnsan demo verisini hem SFT hem reward öğrenimi için kullanarak alignment kalitesini artırma.

Li, Zeng et al.SFT

PDF Aç ↗

arXiv - Oct 2024

UFT: Unifying Fine-Tuning of SFT and RLHF/DPO through a Generalized Implicit Reward

SFT ve alignment'ı tek aşamada birleştiren Unified Fine-Tuning. Catastrophic forgetting sorununa çözüm — implicit reward fonksiyonu.

Wang et al.SFT

PDF Aç ↗

arXiv - Jul 2017

Proximal Policy Optimization Algorithms (PPO)

RLHF'nin temel optimizasyon algoritması. Clipped surrogate objective ile stabil politika güncelleme — tüm modern alignment pipeline'larının bel kemiği.

Schulman et al. (OpenAI)SFT

PDF Aç ↗

ICLR 2024

LIMA: Less Is More for Alignment

Sadece 1,000 yüksek kaliteli örnekle SFT yaparak güçlü alignment. Veri kalitesinin veri miktarından çok daha önemli olduğunu kanıtlayan çalışma.

Zhou et al. (Meta AI)SFT

PDF Aç ↗

arXiv - Jan 2025

s1: Simple Test-Time Scaling (Budget Forcing)

Sadece 1K kaliteli reasoning trace ile SFT yapıp test-time'da "Wait" token'ları ile düşünme süresini uzatma. Minimal veri, maksimum reasoning.

Muennighoff et al.SFT

PDF Aç ↗

arXiv - May 2024

Intuitive Fine-Tuning: Towards Unifying SFT and RLHF into a Single Process

SFT ve RLHF'yi tek bir eğitim sürecinde birleştiren IFT yöntemi. Pairwise veri ihtiyacını ortadan kaldırarak basitleştirilmiş alignment.

Luo et al.SFT

PDF Aç ↗

ICLR 2015

Adam: A Method for Stochastic Optimization

Neredeyse her deep learning projesinde kullanılan optimizer. Momentum + adaptive learning rate birleşimi.

Kingma, BaKlasik

PDF Aç ↗

NeurIPS 2017

Attention Is All You Need

Modern AI'ın temel taşı. Self-attention mekanizması ve Transformer mimarisi. GPT, BERT, LLaMA — hepsi buradan doğdu.

Vaswani et al. (Google)Klasik

PDF Aç ↗

NAACL 2019

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Transfer learning'i NLP'ye taşıyan çalışma. Masked language modeling + next sentence prediction.

Devlin et al. (Google)Klasik

PDF Aç ↗

NeurIPS 2020

Language Models are Few-Shot Learners (GPT-3)

175B parametre ile in-context learning'in keşfi. Prompt engineering kavramının doğuşu.

Brown et al. (OpenAI)Klasik

PDF Aç ↗

NeurIPS 2014

Generative Adversarial Networks (GANs)

İki sinir ağının yarışarak öğrenmesi — generatif AI'ın temeli.

Goodfellow et al.Klasik

PDF Aç ↗

CVPR 2016

Deep Residual Learning for Image Recognition (ResNet)

Skip connection ile derin ağları eğitilebilir kılan çalışma. 152 katmanlı ağ.

He et al. (Microsoft)Klasik

PDF Aç ↗

ICLR 2013

Efficient Estimation of Word Representations in Vector Space (Word2Vec)

"King - Man + Woman = Queen" — kelime vektörlerinin gücünü dünyaya gösteren çalışma.

Mikolov et al. (Google)Klasik

PDF Aç ↗

NeurIPS 2020

Denoising Diffusion Probabilistic Models (DDPM)

Stable Diffusion, DALL-E, Midjourney — hepsinin arkasındaki teori. Gürültüden görüntü üretme.

Ho, Jain, AbbeelKlasik

PDF Aç ↗

ICML 2015

Batch Normalization: Accelerating Deep Network Training

Eğitimi hızlandıran ve stabilize eden teknik. Internal covariate shift sorununa çözüm.

Ioffe, Szegedy (Google)Klasik

PDF Aç ↗

ICLR 2015

Very Deep Convolutional Networks for Large-Scale Image Recognition (VGGNet)

"Daha derin = daha iyi" ilkesini kanıtlayan çalışma. 16-19 katmanlı ağ.

Simonyan, Zisserman (Oxford)Klasik

PDF Aç ↗

arXiv - Mar 2023

GPT-4 Technical Report

Multimodal büyük dil modeli. Görüntü + metin anlama, bar exam'ı geçebilen reasoning.

OpenAIDevrim

PDF Aç ↗

arXiv - Jul 2024

The Llama 3 Herd of Models

Meta'nın 405B'ye kadar açık kaynak model ailesi. Tüm pipeline detayları.

Grattafiori et al. (Meta)Devrim

PDF Aç ↗

arXiv - Dec 2024

DeepSeek-V3 Technical Report

671B parametre MoE modeli, sadece $5.6M eğitim maliyeti ile GPT-4o seviyesinde performans.

DeepSeek AIDevrim

PDF Aç ↗

arXiv - Jan 2025

DeepSeek-R1: Incentivizing Reasoning Capability via RL

O1'e rakip açık kaynak reasoning modeli. RL ile ortaya çıkan chain-of-thought.

DeepSeek AIDevrim

PDF Aç ↗

arXiv - Aug 2024

Scaling LLM Test-Time Compute Optimally

Daha büyük model yerine daha fazla düşünme süresi. O1/R1'in teorik temeli.

Snell et al. (Google DeepMind)Devrim

PDF Aç ↗

NeurIPS 2022

Training Compute-Optimal Large Language Models (Chinchilla)

Scaling laws'u yeniden tanımlayan çalışma. LLM eğitim stratejisini kökten değiştirdi.

Hoffmann et al. (DeepMind)Devrim

PDF Aç ↗

NeurIPS 2023

LLaMA: Open and Efficient Foundation Language Models

Meta'nın açık kaynak LLM devrimini başlatan çalışma. Açık kaynak AI ekosisteminin Big Bang'i.

Touvron et al. (Meta)Devrim

PDF Aç ↗

arXiv - Jul 2023

Llama 2: Open Foundation and Fine-Tuned Chat Models

SFT + RLHF pipeline'ının en detaylı açık dokümantasyonu.

Touvron et al. (Meta)Devrim

PDF Aç ↗

arXiv - May 2025

Qwen3 Technical Report

0.6B'den 235B'ye 8 model, thinking/non-thinking dual mod. 119 dil desteği, 36T token.

Qwen Team (Alibaba)Devrim

PDF Aç ↗

NeurIPS 2022

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

"Adım adım düşünelim" ifadesinin gücünü keşfeden çalışma. Tüm thinking modellerin ilham kaynağı.

Wei et al. (Google)Devrim

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Transformers are SSMs: Generalized Models and Efficient Algorithms (Mamba-2)

Mamba-3: Improved Sequence Modeling using State Space Principles

Jamba: A Hybrid Transformer-Mamba Language Model

Attention Is All You Need

QLoRA: Efficient Finetuning of Quantized Language Models

LoRA: Low-Rank Adaptation of Large Language Models

Training Language Models to Follow Instructions with Human Feedback (InstructGPT)

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Scaling Data-Constrained Language Models

Llama 2: Open Foundation and Fine-Tuned Chat Models

Scaling Laws for Neural Language Models

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Reinforced Self-Training (ReST) for Language Modeling

Self-Rewarding Language Models

Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration

UFT: Unifying Fine-Tuning of SFT and RLHF/DPO through a Generalized Implicit Reward

Proximal Policy Optimization Algorithms (PPO)

LIMA: Less Is More for Alignment

s1: Simple Test-Time Scaling (Budget Forcing)

Intuitive Fine-Tuning: Towards Unifying SFT and RLHF into a Single Process

Adam: A Method for Stochastic Optimization

Attention Is All You Need

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Language Models are Few-Shot Learners (GPT-3)

Generative Adversarial Networks (GANs)

Deep Residual Learning for Image Recognition (ResNet)

Efficient Estimation of Word Representations in Vector Space (Word2Vec)

Denoising Diffusion Probabilistic Models (DDPM)

Batch Normalization: Accelerating Deep Network Training

Very Deep Convolutional Networks for Large-Scale Image Recognition (VGGNet)

GPT-4 Technical Report

The Llama 3 Herd of Models

DeepSeek-V3 Technical Report

DeepSeek-R1: Incentivizing Reasoning Capability via RL

Scaling LLM Test-Time Compute Optimally

Training Compute-Optimal Large Language Models (Chinchilla)

LLaMA: Open and Efficient Foundation Language Models

Llama 2: Open Foundation and Fine-Tuned Chat Models

Qwen3 Technical Report

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models