Doğrusal (Lineer) Regresyon Nedir?

Diyelim ki bir emlakçısınız. Elinizde yüzlerce evin büyüklüğü ve satış fiyatı bilgisi var. Yeni gelen bir müşteriniz size bir evin fiyatını sorduğunda neye göre yanıt verirsiniz?

Ya da başka bir senaryo düşünelim. Yıllardır çalışıyorsunuz ve merak ediyorsunuz: “Acaba maaşım deneyimimle doğru orantılı mı artıyor?” İşte tam da bu gibi soruların cevabını bulmak için başvurabileceğimiz güçlü ama bir o kadar da sade bir yöntem var: Lineer Regresyon.

Peki, Lineer Regresyon Nedir?

En basit haliyle anlatmam gerekirse:

Lineer regresyon, iki değişken arasındaki ilişkiyi bir doğru ile modellemeye yarayan istatistiksel bir yöntemdir.

Biraz daha açayım. Elimizde bir bağımsız değişken (örneğin deneyim yılı) ve bir bağımlı değişken (örneğin maaş) var. Lineer regresyon, bu iki değişken arasında nasıl bir ilişki olduğunu analiz ederek, geleceğe dair tahminler yapabilmemizi sağlar.

Neden Bu Kadar Önemli?

Lineer regresyon, makine öğrenmesinin ve istatistiksel modellemenin temel taşlarından biridir. Evet, kulağa basit geliyor olabilir. Ancak bu sadelik, onun gücünü azaltmaz. Aksine, veriye dayalı kararlar alırken bize sağlam bir temel sunar. Üstelik sadece veri bilimcilerin değil, pazarlamacıların, finans analistlerinin, hatta öğretmenlerin bile işine yarayabilecek kadar genel bir araç.

Büyük veri ve makine öğrenmesi dünyasında yolculuğa çıkmak isteyen herkesin çantasında mutlaka olması gereken ilk araçtır Lineer Regresyon.

Temel Kavramlar

Lineer regresyonun temellerine inmeden olmaz. Ama söz veriyorum, korkulacak hiçbir şey yok. Hadi kavramlara bir göz atalım.

Değişkenler Nedir, Ne İşe Yarar?

Lineer regresyonda temel iki tür değişkenimiz var:

  • Bağımsız Değişken (x): Bu bizim tahmin için kullandığımız değer. Örneğin bir evin büyüklüğü, bir çalışanın deneyim yılı gibi…
  • Bağımlı Değişken (y): Tahmin etmek istediğimiz değer. Örneğin evin fiyatı ya da maaş.

Yani “x” bize bir ipucu verir, biz de o ipucunu kullanarak “y”’yi tahmin ederiz.

Doğru Denklemi: y = mx + b

İşte lineer regresyonun kalbi!
Bu formül size tanıdık gelebilir:
y = mx + b

  • m: Doğrunun eğimi. x arttıkça y ne kadar artıyor?
  • b: Doğrunun y-keseni. Yani x=0 olduğunda y’nin değeri nedir?

Örnekle Anlatım: Diyelim ki elimizde 5 farklı kişinin deneyim yılı ve maaş bilgisi var. Bunları şöyle tabloya dökelim:

Deneyim (Yıl)Maaş (Bin ₺)
130
235
350
460
565

Şimdi veriye bakıp, elimizde hiçbir algoritma yokken sadece “göz kararıyla” bir doğru çizmeye çalışalım. Diyelim ki şöyle bir formül uydurduk:

 y = 10x + 20

Bu ne anlama geliyor?

  • Deneyim yılı her 1 arttığında maaş 10 bin ₺ artıyor.
  • Hiç deneyimi olmayan birinin bile maaşı 20 bin ₺ gibi.

Çizdiğimiz regresyon doğrusu ile veri noktalarını kontrol edelim:

Deneyim (x)Gerçek Maaş (y)Tahmin (ŷ = 10x + 20)Hata (y – ŷ)
130300
23540-5
350500
460600
56570-5

Bu Doğru Ne Kadar İyi? Hata Ölçümü Nasıl Yapılır?

Modelimizin başarısını nasıl anlarız? Elimizde bir doğru var ama ne kadar doğru? Bu sorunun cevabını verebilmek için hataları ölçmemiz gerekiyor. Tahmin ettiğimiz değerlerle, gerçek değerler arasında farklar olacak. Bu farklara “hata” diyoruz. Ama bu farklar bazen pozitif, bazen negatif olabilir. Toplarsak birbirini götürür. Bu yüzden hataların karesini alırız. Bunu her veri noktası için yaparız ve sonra hepsini toplayıp ortalamasını alırız. Böylece elimizde güzel bir performans ölçütü olur:

Gerçek Doğruya Nasıl Ulaşırız?

Elde ettiğimiz hatalar ile denklemdeki m ve b’yi güncellememiz gerekiyor. Peki m ve b’yi Nasıl güncelliyoruz?

Bu hatanın m ve b’ye göre türevleri alınır. Bu türevler, hatayı azaltmak için m ve b’nin hangi yönde ve ne kadar değişmesi gerektiğini söyler.

Lineer Regresyonun perde arkasını elimden geldiğince anlatmaya çalıştım. Hatalarım varsa sosyal medya hesaplarımdan ulaşarak düzeltmemde yardımcı olabilirsiniz.

Yorum gönder