Makine Öğrenmesi III (Machine Learning III)

4 min readJul 16, 2021

https://startup.info/advantages-of-machine-learning/

CART — Karar Ağaçları (Classification and Regression Tree)

Amaç : Veri setindeki karmaşık yapıları basit karar yapılarına dönüştürmektir.

Heterojen veri setleri belirlenmiş bir hedef değişkene göre homojen alt gruplara ayrılmaktadır.

Bağımsız değişkenler çeşitli noktalarından bölünür, bu bölünmeler sonucunda bağımlı değişkenin değeri daha homojenleştirilir.

Yukarıdaki grafikte görüldüğü gibi, eğer Predictor A 1.7'den büyük ise ve Predictor B 210'dan büyük ise çıktımız 1.1'dir. Predictor B’nin 210'dan küçük olduğu durumda ise çıktımız 6.2’dir. Eğer Predictor A 1.7'den küçük ise çıktımız 3.5.

Peki bu bölünen değişkenler, belirli bölgelerden nasıl bölündü?

Regresyon problemleri için cost fonksiyonu,

Bütün gözlem birimleri için gerçek değerden, o yaprağın ortalaması çıkartılır ve kareleri alınıp toplanır. Bölmelere optimum karar verebilmek için bu işlem yapılmaktadır. Öyle bir bölünme olmalıdır ki gerçek değerler ile tahmin edilen değerlerin farklarının karelerinin toplamı minimum olsun.

Yukarıdaki örnekte bağımsız değişken olan Tecrübe’yi ilk önce değeri olan 2'den böldük (birinci dal). 3–10 arası ise ikinci daldır. Tüm gözlem birimleri için gerçek değerlerden tahmin edilen değeri çıkartıp karesini alarak hatayı hesapladık. Diğer bir bölme ise 6. değerinden oldu (birinci dal). Burada da aynı şekilde hatayı hesapladık. Görüldüğü üzere hata ikinci bölme işleminde daha düşük çıktı. Bölme noktasından hata farklılık göstermektedir. Kısaca özetlersek, bağımsız değişkene göre bağımlı değişkeni homojenleştirmek için yani alt gruba bölmek için hatası küçük olan seçilmektedir. Tecrübeyi ilk dallara ayıracağımız yer 6'dır.

Tablodan yola çıkarak yukarıdaki karar ağacını oluşturabiliriz. Farklı değişkenler olduğu durumda yine aynı şekilde küçükten büyüğe sıralanır, bölünür ve hata hesaplanır. Eğer diğer değişkendeki hata oranından küçük ise bu değişken devreye girmektedir. (feature importance)

Sınıflandırma problemleri için cost fonksiyonu,

Gini ve Entropi değerleri hesaplanır. Örneğin elimizde 0 ve 1'den oluşan binary sınıf var. Tüm gözlem birimleri için,

Gini = birinci sınıfın gerçekleşmesi olasılığı * gerçekleşmemesi olasılığı + İkinci sınıfın gerçekleşmesi olasılığı * gerçekleşmemesi olasılığı

Entropi = -(sıfırıncı sınıfın gerçekleşmesi olasılığı * log(sıfırıncı sınıfın gerçekleşmesi olasılığı)) + birinci sınıf için aynı işlem.

Formülde eksi olmasının sebebi, logaritma ifadesi eksi değer vereceğinden dolayı, eksiyi götürmek içindir.

Karar ağaçları overfit’e meyillidir. Bunun için model kurduktan sonra hiperparametre optimizasyonu yapılmalıdır.

Random Forests (Rastgele Ormanlar)

Bagging (Bootstrap Aggregating)

Temeli birden çok karar ağacın ürettiği tahminlerin bir araya getirilerek değerlendirilmesine dayanır. Karar ağaçlarındaki overfit’in önüne geçmek için geliştirilen bir modeldir.

Bootstap yöntemi, yerine koymalı bir şekilde örneklem çekmek demektir. Örneğin 5000 gözlem biriminden 1000 tanesi rastgele T kere çekilir ve birinci ağaç oluşturulur. Yerine konur, tekrar rastgele örneklem çekilir ve bir ağaç daha oluşturulur. Ağaçların birbiri ile bağlılığı yoktur çünkü yerine konuluyor.

Özetlersek,

Ağaçlar için gözlemler bootstrap rastgele örnek seçim yöntemi ile değişkenler random subspace yöntemi ile seçilmektedir.

Karar ağacının her bir düğümünde en iyi dallara ayırıcı değişken tüm değişkenler arasından rastgele seçilen daha az sayıdaki değişken arasından seçilmektedir.

Ağaç oluştururken veri setinin 2/3'ü kullanılmaktadır. 1/3'ü ise ağaçların performans değerlendirmesi ve değişken öneminin belirlenmesi için kullanılmaktadır.

Gradient Boosting Machines (GBM)

Gradient Boosting veya GBM, hem regresyon hem de sınıflandırma problemleri için çalışan toplululuk algoritmalarından oluşturmaktadır. LightGBM, XGBoost ve CatBoost.

AdaBoost’un sınıflandırma ve regresyon problemlerine kolayca uyarlanabilen genelleştirilmiş halidir. Artıklar üzerine tek bir tahminsel model formunda olan modeller serisi kurulur. Ağaçlar birbirine bağımlıdır.

Yukarıdaki görsel iki sınıftan oluşmaktadır, mavi ve kırmızı. Kırmızı sınıfın içerisindeki kırmızıları yanlış olarak ifade edebiliriz. Diğer iterasyonda kırmızı sınıf farklı ve mavi sınıfın elemanlarına ağırlık verilmiş. Her iterasyonda hatayı azaltıp en iyi sınıflandırma yöntemi elde edilmiştir.

GBM = Boosting + Gradient Descent

Amaç karar noktalarını gradient descent kullanarak hassaslaştırma çabasıdır.

Seri içerisindeki bir model serideki bir önceki modelin tahmin hatalarının üzerine kurularak (fit) oluşturulur.

f0(x) fonksiyonu gerçek değerlerden tahmin edilen değerleri çıkartılarak oluşturulur ve modellenerek yanındakiler oluşur. Bunlara artık (hata) model denmektedir.

F0(x) = f0(x)
F1(X) = F0 + ARTIK1(y-y_pre)
F2(X) = F1 + ARTIK2(y-y_pre)

REFERANSLAR

https://www.veribilimiokulu.com/

Makine Öğrenmesi III (Machine Learning III)

Written by Şevval Yurtekin