Makine Öğrenmesi IV (Machine Learning IV)

3 min readJul 17, 2021

https://www.appsflyer.com/blog/machine-learning-digital-marketing/

Herkese merhaba!

Daha önceki makine öğrenmesi yazılarımda gözetimli öğrenme (supervised learning) algoritmalarını ele almıştık. Bu yazımda gözetimsiz öğrenme (unsupervised learning) algoritmalarını ele alacağım.

Gözetimli öğrenme için bağımlı ve bağımsız değişkenlerin bir arada olduğundan bahsetmiştik. (bir etiket-label durumu söz konusu) Gözetimsiz öğrenme ise bağımlı değişkenin olmadığı bir öğrenme türüdür. (etiket-label durumu yoktur)

Gözetimsiz Öğrenme türleri,

- K-Ortalamalar (K-Means),
- Hiyerarşik Kümeleme Analizi (Hierarchical Cluster Analysis),
- Temel Bileşen Analizi (Principal Component Analysis).

K-Ortalamalar (K-Means)

Amaç gözlemleri birbirine olan benzerliklerine göre kümelere ayırmaktır. Uzaklık temelli bir yöntemdir.

https://www.datasciencearth.com/k-means-algoritmasi/

Basamaklar,

Küme sayısı belirlenir.
Rastgele k merkez seçilir. (rastgele k gözlem birimi seçmek)
Her gözlem için k merkezlere uzaklıklar hesaplanır.
Her gözlem en yakın olduğu merkeze (kümeye) atanır.
Atama işlemlerinden sonra oluşan kümeler için tekrar merkez hesaplamaları yapılır.
Bu işlem belirlenen bir iterasyon sayısınca tekrar edilir ve küme içi hata kareler toplamlarının toplamının (total within-cluster variation) minimum olduğu durumdaki gözlemlerin kümelenme yapısı nihai kümelenme olarak seçilir.

Peki küme sayısını nasıl belirleyeceğiz?

Elbow Yöntemi, her bir noktanın küme merkezine olan uzaklığının karesinin toplamını(Within Cluster Sum of Square) alınarak hesaplanmaktadır. Elbow metodu, WCSS’ deki değişim miktarının azaldığı nokta yani dirsek noktası optimum noktadır.

https://www.researchgate.net/figure/The-elbow-method-of-k-means_fig3_339823520

Hiyerarşik Kümeleme Analizi (Hierarchical Cluster Analysis)

Amaç gözlemleri birbirlerine olan benzerliklerine göre alt kümelere ayırmaktır. Yaygınca kullanılan iki kümeleme analizi bulunmaktadır.

Agglomerative (Birleştirici) ve Divisive (Bölümleyici)

Birleştirici ( Agglomerative) Kümeleme

Başlangıçta gözlem sayısı kadar küme vardır.

Basamaklar,

Veri setinde birbirine en yakın olan iki gözlem bulunur.
Bu iki nokta bir araya getirilerek yeni bir gözlem oluşturulur. Yani artık veri seti ilk birleşimdeki gözlemlerden oluşmaktadır.
Aynı işlem tekrarlanarak yukarı doğru çıkılır. Yani iki kümenin birleşiminden oluşan bu yeni kümeler aynı şekilde birbirlerine benzerliklerine göre tekrar birleştirilir. Bu işlem tüm gözlemler tek bir küme de toplanana kadar tekrar edilir.

https://www.kdnuggets.com/2019/09/hierarchical-clustering.html

Bölümleyici (Divisive) Kümeleme

Başlangıçta 1 tane kümeden oluşmaktadır, o da tüm veri setidir.

Basamaklar,

Tüm gözlemlerin bir arada olduğu küme iki alt kümeye ayrılır.
Oluşan yeni kümeler birbirlerine benzemeyen alt kümelere bölünür.
Aynı işlem gözlem sayısı kadar küme elde edilinceye kadar tekrar edilir.
Yukarıdan aşağı bir kümeleme yöntemidir.

https://www.researchgate.net/figure/Conceptual-dendrogram-for-agglomerative-and-divisive-Hierarchical-based-clustering-19_fig2_321399805

Temel Bileşen Analizi (Principal Component Analysis)

Çok değişkenli verinin ana özelliklerini daha az sayıda değişken/bileşen ile temsil etmektedir. Yani küçük bir miktarda bilgi kaybını (varyans) göze alıp değişken boyutunu azaltmamızı sağlamaktadır. Büyük veri setleri için büyük miktarda zaman açısından maliyeti düşürmektedir.

Boyut indirgeme sonucunda veri seti bağımsız değişkenlerin doğrusal bir kombinasyonu olarak ifade edilen bileşenlere indirgenir. Aralarındaki korelasyon kırılır. Korelasyonsuz doğrusal kombinasyonlar asal bileşenler olarak adlandırılmaktadır.

https://www.researchgate.net/figure/The-transformation-performed-during-principal-component-analysis-on-an-example-dataset_fig8_286513346

Makine öğrenmesi ile ilgili diğer yazılarıma buradan ulaşabilirsiniz. Keyifli okumalar :)

REFERANSLAR

VBO BLOG | Anasayfa

VBO BLOG platformuna hoş geldiniz. Veri bilimi ile ilgili katma değer oluşturacak içerikler üretmeye devam ediyoruz.

www.veribilimiokulu.com

Veri Bilimci Yetiştirme Programı

2021 1. DÖNEM KAYITLARI KAPANMIŞTIR. 2021 2. DÖNEM KAYITLARI KAPANMIŞTIR. 2021 3. DÖNEM KAYITLARI AÇIKTIR. KATILMAK…

bootcamp.veribilimiokulu.com

Makine Öğrenmesi IV (Machine Learning IV)

VBO BLOG | Anasayfa

VBO BLOG platformuna hoş geldiniz. Veri bilimi ile ilgili katma değer oluşturacak içerikler üretmeye devam ediyoruz.

Veri Bilimci Yetiştirme Programı

2021 1. DÖNEM KAYITLARI KAPANMIŞTIR. 2021 2. DÖNEM KAYITLARI KAPANMIŞTIR. 2021 3. DÖNEM KAYITLARI AÇIKTIR. KATILMAK…

Written by Şevval Yurtekin