Makine Öğrenmesi IV (Machine Learning IV)

Şevval Yurtekin
3 min readJul 17, 2021

--

https://www.appsflyer.com/blog/machine-learning-digital-marketing/

Herkese merhaba!

Daha önceki makine öğrenmesi yazılarımda gözetimli öğrenme (supervised learning) algoritmalarını ele almıştık. Bu yazımda gözetimsiz öğrenme (unsupervised learning) algoritmalarını ele alacağım.

Gözetimli öğrenme için bağımlı ve bağımsız değişkenlerin bir arada olduğundan bahsetmiştik. (bir etiket-label durumu söz konusu) Gözetimsiz öğrenme ise bağımlı değişkenin olmadığı bir öğrenme türüdür. (etiket-label durumu yoktur)

Gözetimsiz Öğrenme türleri,

- K-Ortalamalar (K-Means),

- Hiyerarşik Kümeleme Analizi (Hierarchical Cluster Analysis),

- Temel Bileşen Analizi (Principal Component Analysis).

  • K-Ortalamalar (K-Means)

Amaç gözlemleri birbirine olan benzerliklerine göre kümelere ayırmaktır. Uzaklık temelli bir yöntemdir.

https://www.datasciencearth.com/k-means-algoritmasi/

Basamaklar,

  • Küme sayısı belirlenir.
  • Rastgele k merkez seçilir. (rastgele k gözlem birimi seçmek)
  • Her gözlem için k merkezlere uzaklıklar hesaplanır.
  • Her gözlem en yakın olduğu merkeze (kümeye) atanır.
  • Atama işlemlerinden sonra oluşan kümeler için tekrar merkez hesaplamaları yapılır.
  • Bu işlem belirlenen bir iterasyon sayısınca tekrar edilir ve küme içi hata kareler toplamlarının toplamının (total within-cluster variation) minimum olduğu durumdaki gözlemlerin kümelenme yapısı nihai kümelenme olarak seçilir.

Peki küme sayısını nasıl belirleyeceğiz?

Elbow Yöntemi, her bir noktanın küme merkezine olan uzaklığının karesinin toplamını(Within Cluster Sum of Square) alınarak hesaplanmaktadır. Elbow metodu, WCSS’ deki değişim miktarının azaldığı nokta yani dirsek noktası optimum noktadır.

https://www.researchgate.net/figure/The-elbow-method-of-k-means_fig3_339823520
  • Hiyerarşik Kümeleme Analizi (Hierarchical Cluster Analysis)

Amaç gözlemleri birbirlerine olan benzerliklerine göre alt kümelere ayırmaktır. Yaygınca kullanılan iki kümeleme analizi bulunmaktadır.

Agglomerative (Birleştirici) ve Divisive (Bölümleyici)

Birleştirici ( Agglomerative) Kümeleme

Başlangıçta gözlem sayısı kadar küme vardır.

Basamaklar,

  • Veri setinde birbirine en yakın olan iki gözlem bulunur.
  • Bu iki nokta bir araya getirilerek yeni bir gözlem oluşturulur. Yani artık veri seti ilk birleşimdeki gözlemlerden oluşmaktadır.
  • Aynı işlem tekrarlanarak yukarı doğru çıkılır. Yani iki kümenin birleşiminden oluşan bu yeni kümeler aynı şekilde birbirlerine benzerliklerine göre tekrar birleştirilir. Bu işlem tüm gözlemler tek bir küme de toplanana kadar tekrar edilir.
https://www.kdnuggets.com/2019/09/hierarchical-clustering.html

Bölümleyici (Divisive) Kümeleme

Başlangıçta 1 tane kümeden oluşmaktadır, o da tüm veri setidir.

Basamaklar,

  • Tüm gözlemlerin bir arada olduğu küme iki alt kümeye ayrılır.
  • Oluşan yeni kümeler birbirlerine benzemeyen alt kümelere bölünür.
  • Aynı işlem gözlem sayısı kadar küme elde edilinceye kadar tekrar edilir.
  • Yukarıdan aşağı bir kümeleme yöntemidir.
https://www.researchgate.net/figure/Conceptual-dendrogram-for-agglomerative-and-divisive-Hierarchical-based-clustering-19_fig2_321399805
  • Temel Bileşen Analizi (Principal Component Analysis)

Çok değişkenli verinin ana özelliklerini daha az sayıda değişken/bileşen ile temsil etmektedir. Yani küçük bir miktarda bilgi kaybını (varyans) göze alıp değişken boyutunu azaltmamızı sağlamaktadır. Büyük veri setleri için büyük miktarda zaman açısından maliyeti düşürmektedir.

Boyut indirgeme sonucunda veri seti bağımsız değişkenlerin doğrusal bir kombinasyonu olarak ifade edilen bileşenlere indirgenir. Aralarındaki korelasyon kırılır. Korelasyonsuz doğrusal kombinasyonlar asal bileşenler olarak adlandırılmaktadır.

https://www.researchgate.net/figure/The-transformation-performed-during-principal-component-analysis-on-an-example-dataset_fig8_286513346

Makine öğrenmesi ile ilgili diğer yazılarıma buradan ulaşabilirsiniz. Keyifli okumalar :)

REFERANSLAR

--

--