YZ Modellerinde Başarı Ölçümü – AUC

Ölçemediğimizi yönetemiyorsak, yapay zeka modellerinin başarısı nasıl ölçülür anlamadan iş süreçlerine yapay zeka entegre etmemiz mümkün değildir.

İkili sınıflandırma problemlerinden ve bu problemlerdeki hata tiplerinden bir başka yazıda bahsetmiştik, okumadıysanız öncelikle o yazıya bir gözatmanız faydalı olur.

Senaryomuz şu olsun: BİST100 endeksinin artmasını 1 (pozitif vakalar), artmamasını 0 (negatif vakalar) olarak kodladık ve elimizde borsanın artıp artmayacağını tahmin eden bir yapay zeka modeli var. Bu modelin ne kadar başarılı olduğunu ölçmeye çalışıyoruz. Bunun için, mesela 20 gün boyunca, modelin tahminlerini ve gerçekleri kaydettik ve sonuçlara bakıyoruz. Gerçekleri (o ya da 1) satırlara, tahminleri de (bunlar da 0 ya da 1) sütunlara yazarsak aşağıdaki gibi bir matris elde ederiz.

Örneğimizde borsa 12 gün artmış, 8 gün artmamış. Modelimiz 12 artıştan 10 tanesini doğru bilmiş. Borsanın artmadığı 8 günden de 5 tanesini doğru bilmiş. Modelimizin başarısını ölçen farklı metrikler aşağıda – İngilizce isimleriyle çünkü bu konuda genel kabul görmüş Türkçe terminoloji mevcut değil.

Precision: Modelin pozitif olarak tahmin ettiği durumların doğruluk oranı. Örneğimizde $10/13=0.77$ . Bu metrik modelin pozitif tahminlerinin ne kadar güvenilir olduğunu ölçer.

Recall (Sensitivity): Bu metrik de pozitif vakalarla ilgilidir ve şunu ölçer: Modelin pozitif vakalardaki doğru tahmin oranı. Örneğimizde $10/12=0.83$ .

Yukarıdaki iki ölçü beraber kullanıldığında modelin başarısı hakkında fikir verir fakat çoğunlukla tek bir sayıyla modelin başarısını ölçmek isteriz, bunlar da aşağıda.

Accuracy: Toplam doğru tahmin sayısının, gözlem sayısını oranı. Örneğimizde $15/20=0.75$ . Örneğimizde accuracy değerinin sayının hem precision hem de recall değerlerinden küçük olduğuna dikkat!

F1 Score: Precision ve recall değerlerinin ağırlıklandırılmış ortalaması. Örneğimizde $2(0.77 * 0.83)/(0.77+0.83)= 0.8$ .

AUC Score: Bu şu ana kadar bahsettiğimiz metriklerin en manalısı ve karışığı. Açılımı, Area Under Receiver Operating Characteristic Curve. Bazen ROC AUC de denir, PRAUC diye bir varyantı da vardır. Modelin gerçek pozitif bir vakayla gerçek negatif bir vakayı ayırt etme ihtimalini ölçer. Bunu yazı-tura atarak bile yapsak 0.5 şansımız olduğu için AUC skoru her zaman 0.5 ile 1 arasında bir sayıdır.

19 Şubat 2019