İkili Sınıflandırma ve Hata Çeşitleri

Yapay zeka ile cevap aradığımız pek sorunun -“Bu fotoğrafta araç var mı?”, “bu banka işlemi dolandırıcılık mı?”, “borsa endeksi yarın artacak mı?” gibi-  iki farklı cevabı vardır. Böyle sorulara ikili sınıflandırma (binary classification) problemi denir. Modern tekniklerin tamamı bu tip sorularda cevapları 0 ve 1 sayılarıyla kodlar, genellikle “hayır” 0, “evet” ise 1 olur.

 

Diyelim “BİST 100 endeksi yarın artacak mı?” sorusuna cevap arıyoruz, ve 100 günlük tarihsel veriyi (training data) kullanarak bir yapay zeka modeli geliştirdik. Modelimizin tahminlerinin ne kadar isabetli olduğunu bilmeden yatırım yapmaya başlamayacağımızdan, 20 gün boyunca modelin tahminlerini izleyelim. Modelimiz –karar ağacı da olsa, yapay sinir ağı da olsa– tahminlerini 0 ile 1 arasında sayılar olarak verir, biz de bu sayılardan 0.5’ten büyük olanlarını “borsa artacak”, küçük olanlarını ise “borsa artmayacak” olarak yorumlarız.

Her iki durumda da yanılabileceğimiz için iki çeşit hata vardır. Modelimiz “borsa artacak” der ve gerçekten de borsa artarsa ne ala, ama eğer artmazsa “tip 1 hata” (type 1 error) yapmış oluruz. Modelimiz “borsa artmayacak” der ve eğer borsa artarsa bu sefer de “tip 2 hata” yapmış oluruz. Tip 1 hataya yanlış pozitif (false positive), tip 2 hataya yanlış negatif (false negative) dendiği de olur.

 

Bu hata çeşitleri arasında uygulama alanına göre maliyet farkları vardır. Mesela banka işlemlerinde dolandırıcılık tespitinde tip 2 hata (modelin dolandırıcılık yok demesine rağmen gerçekte dolandırıcılık olması) pahalıyken, tip 1 hata (modelin dolandırıcılık var diyerek işleme izin vermemesine rağmen dolandırıcılık olmaması) genellikle ucuzdur sadece müşteriye biraz zaman kaybettirir. Bu yüzden yapay zeka modelinin verdiği sonuçları yorumlarken kullandığımız 0.5 eşik değerini (threshold value) uygulama alanındaki maliyetlere göre optimize etmek gerekir.

Eşik değer 1’e yaklaştıkça tip 1 hata azalırken, 0’a yaklaştıkça tip 2 hata azalacaktır. Tam olarak hangi değeri kullanmanın en verimli sonuçları vereceği uygulama alanının maliyetleri ve iş yapısı ile ilgilidir. Fakat sadece eşik değeri değiştirerek modelin genel başarısını arttırmak mümkün değildir, buna da bir başka yazıda değineceğiz.


18 Şubat 2019