Eğitim, doğrulama ve test setleri - Training, validation, and test sets

İçinde makine öğrenme ortak bir görev, çalışma ve inşa etmektir. algoritmalar öğrenebilen ve tahminlerde bulunan veri.[1] Bu tür algoritmalar, veriye dayalı tahminler veya kararlar alarak çalışır,[2] inşa ederek matematiksel model giriş verilerinden.

Nihai modeli oluşturmak için kullanılan veriler genellikle birden çok veri kümeleri. Özellikle, modelin oluşturulmasının farklı aşamalarında yaygın olarak üç veri kümesi kullanılmaktadır.

Model başlangıçta bir eğitim veri kümesi,[3] Bu, parametrelere uymak için kullanılan bir dizi örnektir (örneğin, içindeki nöronlar arasındaki bağlantı ağırlıkları) yapay sinir ağları ) modelin.[4] Model (ör. Bir sinir ağı veya a naif Bayes sınıflandırıcı ) bir eğitim veri kümesi üzerinde eğitilir denetimli öğrenme yöntem, örneğin optimizasyon yöntemlerini kullanarak dereceli alçalma veya stokastik gradyan inişi. Uygulamada, eğitim veri kümesi genellikle bir girdi çiftinden oluşur vektör (veya skaler) ve karşılık gelen çıktı vektörü (veya skaler), burada yanıt anahtarı genellikle olarak ifade edilir hedef (veya etiket). Mevcut model, eğitim veri kümesiyle çalıştırılır ve bir sonuç üretir, bu daha sonra hedef, eğitim veri kümesindeki her giriş vektörü için. Karşılaştırmanın sonucuna ve kullanılan özel öğrenme algoritmasına bağlı olarak, modelin parametreleri ayarlanır. Model uydurma her ikisini de içerebilir değişken seçim ve parametre tahmin.

Ardışık olarak, uydurulmuş model, gözlemler için yanıtları tahmin etmek için kullanılır. doğrulama veri kümesi.[3] Doğrulama veri kümesi, modelin modelini ayarlarken eğitim veri kümesine uyan bir modelin tarafsız bir değerlendirmesini sağlar. hiperparametreler[5] (örneğin, bir sinir ağındaki gizli birimlerin sayısı (katmanlar ve katman genişlikleri)[4]). Doğrulama veri kümeleri şunlar için kullanılabilir: düzenleme tarafından erken durma (doğrulama veri kümesindeki hata arttığında eğitimin durdurulması, çünkü bu, aşırı uyum gösterme eğitim veri kümesine).[6]Bu basit prosedür, doğrulama veri kümesindeki hatanın eğitim sırasında dalgalanarak birden fazla yerel minimum değer üretmesi nedeniyle pratikte karmaşıktır. Bu karmaşıklık, aşırı uydurmanın gerçekten ne zaman başladığına karar vermek için birçok geçici kuralın oluşturulmasına yol açtı.[6]

Son olarak test veri kümesi tarafsız bir değerlendirme sağlamak için kullanılan bir veri kümesidir. final model eğitim veri kümesine uygun.[5] Test veri kümesindeki veriler eğitimde hiç kullanılmadıysa (örneğin, çapraz doğrulama ), test veri kümesine ayrıca uzatma veri kümesi.

Eğitim veri kümesi

Eğitim veri kümesi, veri kümesi öğrenme sürecinde kullanılan örneklerdir ve örneğin, aşağıdaki gibi parametrelere (örneğin ağırlıklar) uymak için kullanılır. sınıflandırıcı.[7][8]

Deneysel ilişkiler için eğitim verilerinde arama yapan yaklaşımların çoğu, fazla sığdırma veriler, yani genel olarak tutulmayan eğitim verilerindeki görünen ilişkileri belirleyip kullanabilecekleri anlamına gelir.

Doğrulama veri kümesi

Doğrulama veri kümesi bir veri kümesi ayarlamak için kullanılan örneklerden hiperparametreler (yani, bir sınıflandırıcının mimarisi). Bazen geliştirme kümesi veya "geliştirme kümesi" olarak da adlandırılır. İçin bir hiperparametre örneği yapay sinir ağları her katmandaki gizli birimlerin sayısını içerir.[7][8] Test seti (yukarıda bahsedildiği gibi) gibi eğitim veri setiyle aynı olasılık dağılımını takip etmelidir.

Aşırı uyumu önlemek için sınıflandırma parametresinin ayarlanması gerekiyorsa, eğitim ve test veri kümelerine ek olarak bir doğrulama veri kümesine sahip olunması gerekir. Örneğin, problem için en uygun sınıflandırıcı aranırsa, eğitim veri seti aday algoritmaları eğitmek için kullanılır, doğrulama veri seti performanslarını karşılaştırmak ve hangisinin alınacağına karar vermek için kullanılır ve son olarak test veri seti kullanılır. gibi performans özelliklerini elde edin doğruluk, duyarlılık, özgüllük, F ölçüsü, ve benzeri. Doğrulama veri kümesi bir karma olarak işlev görür: test için kullanılan eğitim verileridir, ancak ne düşük düzeyli eğitimin bir parçası ne de son testin bir parçası olarak.

İçin bir doğrulama veri kümesi kullanmanın temel süreci model seçimi (eğitim veri kümesinin, doğrulama veri kümesinin ve test veri kümesinin bir parçası olarak):[8][9]

Amacımız yeni veriler üzerinde en iyi performansa sahip ağı bulmak olduğundan, farklı ağların karşılaştırılmasına yönelik en basit yaklaşım, eğitim için kullanılandan bağımsız verileri kullanarak hata işlevini değerlendirmektir. Bir eğitim veri setine göre tanımlanan uygun bir hata fonksiyonunun en aza indirilmesiyle çeşitli ağlar eğitilir. Ağların performansı daha sonra bağımsız bir doğrulama seti kullanılarak hata fonksiyonu değerlendirilerek karşılaştırılır ve doğrulama setine göre en küçük hataya sahip olan ağ seçilir. Bu yaklaşıma dayanmak yöntem. Bu prosedürün kendisi doğrulama setine aşırı uymaya yol açabileceğinden, seçilen ağın performansı, test seti adı verilen üçüncü bir bağımsız veri setindeki performansı ölçülerek doğrulanmalıdır.

Bu sürecin bir uygulaması erken durma, aday modellerin aynı ağın ardışık yinelemeleri olduğu ve doğrulama setindeki hata arttığında, önceki modeli seçerek (minimum hata içeren model) eğitim durur.

Veri kümesini test et

Bir test veri kümesi bir veri kümesi yani bağımsız eğitim veri kümesinin, ancak aynı olasılık dağılımı eğitim veri kümesi olarak. Eğitim veri kümesine uyan bir model test veri kümesine de uyuyorsa, aşırı uyum gösterme gerçekleşmiştir (aşağıdaki şekle bakınız). Test veri kümesinin aksine eğitim veri kümesinin daha iyi uydurulması, genellikle aşırı uyuma işaret eder.

Bu nedenle bir test seti, yalnızca tam olarak belirlenmiş bir sınıflandırıcının performansını (yani genellemeyi) değerlendirmek için kullanılan bir dizi örnektir.[7][8]

Aynı istatistiksel popülasyondan bir eğitim seti (sol) ve bir test seti (sağda) mavi noktalar olarak gösterilir. Eğitim verilerine iki tahmine dayalı model uygundur. Her iki model de hem eğitim hem de test setleriyle işaretlenmiştir. Eğitim setinde, MSE turuncu ile gösterilen uyum için 4, yeşil ile gösterilen uyum için MSE 9'dur. Test setinde, turuncu gösterilen uyum için MSE 15 ve yeşil ile gösterilen uyum için MSE 13'tür. Turuncu eğri Test seti ile eğitim seti karşılaştırılırken MSE'si neredeyse dört kat arttığı için eğitim verilerine ciddi şekilde uyuyor. Yeşil eğri, MSE değeri 2 faktöründen daha az arttığı için eğitim verilerine çok daha az uyuyor.

Holdout veri kümesi

Orijinal veri kümesinin bir kısmı bir kenara bırakılabilir ve bir test seti olarak kullanılabilir: bu, uzatma yöntemi.[10]

Terminolojide kafa karışıklığı

Şartlar Deneme seti ve doğrulama seti bazen hem endüstride hem de akademide anlamlarını tersine çevirecek şekilde kullanılır. Hatalı kullanımda, "test kümesi" geliştirme kümesi olur ve "doğrulama kümesi", tam olarak belirlenmiş bir sınıflandırıcının performansını değerlendirmek için kullanılan bağımsız kümedir.

Makine öğrenimi ile ilgili literatür genellikle "doğrulama" ve "test" kümelerinin anlamını tersine çevirir. Bu, yapay zeka araştırmalarını saran terminolojik karmaşanın en bariz örneğidir.[11]

Çapraz doğrulama

Bir veri kümesi, tekrar tekrar bir eğitim veri kümesine ve bir doğrulama veri kümesine bölünebilir: bu, çapraz doğrulama. Bu tekrarlanan bölümler, 2 eşit veri kümesine bölmek ve bunları eğitim / doğrulama olarak kullanmak ve ardından doğrulama / eğitim veya bir doğrulama veri kümesi olarak tekrar tekrar rastgele bir alt kümeyi seçmek gibi çeşitli şekillerde yapılabilir.[kaynak belirtilmeli ]. Model performansını doğrulamak için, bazen çapraz doğrulama dışında tutulan ek bir test veri kümesi kullanılır.[kaynak belirtilmeli ]

Hiyerarşik sınıflandırma

Başka bir parametre ayarlaması örneği hiyerarşik sınıflandırma (bazen şöyle anılır örnek uzay ayrışımı[12]), çok sınıflı bir problemi daha küçük sınıflandırma problemlerine böler. Alt görevlerdeki daha basit sınıflandırma sınırları ve alt görevler için bireysel özellik seçim prosedürleri nedeniyle daha doğru kavramları öğrenmeye hizmet eder. Sınıflandırma ayrıştırması yapılırken, ana seçim, sınıflandırma yolu adı verilen daha küçük sınıflandırma adımlarının kombinasyonunun sıralanmasıdır. Uygulamaya bağlı olarak, aşağıdakilerden türetilebilir: karışıklık matrisi ve tipik hataların nedenlerini ortaya çıkarmak ve sistemi gelecekte de yapmasını önlemek için yollar bulmak. Örneğin,[13] Doğrulama setinde, sistem tarafından en çok hangi sınıfların birbirine karıştırıldığı görülebilir ve daha sonra örnek alanı ayrıştırması şu şekilde yapılır: ilk olarak, sınıflandırma iyi tanınan sınıflar arasında yapılır ve ayırması zor olan sınıflar tek bir sınıf olarak ele alınır. ortak sınıf ve son olarak, ikinci bir sınıflandırma adımı olarak, ortak sınıf, başlangıçta karşılıklı olarak karıştırılan iki sınıfa ayrılır.[kaynak belirtilmeli ]

Ayrıca bakınız

Referanslar

  1. ^ Ron Kohavi; Foster Provost (1998). "Terimler Sözlüğü". Makine öğrenme. 30: 271–274. doi:10.1023 / A: 1007411609915.
  2. ^ Piskopos Christopher M. (2006). Örüntü Tanıma ve Makine Öğrenimi. New York: Springer. s. vii. ISBN  0-387-31073-8. Örüntü tanımanın kökeni mühendisliğe dayanırken, makine öğrenimi bilgisayar biliminden doğdu. Bununla birlikte, bu faaliyetler aynı alanın iki yüzü olarak görülebilir ve birlikte son on yılda önemli bir gelişme kaydetmiştir.
  3. ^ a b James, Gareth (2013). İstatistiksel Öğrenmeye Giriş: R Uygulamaları ile. Springer. s. 176. ISBN  978-1461471370.
  4. ^ a b Ripley Brian (1996). Örüntü Tanıma ve Sinir Ağları. Cambridge University Press. s.354. ISBN  978-0521717700.
  5. ^ a b Brownlee, Jason (2017-07-13). "Test ve Doğrulama Veri Kümeleri Arasındaki Fark Nedir?". Alındı 2017-10-12.
  6. ^ a b Prechelt, Lutz; Geneviève B. Orr (2012-01-01). "Erken Durmak - Ama Ne Zaman?". Grégoire Montavon'da; Klaus-Robert Müller (eds.). Sinir Ağları: Ticaretin Püf Noktaları. Bilgisayar Bilimlerinde Ders Notları. Springer Berlin Heidelberg. pp.53 –67. doi:10.1007/978-3-642-35289-8_5. ISBN  978-3-642-35289-8.
  7. ^ a b c Ripley, B.D. (1996) Örüntü Tanıma ve Sinir Ağları, Cambridge: Cambridge University Press, s. 354
  8. ^ a b c d "Konu: Popülasyon, örnek, eğitim seti, tasarım seti, doğrulama seti ve test seti nedir? ", Sinir Ağı SSS, bölüm 1/7: Giriş (Txt ), comp.ai. nöral-ağlar, Sarle, W.S., ed. (1997, son değiştirilme tarihi: 2002-05-17)
  9. ^ Bishop, C.M. (1995), Örüntü Tanıma için Sinir Ağları, Oxford: Oxford University Press, s. 372
  10. ^ Kohavi, Ron (2001-03-03). "Doğruluk Tahmini ve Model Seçimi için Çapraz Doğrulama ve Önyükleme Çalışması". 14. Alıntı dergisi gerektirir | günlük = (Yardım)
  11. ^ Ripley Brian D. (2009). Örüntü tanıma ve sinir ağları. Cambridge Üniv. Basın. pp. Sözlük. ISBN  9780521717700. OCLC  601063414.
  12. ^ Cohen, S .; Rokach, L .; Maimon, O. (2007). "Gruplanmış kazanç oranı ile karar ağacı örnek-uzay ayrışımı". Bilgi Bilimleri. Elsevier. 177 (17): 3592–3612. doi:10.1016 / j.ins.2007.01.016.
  13. ^ Sidorova, J., Badia, T. "ESEDA: gelişmiş konuşma duygu tespiti ve analizi için araç ". 4. Uluslararası Çapraz Medya İçeriği ve Çok Kanallı Dağıtım için Otomatik Çözümler Konferansı (AXMEDIS 2008). Floransa, Kasım, 17-19, s. 257–260. IEEE basını.

Dış bağlantılar