Etiketli veriler - Labeled data - Wikipedia

Etiketli veriler bir grup örnekler bir veya daha fazla etiketle etiketlenmiş olanlar. Etiketleme tipik olarak bir dizi etiketlenmemiş veriyi alır ve her bir parçasını bilgilendirici etiketlerle güçlendirir. Örneğin, bir veri etiketi, bir fotoğrafın bir at veya inek içerip içermediğini, bir ses kaydında hangi kelimelerin söylendiğini, bir videoda ne tür bir eylemin gerçekleştirildiğini, bir haber makalesinin konusunun ne olduğunu, genel olarak ne olduğunu belirtebilir. bir tweet'in duygusu veya röntgendeki bir noktanın tümör olup olmadığı.

Etiketler, insanlardan belirli bir etiketlenmemiş veri parçası hakkında yargılarda bulunmalarını isteyerek elde edilebilir. Etiketli verilerin elde edilmesi, etiketlenmemiş ham verilere göre önemli ölçüde daha pahalıdır.

Kitle kaynaklı etiketli veriler

2006 yılında Fei-Fei Li Stanford İnsan Merkezli Yapay Zeka Enstitüsü'nün eş direktörü, yapay zeka önemli ölçüde genişleterek görüntü tanıma için modeller ve algoritmalar Eğitim verileri. Araştırmacılar, Dünya çapında Ağ ve bir lisans öğrencisi ekibi her bir görüntüye nesneler için etiket uygulamaya başladı. Li, 2007 yılında veri etiketleme çalışmalarını dış kaynak olarak kullanmıştır. Amazon Mekanik Türk, bir çevrimiçi pazar yeri dijital için parça iş. 49.000'den fazla işçi tarafından etiketlenen 3,2 milyon görsel, ImageNet için en büyük elle etiketlenmiş veri tabanlarından biri nesne tanımanın ana hatları.[1]

Otomatik veri etiketleme

Etiketli bir veri kümesi elde ettikten sonra, makine öğrenme Modeller, yeni etiketlenmemiş verilerin modele sunulabilmesi ve bu etiketlenmemiş veri parçası için olası bir etiketin tahmin edilebilmesi veya tahmin edilebilmesi için verilere uygulanabilir.[2]

Veriye dayalı önyargı

Algoritmik karar verme, programcı tarafından yönlendirilen önyargıya ve veriye dayalı önyargıya tabidir. Önyargı etiketli verilere dayanan eğitim verileri, önyargılara ve ihmallere neden olacaktır. tahmine dayalı model makine öğrenimi algoritmasının meşru olmasına rağmen. Belirli bir makine öğrenimi algoritmasını eğitmek için kullanılan etiketli verilerin istatistiksel olarak tanıtıcı örnek sonuçları saptırmamak için.[3] Çünkü etiketli veriler eğitilebilir yüz tanıma sistemleri bir popülasyonu temsil etmemiştir, etiketli verilerde yetersiz temsil edilen gruplar daha sonra sıklıkla yanlış sınıflandırılır. 2018 yılında Joy Buolamwini ve Timnit Gebru Yüz tanıma algoritmalarını eğitmek için kullanılan iki yüz analizi veri kümesinin, IJB-A ve Adience'in sırasıyla% 79.6 ve% 86.2 daha açık tenli insanlardan oluştuğunu gösterdi.[4]

Referanslar

  1. ^ Mary L. Gray ve Siddharth Suri (2019). Hayalet Çalışma: Silikon Vadisi'nin Yeni Bir Küresel Alt Sınıf İnşa Etmesini Nasıl Durdurabilirim?. Houghton Mifflin Harcourt. s. 7. ISBN  9781328566287.CS1 Maint: yazar parametresini kullanır (bağlantı)
  2. ^ Johnson, Leif. "Etiketli ve etiketlenmemiş veriler arasındaki fark nedir?", Yığın Taşması, 4 Ekim 2013. Erişim tarihi: 13 Mayıs 2017. Bu makale içerir Metin tarafından lmjohns3 altında mevcuttur CC BY-SA 3.0 lisans.
  3. ^ Xianhong Hu, Neupane, Bhanu, Echaiz, Lucia Flores, Sibal, Prateek, Rivera Lam, Macarena (2019). Bilgi toplumları için AI ve gelişmiş ICT'leri yönlendirme: Haklar, Açıklık, Erişim ve Çok Paydaşlı Perspektif. UNESCO Yayınları. s. 64. ISBN  9789231003639.CS1 Maint: yazar parametresini kullanır (bağlantı)
  4. ^ Xianhong Hu, Neupane, Bhanu, Echaiz, Lucia Flores, Sibal, Prateek, Rivera Lam, Macarena (2019). Bilgi toplumları için AI ve gelişmiş ICT'leri yönlendirme: Haklar, Açıklık, Erişim ve Çok Paydaşlı Perspektif. UNESCO Yayınları. s. 66. ISBN  9789231003639.CS1 Maint: yazar parametresini kullanır (bağlantı)