Değerlendirme ölçeği - Rating scale

Eğitim notları sistemleri olarak derecelendirme ölçekleriyle ilgili olarak, farklı ülkelerdeki eğitim hakkındaki makalelere bakın ("Eğitim ..." olarak adlandırılır), örneğin, Ukrayna'da Eğitim.
Tıp pratiğinde kullanılan derecelendirme ölçekleriyle ilgili olarak, örneğin teşhislerle ilgili makalelere bakın, Major depresif bozukluk.

Bir değerlendirme ölçeği bir kategori dizisidir. nicel veya a nitel öznitelik. İçinde sosyal Bilimler, özellikle Psikoloji yaygın örnekler şunlardır: Likert yanıt ölçeği ve 1-10 derecelendirme ölçekleri bir kişinin algılanan kalitesini yansıttığı düşünülen sayıyı seçtiği ürün.

Arka fon

Bir derecelendirme ölçeği, değerlendiricinin bazı derecelendirilmiş özniteliğin ölçüsü olarak derecelendirilen nesneye bazen sayısal bir değer atamasını gerektiren bir yöntemdir.

Derecelendirme ölçeği türleri

Tüm derecelendirme ölçekleri aşağıdaki türlerden birine sınıflandırılabilir:

  1. Sayısal Derecelendirme Ölçeği (NRS)
  2. Sözlü Derecelendirme Ölçeği (VRS)
  3. Görsel Analog Skala (VAS)
  4. Likert
  5. Grafik değerlendirme ölçeği
  6. Açıklayıcı grafik derecelendirme ölçeği

Bazı veriler şu anda ölçülür. sıra düzeyi. Sayılar, öğelerin göreceli konumunu gösterir, ancak farkın büyüklüğünü göstermez. Tutum ve fikir ölçekleri genellikle sıralıdır; bir örnek Likert yanıt ölçeği:

Beyan
Örneğin. "Bilgisayarım olmadan yaşayamazdım".
Yanıt seçenekleri
  1. Kesinlikle katılmamak
  2. Katılmıyorum
  3. Nötr
  4. Katılıyorum
  5. Kesinlikle katılıyorum

Bazı veriler şu anda ölçülür. aralık seviyesi. Sayılar, öğeler arasındaki farkın büyüklüğünü gösterir, ancak mutlak sıfır noktası yoktur. İyi bir örnek, sayılar arasındaki farkların önemli olduğu, ancak sıfırın yerleştirilmesinin önemli olmadığı bir Fahrenheit / Santigrat sıcaklık ölçeğidir.

Bazı veriler şu anda ölçülür. oran seviyesi. Sayılar, farkın büyüklüğünü gösterir ve sabit bir sıfır noktası vardır. Oranlar hesaplanabilir. Örnekler yaş, gelir, fiyat, maliyetler, satış geliri, satış hacmi ve pazar payını içerir.

İçin birden fazla derecelendirme ölçeği sorusu gereklidir ölçü içindeki kategoriler arasında istatistiksel karşılaştırmalar gerekliliği nedeniyle bir tutum veya algı çok atomlu Rasch modeli sıralı kategoriler için.[1] Açısından Klasik test teorisi gibi bir iç güvenilirlik indeksi elde etmek için birden fazla soru gereklidir. Cronbach alfa,[2] Bu, bir derecelendirme ölçeğinin ve daha genel olarak bir psikometrik aracın etkinliğini değerlendirmek için temel bir kriterdir.

Çevrimiçi kullanılan derecelendirme ölçekleri

Derecelendirme ölçekleri, ürünlere ilişkin tüketici görüşlerinin göstergelerini sağlamak amacıyla çevrimiçi olarak yaygın şekilde kullanılmaktadır. Derecelendirme ölçekleri kullanan sitelere örnekler: IMDb, Epinions.com, Yahoo! Filmler, Amazon.com, BoardGameGeek ve TV.com "kişiselleştirilmiş film önerileri" elde etmek için 0 ila 100 arasında bir derecelendirme ölçeği kullanan.

Neredeyse tüm durumlarda, çevrimiçi derecelendirme ölçekleri, ürün başına kullanıcı başına yalnızca bir derecelendirmeye izin verir, ancak aşağıdaki gibi istisnalar vardır: Ratings.net, kullanıcıların ürünleri çeşitli kalitelere göre derecelendirmesine olanak tanır. Çoğu çevrimiçi derecelendirme tesisi, derecelendirme kategorilerinin nitel tanımlarını çok az sağlar veya hiç sağlamaz, ancak yine de, Yahoo! Filmler, F ve A + ve BoardGameGeek arasındaki kategorilerin her birini etiketleyen, her kategorinin 1'den 10'a kadar açık tanımlarını sağlar. Genellikle, yalnızca üst ve alt kategori açıklanır, örneğin IMDb 's çevrimiçi derecelendirme tesisi.

Geçerlilik

Geçerlilik, bir aracın ölçmeyi amaçladığı şeyi ne kadar iyi ölçtüğünü ifade eder. Her kullanıcı bir ürünü yalnızca bir kez derecelendirdiğinde, örneğin 1'den 10'a kadar olan bir kategoride, dahili aracı değerlendirmenin bir yolu yoktur. güvenilirlik gibi bir dizin kullanarak Cronbach alfa. Bu nedenle, geçerlilik izleyici algılarının ölçüsü olarak derecelendirmelerin oranı. Geçerliliğin sağlanması, hem güvenilirliğin hem de doğruluğun (yani derecelendirmelerin temsil etmesi gereken şeyi temsil etmesi) gerektirecektir. Bir aletin geçerlilik derecesi, mantık / veya istatistiksel prosedürlerin uygulanmasıyla belirlenir. "Bir ölçüm prosedürü, ölçmek için önerdiği şeyi ölçtüğü ölçüde geçerlidir."

Diğer bir temel sorun, çevrimiçi derecelendirmelerin genellikle kolaylık sağlamasıdır. örnekleme televizyon anketlerine çok benzer, yani sadece derecelendirme yapmaya meyilli olanların görüşlerini temsil ederler.

Geçerlilik, ölçüm sürecinin farklı yönleriyle ilgilidir. Bu türlerin her biri, geçerlilik derecesini belirlemek için mantık, istatistiksel doğrulama veya her ikisini de kullanır ve belirli koşullar altında özel bir değere sahiptir. Geçerlilik türleri arasında içerik geçerliliği, öngörücü geçerlilik ve yapı geçerliliği bulunur.

Örnekleme

Örnekleme hataları, belirli bir önyargıya sahip olan veya yalnızca belirli bir alt grupla ilgili olan sonuçlara yol açabilir. Şu örneği ele alalım: Bir filmin yalnızca uzman bir izleyici kitlesine hitap ettiğini varsayalım — bunların% 90'ı bu türe adanmışlar ve yalnızca% 10'u filmlere genel bir ilgi duyan insanlar. Filmin onu izleyen izleyiciler arasında çok popüler olduğunu ve yalnızca film hakkında en güçlü hissedenlerin filmi çevrimiçi olarak derecelendirme eğiliminde olduğunu varsayın; dolayısıyla değerlendiricilerin hepsi adanmışlardan alınır. Bu kombinasyon, filmin çok yüksek reytinglere yol açmasına neden olabilir, bu da filmi gerçekten görenlerin (hatta muhtemelen onu gerçekten değerlendirenlerin) ötesinde genelleme yapmaz.

Nitel açıklama

Kategorilerin nitel tanımları, bir derecelendirme ölçeğinin kullanışlılığını artırır. Örneğin, sadece 1-10 arası noktalar açıklama olmadan verilirse, bazı insanlar nadiren 10'u seçerken, diğerleri kategoriyi sıklıkla seçebilir. Bunun yerine, "10" "neredeyse kusursuz" olarak tanımlanırsa, kategorinin farklı kişiler için aynı anlama gelme olasılığı daha yüksektir. Bu sadece uç noktalar için değil tüm kategoriler için geçerlidir.

Ürün listeleri ve sıralamaları için ortalamalar gibi toplu istatistikler kullanıldığında, yukarıdaki sorunlar karmaşık hale gelir. Kullanıcı derecelendirmeleri en iyisidir sıra kategoriler. Bu tür veriler için ortalamaların veya araçların hesaplanması alışılmadık bir durum olmasa da, bunu yapmak haklı gösterilemez çünkü ortalamaların hesaplanmasında, algılanan kalite seviyeleri arasındaki aynı farkı temsil etmek için eşit aralıklar gereklidir. Çevrimiçi olarak yaygın olarak kullanılan derecelendirme ölçekleri türlerine dayalı toplu verilerle ilgili temel sorunlar şunlardır:

  • Toplanan türden veriler için ortalamalar hesaplanmamalıdır.
  • Kullanıcı derecelendirmelerinin güvenilirliğini veya geçerliliğini değerlendirmek genellikle imkansızdır.
  • Ürünler, ortak bir yana, açıklıkla karşılaştırılmaz[açıklama gerekli ], kriterler.
  • Yalnızca bir ürün için derecelendirme göndermeye meyilli kullanıcılar bunu yapar.
  • Veriler genellikle ürün derecelendirmelerinin değerlendirilmesine izin veren bir biçimde yayınlanmaz.

Daha gelişmiş metodolojiler şunları içerir: Seçim Modellemesi veya Maksimum Fark yöntemler, ikincisi Rasch modeli Thurstone'un karşılaştırmalı yargı yasası arasındaki bağlantı nedeniyle[açıklama gerekli ] ve Rasch modeli.

Ayrıca bakınız

Referanslar

  1. ^ Andrich, David (Aralık 1978). "Sıralı yanıt kategorileri için bir derecelendirme formülasyonu". Psychometrika. 43 (4): 561–573. doi:10.1007 / BF02293814.
  2. ^ Cronbach, Lee J. (Eylül 1951). "Katsayı alfa ve testlerin iç yapısı". Psychometrika. 16 (3): 297–334. CiteSeerX  10.1.1.452.6417. doi:10.1007 / BF02310555.

Dış bağlantılar