Çevrimiçi içerik analizi - Online content analysis - Wikipedia

Çevrimiçi içerik analizi veya çevrimiçi metin analizi sistematik kodlama ve yorumlama yoluyla çevrimiçi materyali tanımlamak ve bunlarla ilgili çıkarımlar yapmak için kullanılan araştırma teknikleri koleksiyonunu ifade eder. Çevrimiçi içerik analizi, içerik analizi İnternet tabanlı iletişimin analizi için.

Tarih ve tanım

İletişimin sistematik bir incelemesi ve yorumu olarak içerik analizi, en azından 17. yüzyıla kadar uzanır. Ancak, yükselişe kadar değildi gazete 20. yüzyılın başlarında, basılı materyallerin seri üretiminin, basılı kelimelerin niceliksel analizi için bir talep yarattı.[1]

Berelson’un (1952) tanımı, "açık iletişim içeriğinin nesnel, sistematik ve niceliksel tanımı için bir araştırma tekniği" olarak metin analizi için temel bir temel sağlar.[2] İçerik analizi, analistin metinleri yorumlamasına ve çıkarımlar yapmasına olanak tanıyan bir veri kümesi oluşturmak için metin birimlerini (yani cümleler, yarı cümleler, paragraflar, belgeler, web sayfaları vb.) Maddi özelliklerine göre kategorize etmekten oluşur. İçerik analizi genellikle nicel, araştırmacılar tekniği doğal olarak kavramsallaştırır karışık yöntemler çünkü metinsel kodlama yüksek derecede nitel yorumlama.[3] Sosyal bilimciler bu tekniği, ilgili araştırma sorularını araştırmak için kullandılar. kitle iletişim araçları,[1] medya efektleri[4] ve ajanda ayarları.[5]

Çevrimiçi iletişimin yükselişiyle, içerik analizi teknikleri uyarlandı ve uygulandı internet araştırması. Gazetelerin yükselişinde olduğu gibi, çevrimiçi içeriğin yaygınlaşması, içerik analizi ile ilgilenen araştırmacılar için genişletilmiş bir fırsat sunmaktadır. Çevrimiçi kaynakların kullanımı yeni araştırma sorunları ve fırsatları sunarken, McMillan (2000) tarafından özetlenen çevrimiçi içerik analizinin temel araştırma prosedürü, çevrimdışı kaynakları kullanan içerik analizinden neredeyse ayırt edilemez:

  1. Teorik gelişmelere yol açabilecek test edilebilir hipotezleri belirlemeye odaklanan bir araştırma sorusu oluşturun.
  2. Tanımla örnekleme çerçevesi analiz edilecek içerikten bir örnek alınacak ve bir örnek (genellikle "külliyat" olarak adlandırılır) oluşturacaktır.
  3. 1. adımda tanımlanan soruyu cevaplamak için içeriği kategorilere ayırmak için kullanılabilecek bir kodlama şeması geliştirin ve uygulayın. Bu, bir zaman periyodu, içeriğin gömülü olduğu bir bağlam birimi ve içeriği kategorize eden bir kodlama birimi belirtmeyi gerektirir.
  4. Kodlayıcıları, kodlama şemasını tutarlı bir şekilde uygulamak ve doğrulamak için eğitin güvenilirlik kodlayıcılar arasında. Bu, sağlamanın önemli bir adımıdır. tekrarlanabilirlik analizin.
  5. Verileri analiz edin ve yorumlayın. 1. adımda geliştirilen hipotezleri test edin ve veri kümesinde temsil edilen içerikle ilgili sonuçlar çıkarın.

İnternet araştırmasında içerik analizi

Çevrimiçi iletişimin yükselişinden bu yana, bilim adamları metin analizi tekniklerini web tabanlı içeriği incelemek için nasıl uyarlayacaklarını tartıştılar. Çevrimiçi kaynakların doğası, çevrimdışı kaynaklara kıyasla bir içerik analizinin birçok adımında özel dikkat gerektirir.

Basılı metin gibi çevrimdışı içerik üretildikten sonra sabit kalırken, çevrimiçi içerik sıklıkla değişebilir. Çevrimiçi materyalin dinamik doğası, büyük ve artan çevrimiçi içerik hacmi ile birleştiğinde, içinden rastgele bir örnek alınabilecek bir örnekleme çerçevesi oluşturmayı zorlaştırabilir. Bir sitenin içeriği, örnekleme çerçevesinin dikkatli bir şekilde belirtilmesini gerektirecek şekilde kullanıcılar arasında da farklılık gösterebilir. Bazı araştırmacılar, örnekleme çerçeveleri oluşturmak için arama motorlarını kullandılar. Bu tekniğin dezavantajları vardır, çünkü arama motoru sonuçları sistematik değildir ve rastgele değildir, bu da onları tarafsız bir örnek elde etmek için güvenilmez hale getirir. Örnekleme çerçevesi sorunu, belirli Twitter kullanıcılarının tweet'leri gibi tüm ilgili popülasyon kullanılarak çözülebilir.[6] ya da örnekleme çerçevesi olarak belirli gazetelerin çevrimiçi arşivlenmiş içeriği.[7] Çevrimiçi materyalde yapılan değişiklikler, içeriği sınıflandırmayı (3. adım) daha zor hale getirebilir. Çevrimiçi içerik sık sık değişebileceğinden, örneğin toplandığı süreyi not etmek özellikle önemlidir. Yararlı bir adım, değişikliklerin yapılmasını önlemek için örnek içeriği arşivlemektir.

Çevrimiçi içerik de doğrusal değildir. Basılı metnin, bağlam birimlerini (örneğin bir gazete makalesi) tanımlamak için kullanılabilecek açıkça tanımlanmış sınırları vardır. Bir örnekte kullanılacak çevrimiçi içeriğin sınırları daha az kolay tanımlanır. İlk çevrimiçi içerik analistleri, ne anlama geldiklerine dair net bir tanım olmaksızın genellikle bir bağlam birimi olarak bir "Web sitesini" belirlediler.[2] Araştırmacılar, bir "web sayfasının" neyi içerdiğini net ve tutarlı bir şekilde tanımlamayı veya bağlam biriminin boyutunu bir web sitesindeki bir özelliğe indirgemeyi tavsiye ediyor.[2][3] Araştırmacılar ayrıca web yorumları gibi daha ayrık çevrimiçi iletişim birimlerinden de yararlandılar.[8] veya tweetler.[6]

King (2008), bir dizi arama motorunun konusunu analiz etmek için binlerce önceden sınıflandırılmış belgeden eğitilmiş bir terim ontolojisi kullanmıştır.[9]

Otomatik içerik analizi

Çevrimiçi içeriğin yükselişi, araştırmada kullanılabilecek dijital metin miktarını önemli ölçüde artırmıştır. Mevcut metin miktarı, geleneksel metodolojik uygulamada olduğu gibi pratik olarak elle kodlanamayacak kadar büyük metinsel veri setlerini anlamlandırmak için metodolojik yenilikleri motive etmiştir.[3][7] Metodolojideki ilerlemeler, artan kapasite ve azalan hesaplama giderleri ile birlikte araştırmacıların daha önce büyük metin içeriği setlerini analiz etmek için mevcut olmayan teknikleri kullanmalarına izin verdi.

Otomatik içerik analizi, insan kodlayıcıların bir hesaplama yöntemiyle desteklendiği ve bu yöntemlerden bazıları kategorilerin ileri düzeyde tanımlanmasını gerektirmediğinden, McMillan'ın çevrimiçi içerik analizi prosedüründen biraz farklı olduğunu gösterir. Nicel metin analizi modelleri genellikle kelime sırasını kaldıran, çok yaygın ve çok nadir olan kelimeleri silen ve kelimeleri basitleştiren 'kelime çantası' yöntemlerini kullanır. süzme veya köklenme Bu, karmaşık kelimeleri kök kelimelerine indirgeyerek metnin boyutsallığını azaltır.[10] Bu yöntemler, metni yorumlama biçimlerinde temelde indirgemeci olsalar da, doğru şekilde uygulanıp onaylanırlarsa çok yararlı olabilirler.

Grimmer ve Stewart (2013), otomatik metin analizinin iki ana kategorisini tanımlar: denetimli ve denetimsiz yöntemler.Denetimli yöntemler bir kodlama şeması oluşturmayı ve araştırmacının analiz etmek istediği belgelerin bir alt örneğini manuel olarak kodlamayı içerir. İdeal olarak, 'eğitim seti' olarak adlandırılan alt örneklem, örneğin bir bütün olarak temsilidir. Kodlanmış eğitim seti daha sonra bir algoritmaya, belgelerdeki kelimelerin her bir kodlama kategorisine nasıl karşılık geldiğini 'öğretmek' için kullanılır. Algoritma, külliyatta kalan belgelerin otomatik olarak analiz edilmesi için uygulanabilir.[10]

  • Sözlük Yöntemleri: Araştırmacı bir dizi anahtar kelimeyi önceden seçer (n-gram ) her kategori için. Makine daha sonra her bir metin birimini bir kategoriye sınıflandırmak için bu anahtar kelimeleri kullanır.
  • Bireysel Yöntemler: Araştırmacı, bir metin örneğini önceden etiketler ve bir metin örneğini eğitir. makine öğrenme algoritma (ör. SVM algoritması ) bu etiketleri kullanarak. Makine, eğitim setindeki bilgileri tahmin ederek geri kalan gözlemleri etiketler.
  • Topluluk Yöntemleri: Araştırmacı, yalnızca bir makine öğrenimi algoritması kullanmak yerine, bunlardan bir setini eğitir ve gözlemlerin geri kalanını etiketlemek için ortaya çıkan çoklu etiketleri kullanır (daha fazla ayrıntı için Collingwood ve Wiklerson 2011'e bakın).[11]
  • Denetimli İdeolojik Ölçeklendirme (yani kelime puanları), farklı metin birimlerini ideolojik bir süreklilik boyunca yerleştirmek için kullanılır. Araştırmacı, her bir ideolojik uç noktayı temsil eden ve algoritmanın her uç noktaya ait kelimeleri tanımlamak için kullanabileceği iki metin seti seçer. Korpustaki metinlerin geri kalanı, içerdikleri her aşırı referansın kaç kelimesine bağlı olarak ölçeklenir.[12]

Denetimsiz yöntemler analizden önce kodlama için bir dizi kategori iyi tanımlanamadığında kullanılabilir. Denetimli yöntemlerin aksine, insan kodlayıcıların algoritmayı eğitmesi gerekmez. Araştırmacılar için denetimsiz yöntemleri uygularken önemli bir seçenek, kategorilerin ne olduğunu önceden tanımlamak yerine, belgeleri sıralamak için kategori sayısını seçmektir.

  • Tek üyelik modelleri: Bu modeller, metinleri otomatik olarak birbirini dışlayan farklı kategorilerde kümeler ve belgeler tek ve yalnızca bir kategori altında kodlanır. Grimmer ve Stewart'ın (16) işaret ettiği gibi, "her algoritmanın üç bileşeni vardır: (1) belge benzerliği veya mesafesinin bir tanımı; (2) operasyonel hale getiren ve ideal kümeleme yapan bir amaç işlevi; ve (3) bir optimizasyon algoritması."[10]
  • Karma üyelik modelleri: Grimmer ve Stewart'a (17) göre, karma üyelik modelleri "ek ve probleme özgü yapıları dahil ederek tek üyelik modellerinin çıktısını iyileştirir."[10] Karma üyelik FAC modelleri, her belgedeki ayrı kelimeleri kategorilere ayırarak bir bütün olarak belgenin aynı anda birden fazla kategorinin parçası olmasına izin verir. Konu modelleri Siyasi aktörlerin odak noktasındaki değişiklikleri analiz etmek için kullanılabilecek karma üyelik FAC'ın bir örneğini temsil eder[6] veya gazete makaleleri.[7] En çok kullanılan konu modelleme tekniklerinden biri LDA.
  • Denetimsiz İdeolojik Ölçeklendirme (yani wordfish): metin birimlerini paylaşılan gramer içeriğine bağlı olarak ideolojik bir sürekliliğe ayıran algoritmalar. Kelime puanları gibi denetimli ölçeklendirme yöntemlerinin aksine, wordfish gibi yöntemler[13] Araştırmacının aşırı ideolojik metin örnekleri sağlamasını gerektirmez.

Doğrulama

Denetimli yöntemlerin sonuçları, derlemenin 'doğrulama seti' adı verilen farklı bir alt-örneğinin çizilmesiyle doğrulanabilir. Doğrulama setindeki dokümanlar elle kodlanabilir ve algoritmanın insan kodlamasını ne kadar iyi kopyaladığını değerlendirmek için otomatik kodlama çıktısıyla karşılaştırılabilir. Bu karşılaştırma, geleneksel metin analizinde insan kodlayıcıların tutarlılığını doğrulamak için kullanılanlar gibi kodlayıcılar arası güvenilirlik puanları şeklinde olabilir.

Denetimsiz yöntemlerin doğrulanması birkaç yolla gerçekleştirilebilir.

  • Anlamsal (veya ) geçerlilik, tanımlanan her bir kümedeki belgelerin farklı, kategorik bir birimi ne kadar iyi temsil ettiğini temsil eder. Bir konu modelinde, bu, her kümedeki belgelerin aynı konuyu temsil etme derecesi olacaktır. Bu, insan kodlayıcıların konu seçimini veya farklı kümelerden gelen belgelere kıyasla küme içi belgelerin ilişkisini manuel olarak doğrulamak için kullandıkları bir doğrulama kümesi oluşturarak test edilebilir.
  • Tahmine dayalı (veya dış ) geçerlilik, her kümenin sıklığındaki değişimlerin dış olaylarla ne ölçüde açıklanabileceğidir. Konu kümeleri geçerliyse, en çok öne çıkan konular, meydana gelen dış olayların bir sonucu olarak zaman içinde tahmin edilebilir bir şekilde yanıt vermelidir.

Çevrimiçi metin analizindeki zorluklar

Sosyal bilimlerde metin analizinin sürekli gelişimine rağmen, hala çözülmemiş bazı metodolojik endişeler var. Bu, bazı endişeleri içeren (münhasır olmayan) bir listedir:

  • Araştırmacılar kategorilerini ne zaman tanımlamalı? Ön ödeme ileri geri veya özel ? Bazı sosyal bilimciler, araştırmacıların verileri toplamaya ve incelemeye başlamadan önce teorilerini, beklentilerini ve yöntemlerini (bu durumda farklı metin birimlerini sınıflandırmak için kullanacakları belirli kategoriler) oluşturmaları gerektiğini savunuyor.[14] bazıları ise bir dizi kategori tanımlamanın ileri geri bir süreç olduğunu destekler.[15][16]
  • Doğrulama. Çoğu araştırmacı yöntemleri için doğrulama ölçümleri rapor etse de (yani, kodlayıcılar arası güvenilirlik, kesinlik ve hatırlama tahminleri, karışıklık matrisleri, vb.) Özellikle, daha fazla sayıda akademisyen, bazı konu modelleme tekniklerinin nasıl onaylanamayacağı konusunda endişelidir.[17]
  • Rastgele Örnekler. Bir yandan, İnternette belirli bir zamanda bir tür metnin (örneğin blog gönderilerinin) kaç birimi olduğunu bilmek son derece zordur. Öyleyse, çoğu zaman evren bilinmediği için, araştırmacı nasıl rastgele bir örnek seçebilir? Bazı durumlarda rastgele bir örnek almak neredeyse imkansızsa, araştırmacılar örneklerle mi çalışmalı yoksa gözlemledikleri tüm metin birimlerini mi toplamaya çalışmalılar? Öte yandan, bazen araştırmacılar, bazı arama motorları (ör. Google) ve çevrimiçi şirketler (ör. Twitter) tarafından kendilerine verilen örneklerle çalışmak zorunda kalırlar, ancak araştırmanın bu örneklerin nasıl oluşturulduğuna ve bunların rastgele ya da değil. Araştırmalar bu tür örnekleri kullanmalı mı?

Ayrıca bakınız

Referanslar

  1. ^ a b Krippendorff Klaus (2012). İçerik Analizi: Metodolojisine giriş. Bin Meşe, CA: Adaçayı.
  2. ^ a b c McMillan, Sally J. (Mart 2000). "Mikroskop ve Hareket Eden Hedef: İçerik Analizini Dünya Çapında Ağa Uygulamanın Zorluğu". Gazetecilik ve Kitle İletişim Üç Aylık Bülteni. 77 (1): 80–98. doi:10.1177/107769900007700107.
  3. ^ a b c van Selm, Martine; Jankowski, Nick (2005). İnternet Tabanlı Belgelerin İçerik Analizi. Yayınlanmamış Makale.
  4. ^ Riffe, Daniel; Dantelli, Stephen; Fico, Frederick (1998). Medya Mesajlarını Analiz Etme: Araştırmada Nicel İçerik Analizini Kullanma. Mahwah, New Jersey, Londra: Lawrence Erlbaum.
  5. ^ Baumgartner, Frank; Jones Bryan (1993). Amerikan Siyasetinde Gündemler ve İstikrarsızlık. Chicago. Chicao Üniversitesi Yayınları. ISBN  9780226039534.
  6. ^ a b c Barberá, Pablo; Bonneau, Richard; Egan, Patrick; Jost, John; Nagler, Jonathan; Tucker, Joshua (2014). "Liderler veya Takipçiler? Sosyal Medya Verilerini Kullanarak ABD Kongresinde Siyasi Duyarlılığı Ölçme". Amerikan Siyaset Bilimi Derneği'nin Yıllık Toplantısında Teslimata Hazırlanmıştır.
  7. ^ a b c DiMaggio, Paul; Nag, Manish; Blei, David (Aralık 2013). "Konu modelleme ve kültüre sosyolojik bakış açısı arasındaki yakınlıkları kullanmak: ABD hükümeti sanat fonlarının gazete kapsamına alınması". Şiirsel. 41 (6): 570–606. doi:10.1016 / j.poetic.2013.08.004.
  8. ^ Mişne, Gilad; Bakış, Natalie (2006). "Bir yanıt bırakın: Web günlüğü yorumlarının analizi". Weblog Ekosistemi Üzerine Üçüncü Yıllık Konferansı.
  9. ^ Kral John D. (2008). Arama Motoru İçerik Analizi (Doktora). Queensland University of Techbology.
  10. ^ a b c d Grimmer, Justin; Stewart, Brandon (2013). "Veri Olarak Metin: Politik Metinler için Otomatik İçerik Analizi Yöntemlerinin Vaatleri ve Tuzakları". Siyasi Analiz. 21 (3): 1–31.
  11. ^ Collingwood, Loren ve John Wilkerson. (2011). Denetimli Öğrenme Yöntemlerinde Doğruluk ve Verimlilikte Ödünleşmeler, The Journal of Information Technology and Politics, Makale 4.
  12. ^ Gerber, Elisabeth; Lewis, Jeff (2004). "Ortanca değerin ötesinde: Seçmen tercihleri, bölge heterojenliği ve siyasi temsil" (PDF). Politik Ekonomi Dergisi. 112 (6): 1364–83. CiteSeerX  10.1.1.320.8707. doi:10.1086/424737.
  13. ^ Slapin, Jonathan ve Sven-Oliver Proksch. 2008. Metinlerden zaman serisi parti konumlarını tahmin etmek için bir ölçeklendirme modeli.American Journal of Political Science 52 (3): 705–22.
  14. ^ King, Gary, Robert O. Keohane ve Sidney Verba. (1994). Sosyal Sorgulamanın Tasarlanması: Nitel Araştırmada Bilimsel Çıkarım. Princeton: Prince Üniversitesi Yayınları.
  15. ^ Ringa balığı Susan C. (2009). "Web İçeriği Analizi: Paradigmayı Genişletmek". Hunsinger içinde, Jeremy (ed.). Uluslararası İnternet Araştırmaları El Kitabı. Springer Hollanda. s. 233–249. CiteSeerX  10.1.1.476.6090. doi:10.1007/978-1-4020-9789-8_14. ISBN  978-1-4020-9788-1.
  16. ^ Saldana Johnny. (2009). Nitel Araştırma Kodlama Kılavuzu. Londra: SAGE Publication Ltd.
  17. ^ Chuang, Jason, John D. Wilkerson, Rebecca Weiss, Dustin Tingley, Brandon M. Stewart, Margaret E. Roberts, Forough Poursabzi-Sangdeh, Justin Grimmer, Leah Findlater, Jordan Boyd-Graber ve Jeffrey Heer. (2014). Bilgisayar Destekli İçerik Analizi: Birden Çok Öznel Yorumu Keşfetmeye Yönelik Konu Modelleri. Neural Information Processing Systems (NIPS) konferansında sunulan bildiri. HumanPropelled Makine Öğrenimi Çalıştayı. Montreal, Kanada.