Önceden konjuge - Conjugate prior

İçinde Bayes olasılığı teori, eğer arka dağılımlar p(θ | x) aynı olasılık dağılım ailesi olarak önceki olasılık dağılımı p(θ), daha sonra önceki ve sonraki çağrılır eşlenik dağılımlar, ve öncekine a denir önceki eşlenik için olasılık işlevi p(x | θ). Örneğin, Gauss aile kendine eşleniktir (veya kendi kendine eşlenik) bir Gauss olabilirlik fonksiyonu ile ilgili olarak: eğer olasılık fonksiyonu Gauss ise, ortalamanın üzerinde bir Gaussian seçmek, arka dağılımın da Gaussian olmasını sağlayacaktır. Bu, Gauss dağılımının, aynı zamanda Gaussian olan olasılığın eşlenik bir önceliği olduğu anlamına gelir. Kavram ve "önceki eşlenik" terimi, Howard Raiffa ve Robert Schlaifer çalışmalarında Bayesçi karar teorisi.[1] Benzer bir kavram bağımsız olarak keşfedilmişti. George Alfred Barnard.[2]

Bazı verilere veya verilere verilen bir parameter parametresi için (sürekli) bir dağılım çıkarmanın genel problemini düşünün. x. Nereden Bayes teoremi, arka dağılım, olabilirlik fonksiyonunun ürününe eşittir ve önceki , verilerin olasılığına göre normalleştirilmiş (bölünmüş) :

Olabilirlik fonksiyonunun sabit kabul edelim; Olabilirlik işlevi genellikle veri oluşturma sürecinin bir ifadesinden iyi belirlenir[örnek gerekli ]. Önceki dağıtımın farklı seçeneklerinin p(θ) integralin hesaplanmasını az çok zorlaştırabilir ve çarpım p(x|θ) × p(θ) bir cebirsel form veya başka bir form alabilir. Öncekinin belirli seçimleri için posterior, öncekiyle aynı cebirsel forma sahiptir (genellikle farklı parametre değerleriyle). Böyle bir seçim önceki eşlenik.

Eşlenik önceki bir cebirsel kolaylıktır, kapalı form ifadesi posterior için; aksi takdirde Sayısal entegrasyon gerekli olabilir. Dahası, eşlenik öncelikler bir olasılık fonksiyonunun önceki bir dağıtımı nasıl güncellediğini daha şeffaf bir şekilde göstererek sezgi verebilir.

Tüm üyeleri üstel aile eşlenik geçmişleri var.[3]

Misal

Önceki konjugatın şekli genel olarak, olasılık yoğunluğu veya olasılık kütle fonksiyonu bir dağıtımın. Örneğin, bir rastgele değişken başarıların sayısından oluşan içinde Bernoulli denemeleri bilinmeyen başarı olasılığı ile [0,1] içinde. Bu rastgele değişken, Binom dağılımı, formun olasılık kütle fonksiyonu ile

Her zamanki eşlenik önceki, beta dağılımı parametrelerle (, ):

nerede ve mevcut herhangi bir inancı veya bilgiyi yansıtmak üzere seçilmişlerdir ( = 1 ve = 1 verir üniforma dağıtımı ) ve Β() Beta işlevi gibi davranmak sabit normalleştirme.

Bu içerikte, ve arandı hiperparametreler (öncekinin parametreleri), bunları temel modelin parametrelerinden ayırmak için (burada q). Hiperparametrelerin boyutluluğunun, orijinal dağılımın parametrelerinden bir daha büyük olması, eşlenik önceliklerin tipik bir özelliğidir. Tüm parametreler skaler değerler ise, bu, parametreden bir fazla hiperparametre olacağı anlamına gelir; ancak bu, vektör değerli ve matris değerli parametreler için de geçerlidir. (Genel makaleye bakın. üstel aile ve ayrıca düşünün Wishart dağıtımı, önceki eşlenik kovaryans matrisi bir çok değişkenli normal dağılım, büyük boyutluluğun söz konusu olduğu bir örnek için.)

Daha sonra bu rastgele değişkeni örnekleyip şunu elde edersek: s başarılar ve f başarısızlıklarımız var

parametreli başka bir Beta dağılımı olan ( + s, + f). Bu posterior dağılım daha sonra daha fazla örnek için öncelik olarak kullanılabilir, hiperparametreler sadece her ekstra bilgi parçasını geldikçe ekler.

Sözde gözlemler

Bir eşlenik önceki dağılımın hiperparametrelerinin belirli sayıda gözlemlenmiş olmasına karşılık geldiğini düşünmek genellikle yararlıdır. sözde gözlemler parametreler tarafından belirtilen özelliklere sahip. Örneğin değerler ve bir beta dağılımı karşılık geldiği düşünülebilir başarılar ve optimum bir parametre ayarı seçmek için arka mod kullanılırsa arızalar veya başarılar ve optimal bir parametre ayarı seçmek için arka ortalama kullanılırsa başarısız olur. Genel olarak, hemen hemen tüm eşlenik önceki dağılımlar için, hiperparametreler sözde gözlemler olarak yorumlanabilir. Bu, hem sık sık karışık olan güncelleme denklemlerinin ardında bir sezgi sağlamaya hem de bir önceki için makul hiperparametreler seçmeye yardımcı olabilir.

Yorumlar

Özfonksiyonlarla analoji[kaynak belirtilmeli ]

Eşlenik öncelikler benzerdir özfonksiyonlar içinde operatör teorisi bir operatör olarak öncekinden arkaya geçiş sürecini düşünerek, "koşullandırma operatörünün" iyi anlaşılmış bir şekilde hareket ettiği dağıtımlardır.

Hem özfonksiyonlarda hem de eşlenik öncüllerde, bir sonlu boyutlu operatör tarafından korunan alan: çıktı, girdi ile aynı formdadır (aynı boşlukta). Bu, aksi takdirde sonsuz boyutlu bir uzay (tüm fonksiyonların uzayı, tüm dağılımların uzayı) dikkate alması nedeniyle analizi büyük ölçüde basitleştirir.

Bununla birlikte, süreçler sadece benzerdir, özdeş değildir: koşullandırma doğrusal değildir, çünkü dağılımlar alanı doğrusal kombinasyon, sadece dışbükey kombinasyon ve arka taraf sadece aynı form önceki gibi, skaler kat değil.

Bir operatörün uygulaması altında özfonksiyonların doğrusal bir kombinasyonunun nasıl geliştiğini kolayca analiz edebilmesi gibi (çünkü, bu fonksiyonlarla ilgili olarak operatör, köşegenleştirilmiş ), konjuge önceliklerin konveks bir kombinasyonunun koşullandırma altında nasıl evrimleştiği kolaylıkla analiz edilebilir; buna bir hiperprior, ve a kullanımına karşılık gelir karışım yoğunluğu tek bir konjugat öncekinden ziyade eşlenik öncüllerin.

Dinamik sistem

Eşlenik öncüllere göre şartlandırmanın bir tür (ayrık zaman) tanımlanması olarak düşünülebilir. dinamik sistem: belirli bir hiperparametre kümesinden gelen veriler bu hiperparametreleri günceller, böylece hiperparametrelerdeki değişikliği sistemin "öğrenmeye" karşılık gelen bir tür "zaman evrimi" olarak görebilir. Farklı noktalardan başlamak, zamanla farklı akışlar sağlar. Bu yine doğrusal bir operatör tarafından tanımlanan dinamik sisteme benzer, ancak farklı örnekler farklı çıkarımlara yol açtığından, bunun sadece zamana değil, zaman içindeki verilere bağlı olduğuna dikkat edin. İlgili yaklaşımlar için bkz. Yinelemeli Bayes kestirimi ve Veri asimilasyonu.

Pratik örnek

Şehrinizde kiralık bir araba servisinin çalıştığını varsayalım. Sürücüler, şehir sınırları içinde herhangi bir yerde araç bırakabilir ve alabilir. Bir uygulamayı kullanarak araba bulabilir ve kiralayabilirsiniz.

Günün herhangi bir saatinde ev adresinize kısa bir mesafede bir kiralık araba bulma olasılığınızı bulmak istediğinizi varsayalım.

Üç gün içinde, günün rastgele saatlerinde uygulamaya bakarsınız ve ev adresinize kısa bir mesafede aşağıdaki araç sayısını bulursunuz:

Verilerin bir Poisson Dağılımı hesaplayabiliriz maksimum olasılık modelin parametrelerinin tahmini Bu maksimum olasılık tahminini kullanarak, en az bir arabanın mevcut olma olasılığını hesaplayabiliriz:

Bu Poisson dağılımıdır büyük olasılıkla gözlemlenen verileri oluşturmuştur . Ancak veriler başka bir Poisson dağılımından da gelmiş olabilir, ör. ile veya , vb. Aslında sonsuz sayıda poisson dağılımı vardır. abilir gözlemlenen verileri oluşturmuştur ve görece az veri noktasıyla, bu verileri hangi tam poisson dağılımının oluşturduğundan oldukça emin olmamız gerekir. Sezgisel olarak bunun yerine olasılığın ağırlıklı ortalamasını almalıyız Bu Poisson dağılımlarının her biri için, gözlemlediğimiz verilere göre, her birinin ne kadar olası olduğuna göre ağırlıklandırılır. .

Genel olarak bu miktar, posterior tahmin dağılımı nerede yeni bir veri noktasıdır, gözlemlenen veriler ve modelin parametreleridir. Kullanma Bayes teoremi genişletebiliriz öyle ki Genel olarak, bu integralin hesaplanması zordur. Ancak, önceden bir eşlenik dağıtım seçerseniz kapalı form ifadesi türetilebilir. Bu, aşağıdaki tablolarda yer alan arka tahmin sütunudur.

Örneğimize dönersek, Gama dağılımı poisson dağılımlarının oranı üzerinden önceki dağılımımız olarak, son tahmin, negatif binom dağılımı aşağıdaki tablodaki son sütundan görülebileceği gibi. Gama dağılımı iki hiperparametre ile parametrelendirilir seçmemiz gereken. Gama dağılımının grafiklerine bakarak , bu ortalama araba sayısı için makul bir öncesidir. Önceki hiperparametrelerin seçimi doğası gereği özneldir ve önceki bilgilere dayanır.

Önceki hiperparametreler göz önüne alındığında ve arka hiperparametreleri hesaplayabiliriz ve

Posterior hiperparametreler göz önüne alındığında, nihayet posterior tahminini hesaplayabiliriz

Bu çok daha ihtiyatlı tahmin, arka öngörünün hesaba kattığı model parametrelerindeki belirsizliği yansıtır.

Eşlenik dağılım tablosu

İzin Vermek n gözlemlerin sayısını gösterir. Aşağıdaki tüm durumlarda, verilerin aşağıdakilerden oluştuğu varsayılır: n puan (hangisi olacak rastgele vektörler çok değişkenli durumlarda).

Olasılık işlevi, üstel aile, daha sonra, genellikle üstel ailede de bir eşlenik ön vardır; görmek Üstel aile: Eşlenik dağılımlar.

Olabilirlik işlevi ayrık bir dağılım olduğunda

OlasılıkModel parametreleriÖnceki dağıtım eşlenikÖnceki hiperparametrelerArka hiperparametreler[not 1]Hiperparametrelerin yorumlanmasıArka tahmin[not 2]
Bernoullip (olasılık)Beta başarılar başarısızlıklar[not 3]
Binomp (olasılık)Beta başarılar başarısızlıklar[not 3]
(beta-binom )
Negatif iki terimli
bilinen arıza numarası ile, r
p (olasılık)Beta toplam başarı, başarısızlıklar[not 3] (yani deneyler, varsayım sabit kalır)

(beta negatif iki terimli)

Poissonλ (oran)Gama toplam oluşum aralıklar
(negatif iki terimli )
[not 4] toplam oluşum aralıklar
(negatif iki terimli )
Kategorikp (olasılık vektörü), k (kategori sayısı; yani boyutu p)Dirichlet nerede kategorideki gözlemlerin sayısıdır ben kategori oluşumları [not 3]
Çok terimlip (olasılık vektörü), k (kategori sayısı; yani boyutu p)Dirichlet kategori oluşumları [not 3]
(Dirichlet-multinomial )
Hipergeometrik
bilinen toplam nüfus büyüklüğü ile N
M (hedef üye sayısı)Beta-binom[4] başarılar başarısızlıklar[not 3]
Geometrikp0 (olasılık)Beta deneyler toplam başarısızlıklar[not 3]

Olabilirlik işlevi sürekli bir dağılım olduğunda

OlasılıkModel parametreleriÖnceki dağıtım eşlenikÖnceki hiperparametrelerArka hiperparametreler[not 1]Hiperparametrelerin yorumlanmasıArka tahmin[not 5]
Normal
bilinen varyansla σ2
μ (anlamına gelmek)Normalortalama, toplam hassasiyetle gözlemlerden tahmin edilmiştir (tüm bireysel hassasiyetlerin toplamı) ve örnek ortalamayla [5]
Normal
bilinen hassasiyetle τ
μ (anlamına gelmek)Normalortalama, toplam hassasiyetle gözlemlerden tahmin edilmiştir (tüm bireysel hassasiyetlerin toplamı) ve örnek ortalamayla [5]
Normal
bilinen anlamı ile μ
σ2 (varyans)Ters gama [not 6]varyans tahmin edildi örnek varyanslı gözlemler (yani toplamı ile kare sapmalar , bilinen ortalamadan sapmalar olduğunda )[5]
Normal
bilinen anlamı ile μ
σ2 (varyans)Ters ölçeklenmiş ki-karevaryans tahmin edildi örnek varyanslı gözlemler [5]
Normal
bilinen anlamı ile μ
τ (hassas)Gama[not 4]hassasiyet tahmin edildi örnek varyanslı gözlemler (yani toplamı ile kare sapmalar , bilinen ortalamadan sapmalar olduğunda )[5]
Normal[not 7]μ ve σ2
Varsayım değiştirilebilirlik
Normal-ters gama
  • örnek anlamı
ortalama tahmin edildi örnek ortalamalı gözlemler ; varyans tahmin edildi örnek ortalamalı gözlemler ve toplamı kare sapmalar [5]
Normalμ ve τ
Varsayım değiştirilebilirlik
Normal gama
  • örnek anlamı
ortalama tahmin edildi örnek ortalamalı gözlemler ve hassasiyet örnek ortalamalı gözlemler ve toplamı kare sapmalar [5]
Çok değişkenli normal bilinen kovaryans matrisi ile Σμ (ortalama vektör)Çok değişkenli normal
  • örnek anlamı
ortalama, toplam hassasiyetle gözlemlerden tahmin edilmiştir (tüm bireysel hassasiyetlerin toplamı) ve örnek ortalamayla [5]
Çok değişkenli normal bilinen hassas matris ile Λμ (ortalama vektör)Çok değişkenli normal
  • örnek anlamı
ortalama, toplam hassasiyetle gözlemlerden tahmin edilmiştir (tüm bireysel hassasiyetlerin toplamı) ve örnek ortalamayla [5]
Çok değişkenli normal bilinen anlamı ile μΣ (kovaryans matrisi)Ters-Wishartkovaryans matrisi ikili sapma ürünlerinin toplamı ile gözlemler [5]
Çok değişkenli normal bilinen anlamı ile μΛ (hassas matris)Wishartkovaryans matrisi ikili sapma ürünlerinin toplamı ile gözlemler [5]
Çok değişkenli normalμ (ortalama vektör) ve Σ (kovaryans matrisi)normal-ters-Wishart
  • örnek anlamı
ortalama tahmin edildi örnek ortalamalı gözlemler ; kovaryans matrisi örnek ortalamalı gözlemler ve ikili sapma ürünlerinin toplamı ile [5]
Çok değişkenli normalμ (ortalama vektör) ve Λ (hassas matris)normal Wishart
  • örnek anlamı
ortalama tahmin edildi örnek ortalamalı gözlemler ; kovaryans matrisi örnek ortalamalı gözlemler ve ikili sapma ürünlerinin toplamı ile [5]
ÜniformaPareto maksimum değere sahip gözlemler
Pareto
bilinen minimum xm
k (şekil)Gama toplamlı gözlemler of büyüklük sırası her gözlemin (yani her gözlemin minimuma oranının logaritması) )
Weibull
bilinen şekli ile β
θ (ölçek)Ters gama[4] toplamlı gözlemler of β 'her gözlemin gücü
Normal günlükVerileri üslendikten sonra normal dağılımla aynı
Üstelλ (oran)Gama [not 4] toplamı olan gözlemler [6]
(Lomax dağılımı )
Gama
bilinen şekli ile α
β (oran)Gama toplamlı gözlemler [not 8]
Ters Gama
bilinen şekli ile α
β (ters ölçek)Gama toplamlı gözlemler
Gama
bilinen oranla β
α (şekil) veya gözlemler ( tahmin etmek için , tahmin etmek için ) ürünle
Gama [4]α (şekil), β (ters ölçek) -dan tahmin edildi ürün ile gözlemler ; -dan tahmin edildi toplamlı gözlemler

Ayrıca bakınız

Notlar

  1. ^ a b Asalların eklendiği (') önceki hiperparametreler ile aynı sembollerle gösterilir. Örneğin gösterilir
  2. ^ Bu posterior tahmin dağılımı yeni bir veri noktasının gözlemlenen veri noktaları verildiğinde, parametrelerle birlikte dışlanmış. Asal değerlere sahip değişkenler, parametrelerin son değerlerini gösterir.
  3. ^ a b c d e f g A'nın parametrelerinin tam yorumu beta dağılımı Başarıların ve başarısızlıkların sayısı, dağılımdan bir nokta tahmini çıkarmak için hangi fonksiyonun kullanıldığına bağlıdır. Beta dağılımının ortalaması karşılık gelen başarılar ve moddayken arızalar karşılık gelen başarılar ve başarısızlıklar. Bayesliler genellikle bir nokta tahmini olarak posterior moddan ziyade posterior ortalamayı kullanmayı tercih eder, ikinci dereceden bir kayıp fonksiyonu ile gerekçelendirilir ve ve matematiksel olarak daha kullanışlıdır. ve üniforma avantajına sahiptir önceki 0 başarıya ve 0 başarısızlığa karşılık gelir. Aynı konular için de geçerlidir Dirichlet dağılımı.
  4. ^ a b c β oran veya ters ölçektir. Parametrelendirmede gama dağılımı,θ = 1/β ve k = α.
  5. ^ Bu posterior tahmin dağılımı yeni bir veri noktasının gözlemlenen veri noktaları verildiğinde, parametrelerle birlikte dışlanmış. Asal değerlere sahip değişkenler, parametrelerin son değerlerini gösterir. ve bakın normal dağılım ve Student t dağılımı sırasıyla veya çok değişkenli normal dağılım ve çok değişkenli t dağılımı çok değişkenli durumlarda.
  6. ^ Açısından ters gama, bir ölçek parametresi
  7. ^ Bilinmeyen ortalama ve varyans için farklı bir konjugat, ancak aralarında sabit, doğrusal bir ilişki bulunan, normal varyans-ortalama karışım, ile genelleştirilmiş ters Gauss eşlenik karışım dağılımı olarak.
  8. ^ bir bileşik gama dağılımı; burada bir genelleştirilmiş beta asal dağılımı.

Referanslar

  1. ^ Howard Raiffa ve Robert Schlaifer. Uygulamalı İstatistiksel Karar Teorisi. Araştırma Bölümü, İşletme Enstitüsü, Harvard Üniversitesi, 1961.
  2. ^ Jeff Miller vd. Matematikle İlgili Bazı Kelimelerin Bilinen En Eski Kullanımları, "önceki dağılımları birleştir". Elektronik belge, 13 Kasım 2005 tarihli revizyon, 2 Aralık 2005'te alındı.
  3. ^ Katalog için bkz. Gelman, Andrew; Carlin, John B .; Stern, Hal S .; Rubin Donald B. (2003). Bayes Veri Analizi (2. baskı). CRC Basın. ISBN  1-58488-388-X.
  4. ^ a b c Fink, Daniel (Mayıs 1997). "Eşlenik Rahiplerin Özeti" (PDF). CiteSeerX  10.1.1.157.5540. Arşivlenen orijinal (PDF) 29 Mayıs 2009.
  5. ^ a b c d e f g h ben j k l m Murphy, Kevin P. (2007), Gauss dağılımının eşlenik Bayes analizi (PDF)
  6. ^ İstatistiksel Makine Öğrenimi, Han Liu ve Larry Wasserman, 2014, sf. 314: http://www.stat.cmu.edu/~larry/=sml/Bayes.pdf