Varyasyonel Bayesci yöntemler - Variational Bayesian methods

Varyasyonel Bayesci yöntemler inatçı yaklaşıma yönelik bir teknikler ailesidir. integraller ortaya çıkan Bayesci çıkarım ve makine öğrenme. Genellikle karmaşık olarak kullanılırlar istatistiksel modeller gözlemlenen değişkenlerden (genellikle "veri" olarak adlandırılır) ve bilinmeyenlerden oluşur parametreleri ve gizli değişkenler üç tür arasında çeşitli ilişkilerle rastgele değişkenler tarafından tanımlanabileceği gibi grafik model. Bayesci çıkarımda tipik olarak, parametreler ve gizli değişkenler "gözlenmeyen değişkenler" olarak birlikte gruplanır. Varyasyonel Bayes yöntemleri öncelikle iki amaç için kullanılır:

  1. Analitik bir yaklaşım sağlamak için arka olasılık gözlenmeyen değişkenlerin istatiksel sonuç bu değişkenler üzerinde.
  2. Türetmek için alt sınır için marjinal olasılık (bazen "kanıt" olarak adlandırılır) gözlemlenen verilerin (ör. marjinal olasılık Marjinalleştirme, gözlemlenmeyen değişkenler üzerinden yapılan modele verilen verilerin). Bu genellikle gerçekleştirmek için kullanılır model seçimi Genel fikir, belirli bir model için daha yüksek bir marjinal olasılığın, bu modele göre verilerin daha iyi uyduğunu ve dolayısıyla söz konusu modelin veriyi oluşturan model olma olasılığının daha yüksek olduğunu gösterir. (Ayrıca bkz. Bayes faktörü makale.)

Önceki amaçta (arka olasılığa yaklaşma), varyasyonel Bayes bir alternatiftir. Monte Carlo örneklemesi yöntemler - özellikle, Markov zinciri Monte Carlo gibi yöntemler Gibbs örneklemesi - tamamen Bayesci bir yaklaşım benimsediği için istatiksel sonuç karmaşık dağıtımlar doğrudan değerlendirilmesi zor olan veya örneklem. Özellikle, Monte Carlo teknikleri bir dizi örnek kullanarak tam posteriora sayısal bir yaklaşım sağlarken, Varyasyonel Bayes, posteriorun yaklaşıklığına yerel olarak optimal, tam bir analitik çözüm sağlar.

Varyasyonel Bayes, EM'nin bir uzantısı olarak görülebilir (beklenti maksimizasyonu ) algoritma maksimum a posteriori tahmin (MAP tahmini) her parametrenin en olası tek değerinin (MAP tahmini) tamamını hesaplayan (yaklaşık olarak) tam Bayes tahmini için arka dağıtım parametrelerin ve gizli değişkenlerin. EM'de olduğu gibi, bir dizi optimal parametre değeri bulur ve analitik olarak çözülemeyen bir dizi birbirine bağlı (karşılıklı olarak bağımlı) denkleme dayalı olarak EM ile aynı alternatif yapıya sahiptir.

Birçok uygulama için, değişken Bayes, Gibbs örneklemesine daha yüksek hızda benzer doğrulukta çözümler üretir. Bununla birlikte, parametreleri yinelemeli olarak güncellemek için kullanılan denklem setini türetmek, karşılaştırılabilir Gibbs örnekleme denklemlerini türetmeye kıyasla çoğu zaman büyük miktarda çalışma gerektirir. Aşağıda yalnızca iki parametresi olan ve gizli değişkenleri olmayan temel hiyerarşik olmayan model durumunda gösterildiği gibi kavramsal olarak oldukça basit olan birçok model için bile durum böyledir.

Matematiksel türetme

Sorun

İçinde değişken çıkarım, gözlemlenmemiş değişkenler kümesi üzerindeki son dağılım bazı veriler verildi yaklaşık olarak bir sözde varyasyonel dağılım, :

Dağıtım daha basit formdaki bir dağıtım ailesine ait olmakla sınırlıdır (örneğin, bir Gauss dağılımları ailesi) , yapma niyetiyle seçilmiş gerçek posteriora benzer, .

Benzerlik (veya farklılık), benzerlik fonksiyonu açısından ölçülür ve dolayısıyla çıkarım, dağıtım seçilerek gerçekleştirilir en aza indiren .

KL sapması

En yaygın varyasyonel Bayes türü, Kullback-Leibler sapması (KL-sapma) P itibaren Q benzemezlik fonksiyonunun seçimi olarak. Bu seçim, bu küçültmeyi izlenebilir kılar. KL sapması şu şekilde tanımlanır:

Bunu not et Q ve P beklenenden tersine çevrilmiştir. Ters KL-diverjansının bu kullanımı kavramsal olarak şuna benzer: beklenti maksimizasyonu algoritması. (KL sapmasını başka bir şekilde kullanmak, beklenti yayılımı algoritması.)

İnatçılık

Varyasyonel teknikler tipik olarak aşağıdakiler için bir yaklaşım oluşturmak için kullanılır:

Marjinalleşme bitti hesaplamak paydada genellikle inatçıdır, çünkü, örneğin, arama alanı birleşimsel olarak büyüktür. Bu nedenle, kullanarak bir yaklaşım arıyoruz .

Kanıt alt sınırı

Verilen , yukarıdaki KL sapması şu şekilde de yazılabilir:

Çünkü bir sabittir ve Çünkü bir dağıtım, bizde

tanımına göre beklenen değer (ayrı bir rastgele değişken ) aşağıdaki gibi yazılabilir

yeniden düzenlenebilir

Olarak günlük kanıt ile ilgili olarak sabittir , son terimi maksimize etmek KL sapmasını en aza indirir itibaren . Uygun seçimle , hesaplamak ve maksimize etmek için izlenebilir hale gelir. Dolayısıyla hem analitik bir yaklaşımımız var posterior için ve bir alt sınır kanıt için (KL sapması negatif olmadığı için).

Alt sınır (negatif) olarak bilinir değişken serbest enerji ile benzer şekilde termodinamik serbest enerji çünkü negatif bir "enerji" olarak da ifade edilebilir artı entropi . Dönem olarak da bilinir Kanıt Düşük BOundolarak kısaltılır ELBO, verilerin kanıtına daha düşük bir sınır olduğunu vurgulamak için.

Kanıtlar

Genelleştirilmiş Pisagor teoremi ile Bregman sapması KL sapmasının özel bir durum olduğu, gösterilebilir ki [1][2]:

Genelleştirilmiş Pisagor teoremi Bregman sapması [2].

nerede dışbükey bir kümedir ve eşitlik şu durumlarda geçerlidir:

Bu durumda küresel küçültücü ile aşağıdaki gibi bulunabilir [1]:

normalleştirme sabiti:

Dönem genellikle denir kanıt alt sınır (ELBO) pratikte, çünkü [1], Yukarıda gösterildiği gibi.

Rollerini değiştirerek ve yaklaşık değeri yinelemeli olarak hesaplayabiliriz ve gerçek modelin marjinallerinin ve sırasıyla. Bu yinelemeli şemanın monoton bir şekilde yakınsaması garantili olsa da [1], birleşmiş yalnızca yerel bir küçültücüdür .

Kısıtlı alan bağımsız alanla sınırlıdır, yani Yukarıdaki yinelemeli şema sözde ortalama alan yaklaşımı olacaktır Aşağıda gösterildiği gibi.

Ortalama alan yaklaşımı

Varyasyonel dağılım genellikle bazılarının üzerinde çarpanlara ayırdığı varsayılır. bölüm ör. gizli değişkenlerin bazı bölümleri için içine ,

Kullanılarak gösterilebilir varyasyonlar hesabı (dolayısıyla "varyasyonel Bayes" adı) "en iyi" dağıtım faktörlerin her biri için (yukarıda açıklandığı gibi KL sapmasını en aza indiren dağılım açısından) şu şekilde ifade edilebilir:

nerede ... beklenti logaritmasının bileşik olasılık veri ve gizli değişkenler, bölümde olmayan tüm değişkenler üzerinden alınır.

Uygulamada, genellikle logaritma açısından çalışırız, yani:

Yukarıdaki ifadedeki sabit, sabit normalleştirme (yukarıdaki ifadedeki payda ) ve ifadenin geri kalanı genellikle bilinen bir dağıtım türü olarak kabul edilebildiğinden, genellikle inceleme ile eski haline getirilir (ör. Gauss, gama, vb.).

Beklentilerin özelliklerini kullanarak ifade genellikle sabit bir işlev olarak basitleştirilebilir hiperparametreler of önceki dağıtımlar gizli değişkenler ve beklentiler üzerinde (ve bazen daha yüksek anlar benzeri varyans ) mevcut bölümde yer almayan gizli değişkenler (yani, ). Bu oluşturur döngüsel bağımlılıklar bir bölümdeki değişkenler üzerindeki dağılımların parametreleri ile diğer bölümlerdeki değişkenlerin beklentileri arasında. Bu doğal olarak bir yinelemeli algoritması, EM gibi ( beklenti maksimizasyonu algoritması), gizli değişkenlerin beklentilerinin (ve muhtemelen daha yüksek momentlerin) bir şekilde (belki rastgele) başlatıldığı ve daha sonra her bir dağılımın parametreleri, beklentilerin mevcut değerleri kullanılarak hesaplanır, ardından beklenti yeni hesaplanan dağılımın% 'si hesaplanan parametrelere göre uygun şekilde ayarlanır. Bu türden bir algoritmanın, yakınsamak.[3]

Başka bir deyişle, değişkenlerin her bir bölümü için, bölümün değişkenleri üzerindeki dağılımın ifadesini basitleştirerek ve dağılımın söz konusu değişkenlere olan işlevsel bağımlılığını inceleyerek, genellikle dağılımın ailesi belirlenebilir (bu da sırasıyla sabitin değeri). Dağılımın parametrelerinin formülü, önceki dağılımların hiperparametreleri (bilinen sabitler) cinsinden değil, aynı zamanda diğer bölümlerdeki değişkenlerin fonksiyonlarının beklentileri cinsinden ifade edilecektir. Genellikle bu beklentiler, değişkenlerin kendilerinin beklentilerinin fonksiyonlarına (yani, anlamına geliyor ); bazen kare değişkenlerin beklentileri ( varyans değişkenlerin) veya daha yüksek güçlerin beklentileri (yani daha yüksek anlar ) ayrıca görünür. Çoğu durumda, diğer değişkenlerin dağılımları bilinen ailelerden olacaktır ve ilgili beklentilerin formüllerine bakılabilir. Bununla birlikte, bu formüller, diğer değişkenler hakkındaki beklentilere bağlı olan bu dağılımların parametrelerine bağlıdır. Sonuç, her değişkenin dağılımlarının parametreleri için formüllerin karşılıklı olarak bir dizi denklem olarak ifade edilebilmesidir. doğrusal olmayan değişkenler arasındaki bağımlılıklar. Genellikle bu denklem sistemini doğrudan çözmek mümkün değildir. Bununla birlikte, yukarıda açıklandığı gibi, bağımlılıklar, çoğu durumda yakınsaması garantili olan basit bir yinelemeli algoritma önermektedir. Bir örnek bu süreci daha net hale getirecektir.

Temel bir örnek

Basit, hiyerarşik olmayan bir Bayes modelini düşünün. i.i.d. bir Gauss dağılımı bilinmeyenle anlamına gelmek ve varyans.[4] Aşağıda, varyasyonel Bayes yönteminin işleyişini göstermek için bu modeli ayrıntılı olarak çalışıyoruz.

Matematiksel kolaylık için, aşağıdaki örnekte şu terimlerle çalışıyoruz: hassas - yani varyansın tersi (veya çok değişkenli bir Gaussian'da, tersi) kovaryans matrisi ) - varyansın kendisi yerine. (Teorik bir bakış açısından, kesinlik ve varyans eşdeğerdir çünkü bir bire bir yazışma ikisinin arasında.)

Matematiksel model

Yerleştiriyoruz önceki eşlenik bilinmeyen ortalamaya göre dağılımlar ve hassasiyet , yani ortalama bir Gauss dağılımını takip ederken, hassasiyet bir gama dağılımı. Diğer bir deyişle:

hiperparametreler ve önceki dağılımlarda sabit, verilen değerler. Önceki dağılımlar hakkında bilgisizliği gösteren geniş ön dağılımlar vermek için küçük pozitif sayılara ayarlanabilirler. ve .

Biz verilir Veri noktaları ve amacımız şu sonuca varmaktır: arka dağıtım parametrelerin ve

Ortak olasılık

bileşik olasılık tüm değişkenler şu şekilde yeniden yazılabilir:

bireysel faktörler nerede

nerede

Çarpanlara ayrılmış yaklaşım

Varsayalım ki yani, arka dağılımın bağımsız faktörlere ayrılması ve . Bu tür bir varsayım, varyasyonel Bayes yönteminin temelini oluşturur. Gerçek posterior dağılım aslında bu şekilde faktör oluşturmaz (aslında, bu basit durumda, bir Gauss gama dağılımı ) ve dolayısıyla elde ettiğimiz sonuç bir tahmin olacaktır.

Türetilmesi q (μ)

Sonra

Yukarıdaki türetmede, , ve göre sabit olan değerlere atıfta bulunun . Terimin bir işlevi değil ve değerine bakılmaksızın aynı değere sahip olacak . Dolayısıyla 3. satırda onu sonunda sabit terime çekebiliriz. Aynı şeyi 7. satırda da yapıyoruz.

Son satır, basitçe ikinci dereceden bir polinomdur . Bu logaritması olduğu için bunu görebiliriz kendisi bir Gauss dağılımı.

Belli bir miktar sıkıcı matematikle (parantez içindeki kareleri genişletmek, aşağıdakileri içeren terimleri ayırmak ve gruplamak) ve ve kareyi tamamlamak bitmiş ), Gauss dağılımının parametrelerini türetebiliriz:

Yukarıdaki tüm adımların, formül kullanılarak kısaltılabileceğini unutmayın. iki ikinci derecenin toplamı.

Diğer bir deyişle:

Türetilmesi q (τ)

Türetilmesi kısalık adına bazı ayrıntıları atlasak da yukarıdakine benzer.

Her iki tarafı da katlayarak, bunu görebiliriz bir gama dağılımı. Özellikle:

Parametreleri hesaplamak için algoritma

Önceki bölümlerin sonuçlarını özetleyelim:

ve

Her durumda, değişkenlerden biri üzerindeki dağılım için parametreler, diğer değişkene göre alınan beklentilere bağlıdır. Gauss ve gama dağılımlarının anlarının beklentileri için standart formülleri kullanarak beklentileri genişletebiliriz:

Bu formülleri yukarıdaki denklemlere uygulamak çoğu durumda önemsizdir, ancak denklem daha fazla iş gerektirir:

Daha sonra parametre denklemlerini herhangi bir beklenti olmaksızın aşağıdaki gibi yazabiliriz:

Formüller arasında döngüsel bağımlılıklar olduğunu unutmayın. ve . Bu doğal olarak bir EM benzeri algoritma:

  1. Hesaplama ve Hesaplamak için bu değerleri kullanın ve
  2. Başlat keyfi bir değere.
  3. Şu anki değerini kullan hesaplamak için diğer parametrelerin bilinen değerleri ile birlikte .
  4. Şu anki değerini kullan hesaplamak için diğer parametrelerin bilinen değerleri ile birlikte .
  5. Yakınsamaya kadar son iki adımı tekrarlayın (yani her iki değer de küçük bir miktardan fazla değişmeyene kadar).

Daha sonra, posterior parametrelerin yaklaşık dağılımlarının hiperparametreleri için değerlere sahibiz, bunları posteriordan istediğimiz özellikleri hesaplamak için kullanabiliriz - ör. ortalama ve varyansı,% 95 en yüksek yoğunluklu bölge (toplam olasılığın% 95'ini içeren en küçük aralık) vb.

Bu algoritmanın yerel bir maksimuma yakınsaması garanti edildiği gösterilebilir.

Ayrıca, arka dağıtımların karşılık gelen önceki dağıtımlarla aynı biçime sahip olduğuna dikkat edin. Yaptık değil bunu varsayalım; Yaptığımız tek varsayım, dağıtımların faktorize olması ve dağıtım biçiminin doğal olarak takip edilmesiydi. Sonradan dağıtımların önceki dağıtımlarla aynı biçime sahip olmasının bir tesadüf değil, önceki dağıtımların üye olduğu her durumda genel bir sonuç olduğu ortaya çıkmıştır (aşağıya bakınız). üstel aile, standart dağıtımların çoğu için durum budur.

Daha fazla tartışma

Adım adım tarif

Yukarıdaki örnek, varyasyonel-Bayesci yaklaşımın bir arka olasılık verilen yoğunluk Bayes ağı türetilmiştir:

  1. Ağı bir ile tanımlayın grafik model, gözlemlenen değişkenlerin (veriler) belirlenmesi ve gözlenmeyen değişkenler (parametreleri ve gizli değişkenler ) ve onların koşullu olasılık dağılımları. Varyasyonel Bayes daha sonra arka olasılığa bir yaklaşım oluşturacaktır. . Yaklaşım, çarpanlara ayrılmış bir dağılım olduğu temel özelliğine sahiptir, yani iki veya daha fazla bağımsız gözlenmeyen değişkenlerin ayrık alt kümeleri üzerindeki dağılımlar.
  2. Gözlemlenmeyen değişkenleri, üzerinde bağımsız faktörlerin türetileceği iki veya daha fazla alt gruba bölün. Bunu yapmak için evrensel bir prosedür yoktur; çok fazla alt küme oluşturmak, çok az sayıda alt küme oluşturmak, tüm varyasyonel Bayes prosedürünü zorlu hale getirirken, zayıf bir yaklaşım getirir. Tipik olarak, ilk ayrım, parametreleri ve gizli değişkenleri ayırmaktır; çoğu zaman, bu tek başına izlenebilir bir sonuç elde etmek için yeterlidir. Bölümlerin çağrıldığını varsayın .
  3. Belirli bir bölüm için , en iyi yaklaşık dağılım için formülü yazın temel denklemi kullanarak .
  4. Formülü doldurun ortak olasılık dağılımı grafiksel modeli kullanarak. Değişkenlerden herhangi birini içermeyen herhangi bir bileşen koşullu dağılımları göz ardı edilebilir; sabit terime katlanacaklar.
  5. Formülü basitleştirin ve yukarıdaki örneği izleyerek beklenti operatörünü uygulayın. İdeal olarak, bu, içinde bulunmayan değişkenlerin temel işlevlerinin beklentilerini basitleştirmelidir. (ör. birinci veya ikinci ham anlar, bir logaritma beklentisi, vb.). Varyasyonel Bayes prosedürünün iyi işlemesi için, bu beklentiler genellikle parametrelerin ve / veya fonksiyonların fonksiyonları olarak analitik olarak ifade edilebilir olmalıdır. hiperparametreler bu değişkenlerin dağılımlarının. Her durumda, bu beklenti terimleri mevcut bölümdeki değişkenlere göre sabittir.
  6. Mevcut bölümdeki değişkenlere göre formülün fonksiyonel formu, dağıtım türünü gösterir. Özellikle, formülü üslemek, olasılık yoğunluk fonksiyonu (PDF) dağıtımın (veya en azından onunla orantılı, bilinmeyen bir şey) normalizasyon sabiti ). Genel yöntemin izlenebilir olması için, fonksiyonel formun bilinen bir dağıtıma ait olduğunun tanınması mümkün olmalıdır. Formülü, bilinen bir dağıtımın PDF'si ile eşleşen bir forma dönüştürmek için önemli matematiksel işlemler gerekebilir. Bu yapılabildiğinde, normalizasyon sabiti tanıma göre eski haline getirilebilir ve bilinen dağılımın parametreleri için denklemler, formülün uygun kısımlarının çıkarılmasıyla türetilebilir.
  7. Tüm beklentiler analitik olarak mevcut bölümde olmayan değişkenlerin fonksiyonları ile değiştirilebildiğinde ve PDF bilinen bir dağılımla özdeşleşmeye izin veren bir forma konulduğunda, sonuç, optimum parametrelerin değerlerini fonksiyonların fonksiyonları olarak ifade eden bir dizi denklemdir. diğer bölümlerdeki değişkenlerin parametreleri.
  8. Bu prosedür tüm bölümlere uygulanabildiğinde, sonuç, tüm parametrelerin optimum değerlerini belirten karşılıklı olarak bağlantılı bir dizi denklemdir.
  9. Bir beklenti maksimizasyonu (EM) type procedure is then applied, picking an initial value for each parameter and the iterating through a series of steps, where at each step we cycle through the equations, updating each parameter in turn. This is guaranteed to converge.

Most important points

Due to all of the mathematical manipulations involved, it is easy to lose track of the big picture. The important things are:

  1. The idea of variational Bayes is to construct an analytical approximation to the arka olasılık of the set of unobserved variables (parameters and latent variables), given the data. This means that the form of the solution is similar to other Bayesci çıkarım yöntemler, örneğin Gibbs örneklemesi — i.e. a distribution that seeks to describe everything that is known about the variables. As in other Bayesian methods — but unlike e.g. içinde beklenti maksimizasyonu (EM) or other maksimum olasılık methods — both types of unobserved variables (i.e. parameters and latent variables) are treated the same, i.e. as rastgele değişkenler. Estimates for the variables can then be derived in the standard Bayesian ways, e.g. calculating the mean of the distribution to get a single point estimate or deriving a credible interval, highest density region, etc.
  2. "Analytical approximation" means that a formula can be written down for the posterior distribution. The formula generally consists of a product of well-known probability distributions, each of which factorizes over a set of unobserved variables (i.e. it is koşullu bağımsız of the other variables, given the observed data). This formula is not the true posterior distribution, but an approximation to it; in particular, it will generally agree fairly closely in the lowest anlar of the unobserved variables, e.g. anlamına gelmek ve varyans.
  3. The result of all of the mathematical manipulations is (1) the identity of the probability distributions making up the factors, and (2) mutually dependent formulas for the parameters of these distributions. The actual values of these parameters are computed numerically, through an alternating iterative procedure much like EM.

Compared with expectation maximization (EM)

Variational Bayes (VB) is often compared with beklenti maksimizasyonu (EM). The actual numerical procedure is quite similar, in that both are alternating iterative procedures that successively converge on optimum parameter values. The initial steps to derive the respective procedures are also vaguely similar, both starting out with formulas for probability densities and both involving significant amounts of mathematical manipulations.

However, there are a number of differences. Most important is ne is being computed.

  • EM computes point estimates of posterior distribution of those random variables that can be categorized as "parameters", but only estimates of the actual posterior distributions of the latent variables (at least in "soft EM", and often only when the latent variables are discrete). The point estimates computed are the modlar of these parameters; no other information is available.
  • VB, on the other hand, computes estimates of the actual posterior distribution of all variables, both parameters and latent variables. When point estimates need to be derived, generally the anlamına gelmek is used rather than the mode, as is normal in Bayesian inference. Concomitant with this, the parameters computed in VB do değil have the same significance as those in EM. EM computes optimum values of the parameters of the Bayes network itself. VB computes optimum values of the parameters of the distributions used to approximate the parameters and latent variables of the Bayes network. For example, a typical Gaussian karışım modeli will have parameters for the mean and variance of each of the mixture components. EM would directly estimate optimum values for these parameters. VB, however, would first fit a distribution to these parameters — typically in the form of a önceki dağıtım, Örneğin. a normal-scaled inverse gamma distribution — and would then compute values for the parameters of this prior distribution, i.e. essentially hiperparametreler. In this case, VB would compute optimum estimates of the four parameters of the normal-scaled inverse gamma distribution that describes the joint distribution of the mean and variance of the component.

A more complex example

Bayes Gauss karışım modeli kullanılarak plaka notasyonu. Daha küçük kareler sabit parametreleri gösterir; daha büyük daireler rastgele değişkenleri gösterir. Doldurulmuş şekiller, bilinen değerleri gösterir. Gösterge [K] bir boyut vektörü anlamına gelir K; [D,D] means a matrix of size D×D; K alone means a Kategorik değişken ile K sonuçlar. Dalgalı çizgi geliyor z bir çapraz çubukla biten bir değiştirmek - Bu değişkenin değeri, diğer gelen değişkenler için boyuttan hangi değerin kullanılacağını seçer -K olası değerler dizisi.

Imagine a Bayesian Gauss karışım modeli aşağıdaki gibi tanımlanmıştır:[4]

Not:

The interpretation of the above variables is as follows:

  • kümesidir data points, each of which is a -dimensional vector distributed according to a çok değişkenli Gauss dağılımı.
  • is a set of latent variables, one per data point, specifying which mixture component the corresponding data point belongs to, using a "one-of-K" vector representation with components için , yukarıda tanımlandığı gibi.
  • is the mixing proportions for the mixture components.
  • ve specify the parameters (anlamına gelmek ve hassas ) associated with each mixture component.

The joint probability of all variables can be rewritten as

where the individual factors are

nerede

Varsayalım ki .

Sonra

where we have defined

Exponentiating both sides of the formula for verim

Requiring that this be normalized ends up requiring that the sum to 1 over all values of , verimli

nerede

Diğer bir deyişle, is a product of single-observation çok terimli dağılımlar, and factors over each individual , which is distributed as a single-observation multinomial distribution with parameters için .

Furthermore, we note that

which is a standard result for categorical distributions.

Now, considering the factor , note that it automatically factors into due to the structure of the graphical model defining our Gaussian mixture model, which is specified above.

Sonra,

Her iki tarafın üstelini ele alırsak, olarak Dirichlet dağılımı

nerede

nerede

En sonunda

Aşağıdakileri içeren terimleri gruplama ve okuma ve sonuç bir Gauss-Wishart dağılımı veren

tanımlara göre

Son olarak, bu işlevlerin şu değerleri gerektirdiğine dikkat edin: , kullanan , buna göre tanımlanan , , ve . Şimdi bu beklentilerin hangi dağılımları üzerinden alındığını belirlediğimize göre, bunlar için formül türetebiliriz:

Bu sonuçlar yol açar

Bunlar, üzerinden normalize edilerek orantılıdan mutlak değerlere dönüştürülebilir Böylece karşılık gelen değerlerin toplamı 1 olur.

Bunu not et:

  1. Parametreler için güncelleme denklemleri , , ve değişkenlerin ve istatistiklere bağlı , , ve ve bu istatistikler sırayla şunlara bağlıdır: .
  2. Parametreler için güncelleme denklemleri değişkenin istatistiğe bağlı hangi sırayla bağlıdır .
  3. İçin güncelleme denklemi doğrudan döngüsel bağımlılığı vardır , , ve yanı sıra dolaylı döngüsel bağımlılık , ve vasıtasıyla ve .

Bu, iki adım arasında değişen yinelemeli bir prosedür önerir:

  1. Değerini hesaplayan bir E-adımı diğer tüm parametrelerin mevcut değerlerini kullanarak.
  2. Yeni değerini kullanan bir M adımı diğer tüm parametrelerin yeni değerlerini hesaplamak için.

Bu adımların standart EM algoritması ile yakından ilişkili olduğunu unutmayın. maksimum olasılık veya maksimum a posteriori (MAP) çözümü bir Gauss karışım modeli. Sorumluluklar E adımında, son olasılıklar verilere verilen gizli değişkenlerin oranı, yani ; istatistiklerin hesaplanması , , ve veriler üzerinde karşılık gelen "yumuşak sayım" istatistiklerinin hesaplanmasına yakından karşılık gelir; ve parametrelerin yeni değerlerini hesaplamak için bu istatistiklerin kullanımı, bir Gauss karışım modeli üzerinden normal EM'de yeni parametre değerlerini hesaplamak için yumuşak sayımların kullanımına yakından karşılık gelir.

Üstel aile dağılımları

Önceki örnekte, gözlemlenmemiş değişkenler üzerindeki dağılımın "parametreler" üzerinden dağılımlara ve "gizli veriler" üzerindeki dağılımlara çarpanlara ayrıldığı varsayıldığında, her değişken için türetilen "en iyi" dağılım, karşılık gelen ile aynı ailedeydi. değişken üzerinden önceki dağıtım. Bu, önceki tüm dağıtımlar için geçerli olan genel bir sonuçtur. üstel aile.

Ayrıca bakınız

Notlar

  1. ^ a b c d Tran, Viet Hung (2018). "Bilgi geometrisi yoluyla Copula Variational Bayes çıkarımı". arXiv:1803.10998 [cs.IT ].
  2. ^ a b Adamčík, Martin (2014). "Bregman Sapmalarının Bilgi Geometrisi ve Çok Uzmanlı Muhakemede Bazı Uygulamalar". Entropi. 16 (12): 6338–6381. Bibcode:2014 Giriş.16.6338A. doi:10.3390 / e16126338.
  3. ^ Boyd, Stephen P .; Vandenberghe, Lieven (2004). Dışbükey Optimizasyon (pdf). Cambridge University Press. ISBN  978-0-521-83378-3. Alındı 15 Ekim 2011.
  4. ^ a b Bölüm 10'a göre Örüntü Tanıma ve Makine Öğrenimi tarafından Christopher M. Bishop
  5. ^ Sotirios P. Chatzis, "Sonsuz Markov Anahtarlamalı Maksimum Entropi Ayrıştırma Makineleri, ”Proc. 30. Uluslararası Makine Öğrenimi Konferansı (ICML). Makine Öğrenimi Araştırmaları Dergisi: Çalıştay ve Konferans Bildirileri, cilt. 28, hayır. 3, s. 729–737, Haziran 2013.

Referanslar

  • Piskopos Christopher M. (2006). Örüntü Tanıma ve Makine Öğrenimi. Springer. ISBN  978-0-387-31073-2.

Dış bağlantılar