Otomatik farklılaşma - Automatic differentiation

İçinde matematik ve bilgisayar cebiri, otomatik farklılaşma (AD), olarak da adlandırılır algoritmik farklılaşma, hesaplamalı farklılaşma,^[1]^[2] otomatik farklılaşma, ya da sadece otomatik fark, sayısal olarak değerlendirmek için bir dizi tekniktir türev bir bilgisayar programı tarafından belirtilen bir işlevin. AD, ne kadar karmaşık olursa olsun, her bilgisayar programının bir dizi temel aritmetik işlemleri (toplama, çıkarma, çarpma, bölme, vb.) Ve temel işlevleri (exp, log, sin, cos, vb.) Yürüttüğü gerçeğini kullanır. Uygulayarak zincir kuralı tekrar tekrar bu işlemlere göre, keyfi sıranın türevleri otomatik olarak, çalışma hassasiyetine göre doğru ve orijinal programdan en fazla küçük bir sabit faktör daha fazla aritmetik işlem kullanılarak hesaplanabilir.

Şekil 1: Otomatik farklılaşma sembolik farklılaşma ile nasıl ilişkilidir?

Otomatik farklılaşma şunlardan farklıdır: sembolik farklılaşma ve sayısal farklılaşma (sonlu farklar yöntemi). Sembolik farklılaşma, verimsiz koda yol açabilir ve bir bilgisayar programını tek bir ifadeye dönüştürmenin zorluğuyla karşı karşıya kalırken, sayısal farklılaşma ortaya çıkabilir. yuvarlama hataları içinde ayrıştırma işlem ve iptal. Her iki klasik yöntem de karmaşıklığın ve hataların arttığı yüksek türevlerin hesaplanmasında sorunlara sahiptir. Son olarak, her iki klasik yöntem de bir fonksiyonun kısmi türevlerini hesaplamada yavaştır. birçok girişler, gerektiği gibi gradyan tabanlı optimizasyon algoritmalar. Otomatik farklılaşma tüm bu sorunları çözer.

Zincir kuralı, ileri ve geri birikim

AD için temel olan, tarafından sağlanan diferansiyellerin ayrıştırılmasıdır. zincir kuralı. Basit kompozisyon için

{ displaystyle { başlar {hizalı} y & = f (g (h (x))) = f (g (h (w_ {0}))) = f (g (w_ {1})) = f (w_ {2}) = w_ {3} w_ {0} & = x w_ {1} & = h (w_ {0}) w_ {2} & = g (w_ {1}) w_ {3} & = f (w_ {2}) = y end {hizalı}}}

zincir kuralı verir

{ displaystyle { frac {dy} {dx}} = { frac {dy} {dw_ {2}}} { frac {dw_ {2}} {dw_ {1}}} { frac {dw_ {1 }} {dx}} = { frac {df (w_ {2})} {dw_ {2}}} { frac {dg (w_ {1})} {dw_ {1}}} { frac {dh (w_ {0})} {dx}}}

Genellikle, iki farklı AD modu sunulur, ileriye dönük birikim (veya ileri mod) ve ters birikim (veya ters mod). İleri toplama, birinin zincir kuralını içeriden dışarıya geçtiğini belirtir (yani, ilk hesaplama ${ displaystyle dw_ {1} / dx}$ ve daha sonra ${ displaystyle dw_ {2} / dw_ {1}}$ sonunda ${ displaystyle dy / dw_ {2}}$ ), ters birikim dıştan içe geçişe sahipken (ilk hesaplama ${ displaystyle dy / dw_ {2}}$ ve daha sonra ${ displaystyle dw_ {2} / dw_ {1}}$ sonunda ${ displaystyle dw_ {1} / dx}$ ). Daha kısaca,

ileriye dönük birikim yinelemeli ilişkiyi hesaplar: ${ displaystyle { frac {dw_ {i}} {dx}} = { frac {dw_ {i}} {dw_ {i-1}}} { frac {dw_ {i-1}} {dx}} }$ ile ${ displaystyle w_ {3} = y}$ , ve,
ters birikim yinelemeli ilişkiyi hesaplar: ${ displaystyle { frac {dy} {dw_ {i}}} = { frac {dy} {dw_ {i + 1}}} { frac {dw_ {i + 1}} {dw_ {i}}} }$ ile ${ displaystyle w_ {0} = x}$ .

Genel olarak, hem ileri hem de ters birikim, uygulamanın belirli bir tezahürüdür. program kompozisyon operatörü, iki eşlemeden uygun olanı düzeltmek ${ displaystyle (w, y)}$ .

İleri birikim

Şekil 2: Hesaplamalı grafikle ileri birikim örneği

İleri birikim AD'de, ilk önce bağımsız değişken hangi farklılaştırmanın yapıldığına göre ve her bir alt-ifade tekrarlı. Bir kalem ve kağıt hesaplamasında, bu, türevinin tekrar tekrar değiştirilmesini içerir. iç zincir kuralındaki işlevler:

{ displaystyle { frac { kısmi y} { kısmi x}} = { frac { kısmi y} { kısmi w_ {n-1}}} { frac { kısmi w_ {n-1}} { kısmi x}} = { frac { kısmi y} { kısmi w_ {n-1}}} sol ({ frac { kısmi w_ {n-1}} { kısmi w_ {n-2 }}} { frac { kısmi w_ {n-2}} { kısmi x}} sağ) = { frac { kısmi y} { kısmi w_ {n-1}}} sol ({ frac { kısmi w_ {n-1}} { kısmi w_ {n-2}}} left ({ frac { kısmi w_ {n-2}} { kısmi w_ {n-3}}} { frac { kısmi w_ {n-3}} { kısmi x}} sağ) sağ) = cdots}

Bu, birden çok değişkene bir matris ürünü olarak genelleştirilebilir Jakobenler.

Türev bilgisinin akışı değerlendirme sırası ile çakıştığından, birikimi tersine çevirmek doğaldır ve uygulaması kolaydır. Her değişken $w$ türevi ile güçlendirilmiştir $ẇ$ (sembolik bir ifade değil, sayısal bir değer olarak saklanır),

{ displaystyle { dot {w}} = { frac { kısmi w} { kısmi x}}}

nokta ile gösterildiği gibi. Türevler daha sonra değerlendirme adımlarıyla senkronize olarak hesaplanır ve zincir kuralı yoluyla diğer türevlerle birleştirilir.

Örnek olarak şu işlevi düşünün:

{ displaystyle { begin {align} z & = f (x_ {1}, x_ {2}) & = x_ {1} x_ {2} + sin x_ {1} & = w_ {1} w_ {2} + sin w_ {1} & = w_ {3} + w_ {4} & = w_ {5} end {hizalı}}}

Netlik sağlamak için, tek tek alt ifadeler değişkenlerle etiketlenmiştir $w ben$ .

Farklılaştırmanın gerçekleştirildiği bağımsız değişkenin seçimi, tohum değerler $ẇ 1$ ve $ẇ 2$ . Bu fonksiyonun türevine ilgi $x 1$ çekirdek değerleri şu şekilde ayarlanmalıdır:

{ displaystyle { begin {align} { dot {w}} _ {1} = { frac { kısmi x_ {1}} { kısmi x_ {1}}} = 1 { nokta {w }} _ {2} = { frac { kısmi x_ {2}} { kısmi x_ {1}}} = 0 end {hizalı}}}

Çekirdek değerler ayarlandığında, değerler gösterildiği gibi zincir kuralı kullanılarak yayılır. Şekil 2, bu sürecin bir hesaplama grafiği olarak resimli bir tasvirini göstermektedir.

{ displaystyle { begin {dizi} {l | l} { text {Değer hesaplama işlemleri}} & { text {Türev hesaplama işlemleri}} hline w_ {1} = x_ {1} & { dot {w}} _ {1} = 1 { text {(tohum)}} w_ {2} = x_ {2} & { dot {w}} _ {2} = 0 { text { (çekirdek)}} w_ {3} = w_ {1} cdot w_ {2} & { dot {w}} _ {3} = w_ {2} cdot { dot {w}} _ { 1} + w_ {1} cdot { dot {w}} _ {2} w_ {4} = sin w_ {1} & { dot {w}} _ {4} = cos w_ { 1} cdot { dot {w}} _ {1} w_ {5} = w_ {3} + w_ {4} & { dot {w}} _ {5} = { dot {w} } _ {3} + { dot {w}} _ {4} end {dizi}}}

Hesaplamak için gradyan bu örnek fonksiyonun türevlerini gerektiren $f$ sadece değil $x 1$ ama aynı zamanda $x 2$ , bir ek tarama, çekirdek değerleri kullanılarak hesaplama grafiği üzerinde gerçekleştirilir ${ displaystyle { dot {w}} _ {1} = 0; { dot {w}} _ {2} = 1}$ .

hesaplama karmaşıklığı Bir taramalı ileri birikim oranı orijinal kodun karmaşıklığıyla orantılıdır.

İleri birikim, işlevler için ters biriktirmeden daha etkilidir $f : ℝ n \to ℝ m$ ile $m ≫ n$ Sadece $n$ taramalar gereklidir, $m$ ters birikim için süpürür.

Ters birikim

Şekil 3: Hesaplamalı grafikle ters birikim örneği

Ters birikimli AD'de, bağımlı değişken farklılaştırılacak sabittir ve türev hesaplanır göre her altifade tekrarlı. Bir kalem ve kağıt hesaplamasında, dış zincir kuralında işlevler tekrar tekrar değiştirilir:

{ displaystyle { frac { kısmi y} { kısmi x}} = { frac { kısmi y} { kısmi w_ {1}}} { frac { kısmi w_ {1}} { kısmi x }} = left ({ frac { kısmi y} { kısmi w_ {2}}} { frac { kısmi w_ {2}} { kısmi w_ {1}}} sağ) { frac { kısmi w_ {1}} { kısmi x}} = left ( left ({ frac { kısmi y} { kısmi w_ {3}}} { frac { kısmi w_ {3}} { kısmi w_ {2}}} sağ) { frac { kısmi w_ {2}} { kısmi w_ {1}}} sağ) { frac { kısmi w_ {1}} { kısmi x}} = cdots}

Ters birikimde faiz miktarı, bitişik, bir çubukla gösterilir ( $w̄$ ); bir alt ifadeye göre seçilen bir bağımlı değişkenin türevidir $w$ :

{ displaystyle { bar {w}} = { frac { kısmi y} { kısmi w}}}

Ters birikim, zincir kuralını dıştan içe veya Şekil 3'teki hesaplama grafiğinde yukarıdan aşağıya doğru ilerler. Örnek fonksiyon skaler değerlidir ve bu nedenle türev hesaplaması için yalnızca bir çekirdek vardır ve (iki bileşenli) gradyanı hesaplamak için hesaplama grafiğinin yalnızca bir taraması gerekir. Bu sadece işin yarısı ileri birikim ile karşılaştırıldığında, ancak ters birikim, ara değişkenlerin depolanmasını gerektirir $w ben$ Wengert listesi (veya "bant") olarak bilinen bir veri yapısında bunları üreten talimatların yanı sıra,^[3]^[4] hesaplama grafiği büyükse önemli miktarda bellek tüketebilir. Bu, ara değişkenlerin yalnızca bir alt kümesini depolayarak ve ardından gerekli çalışma değişkenlerini değerlendirmeleri tekrarlayarak yeniden yapılandırarak bir dereceye kadar hafifletilebilir. yeniden materyalleştirme. Kontrol noktası belirleme aracı devletleri kurtarmak için de kullanılır.

Ters birikimi kullanarak türevi hesaplama işlemleri aşağıdaki tabloda gösterilmiştir (tersine çevrilmiş sıraya dikkat edin):

{ displaystyle { begin {dizi} {l} { text {Türev hesaplama işlemleri}} hline { bar {w}} _ {5} = 1 { text {(tohum)}} { bar {w}} _ {4} = { bar {w}} _ {5} { bar {w}} _ {3} = { bar {w}} _ {5} { bar {w}} _ {2} = { bar {w}} _ {3} cdot w_ {1} { bar {w}} _ {1} = { bar {w}} _ {3} cdot w_ {2} + { bar {w}} _ {4} cdot cos w_ {1} end {dizi}}}

Bir hesaplamanın veri akış grafiği, orijinal hesaplamasının gradyanını hesaplamak için değiştirilebilir. Bu, her birincil düğüm için, birincil kenarlara paralel olan ancak ters yönde akan bitişik kenarlarla bağlanan bir bitişik düğüm eklenerek yapılır. Bitişik grafikteki düğümler, primaldeki düğümler tarafından hesaplanan fonksiyonların türevleri ile çarpmayı temsil eder. Örneğin, ilkeldeki ekleme, bitişikte fanout'a neden olur; ilkel nedenlerdeki yayılma, bitişikteki toplama;^[a] a birli işlevi $y = f (x)$ ilkel sebeplerde $x̄ = ȳ f ' (x)$ ek olarak; vb.

Ters birikim, işlevler için ileri biriktirmeden daha etkilidir $f : ℝ n \to ℝ m$ ile $m ≪ n$ Sadece $m$ taramalar gereklidir, $n$ ileri birikim için süpürür.

Ters mod AD ilk olarak 1976'da Seppo Linnainmaa.^[5]^[6]

Geri yayılım çok katmanlı algılayıcılardaki hataların makine öğrenme, ters mod AD'nin özel bir durumudur.^[2]

İleri ve geri birikimin ötesinde

İleri ve geri biriktirme, zincir kuralını aşmanın sadece iki (aşırı) yoludur. Tam bir Jacobian'ı hesaplama sorunu $f : ℝ n \to ℝ m$ asgari sayıda aritmetik işlem ile optimal Jacobian birikimi (OJA) sorunu NP tamamlandı.^[7] Bu kanıtın merkezinde, grafiğin kenarlarını etiketleyen yerel parçalar arasında cebirsel bağımlılıkların olabileceği fikri yatar. Özellikle, iki veya daha fazla kenar etiketi eşit olarak kabul edilebilir. Tüm kenar etiketlerinin benzersiz ve cebirsel olarak bağımsız olduğu varsayılırsa, sorunun karmaşıklığı hala açıktır.

Çift sayı kullanarak otomatik ayrım

İleri mod otomatik farklılaştırma, cebir nın-nin gerçek sayılar ve yeni bir aritmetik. Sayıdaki bir fonksiyonun türevini temsil etmek için her sayıya ek bir bileşen eklenir ve tüm aritmetik operatörler artırılmış cebir için genişletilir. Artırılmış cebir, çift sayılar.

Her numarayı değiştirin ${ displaystyle , x}$ numara ile ${ displaystyle x + x ' varepsilon}$ , nerede ${ displaystyle x '}$ gerçek bir sayıdır, ancak ${ displaystyle varepsilon}$ bir soyut numara mülk ile ${ displaystyle varepsilon ^ {2} = 0}$ (bir sonsuz küçük; görmek Sorunsuz sonsuz küçük analiz ). Sadece bunu kullanarak, normal aritmetik verir

{ displaystyle { başlar {hizalı} (x + x ' varepsilon) + (y + y' varepsilon) & = x + y + (x '+ y') varepsilon (x + x ' varepsilon) cdot (y + y ' varepsilon) & = xy + xy' varepsilon + yx ' varepsilon + x'y' varepsilon ^ {2} = xy + (xy '+ yx') varepsilon end {hizalı} }}

ve aynı şekilde çıkarma ve bölme için.

Şimdi, polinomlar bu artırılmış aritmetikte hesaplanabilir. Eğer ${ displaystyle P (x) = p_ {0} + p_ {1} x + p_ {2} x ^ {2} + cdots + p_ {n} x ^ {n}}$ , sonra

${ displaystyle { begin {align} P (x + x ' varepsilon) & = p_ {0} + p_ {1} (x + x' varepsilon) + cdots + p_ {n} (x + x ' varepsilon) ^ {n} & = p_ {0} + p_ {1} x + cdots + p_ {n} x ^ {n} + p_ {1} x ' varepsilon + 2p_ {2} xx' varepsilon + cdots + np_ {n} x ^ {n-1} x ' varepsilon & = P (x) + P ^ {(1)} (x) x' varepsilon end {hizalı}}}$

nerede ${ displaystyle P ^ {(1)}}$ türevini gösterir ${ displaystyle P}$ ilk argümanına göre ve ${ displaystyle x '}$ , deniliyor tohum, keyfi olarak seçilebilir.

Yeni aritmetik şunlardan oluşur: sıralı çiftler, yazılmış öğeler ${ displaystyle langle x, x ' rangle}$ , yukarıda tarif edildiği gibi, birinci bileşen üzerinde sıradan aritmetik ve ikinci bileşen üzerinde birinci derece farklılaşma aritmetiği ile. Polinomlar üzerinde yukarıdaki sonuçların genişletilmesi analitik fonksiyonlar yeni aritmetik için temel aritmetik ve bazı standart fonksiyonların bir listesini verir:

{ displaystyle { begin {align} sol langle u, u ' sağ rangle + left langle v, v' right rangle & = left langle u + v, u '+ v' sağ rangle sol langle u, u ' sağ rangle - sol langle v, v' sağ rangle & = sol langle uv, u'-v ' sağ rangle sol langle u, u ' sağ rangle * sol langle v, v' right rangle & = left langle uv, u'v + uv ' right rangle left langle u, u ' sağ rangle / sol langle v, v' sağ rangle & = sol langle { frac {u} {v}}, { frac {u'v-uv '} {v ^ {2}}} right rangle quad (v neq 0) sin left langle u, u ' right rangle & = left langle sin (u), u' cos ( u) sağ rangle cos left langle u, u ' right rangle & = left langle cos (u), - u' sin (u) right rangle exp left langle u, u ' right rangle & = left langle exp u, u' exp u right rangle log left langle u, u ' right rangle & = sol langle log (u), u '/ u sağ rangle quad (u> 0) sol langle u, u' sağ rangle ^ {k} & = sol langle u ^ {k}, ku ^ {k-1} u ' right rangle quad (u neq 0) left | left langle u, u' right rangle right | & = left açı sol | u sağ | , u '{ mbox {işaret}} u sağ rangle quad (u neq 0) end {hizalı}}}

ve genel olarak ilkel işlev için ${ displaystyle g}$ ,

{ displaystyle g ( langle u, u ' rangle, langle v, v' rangle) = langle g (u, v), g_ {u} (u, v) u '+ g_ {v} ( u, v) v ' rangle}

nerede ${ displaystyle g_ {u}}$ ve ${ displaystyle g_ {v}}$ türevleridir ${ displaystyle g}$ sırasıyla birinci ve ikinci argümanlarına göre.

İkili bir temel aritmetik işlem, karma bağımsız değişkenlere uygulandığında - çift ${ displaystyle langle u, u ' rangle}$ ve gerçek numara ${ displaystyle c}$ - gerçek sayı önce ${ displaystyle langle c, 0 rangle}$ . Bir fonksiyonun türevi ${ displaystyle f: mathbb {R} rightarrow mathbb {R}}$ noktada ${ displaystyle x_ {0}}$ şimdi hesaplanarak bulunur ${ displaystyle f ( langle x_ {0}, 1 rangle)}$ yukarıdaki aritmetiği kullanarak ${ displaystyle langle f (x_ {0}), f '(x_ {0}) rangle}$ sonuç olarak.

Vektör bağımsız değişkenleri ve işlevleri

Çok değişkenli fonksiyonlar, yönlü türev operatörü benimseyerek tek değişkenli fonksiyonlarla aynı verimlilik ve mekanizmalarla ele alınabilir. Yani, hesaplamak yeterliyse ${ displaystyle y '= nabla f (x) cdot x'}$ yönlü türev $mathbb {R} ^ {m}} içinde { displaystyle y '$ nın-nin ${ displaystyle f: mathbb {R} ^ {n} rightarrow mathbb {R} ^ {m}}$ -de ${ displaystyle x in mathbb {R} ^ {n}}$ yöne $mathbb {R} ^ {n}} içinde { displaystyle x '$ , bu şu şekilde hesaplanabilir ${ displaystyle ( langle y_ {1}, y '_ {1} rangle, ldots, langle y_ {m}, y' _ {m} rangle) = f ( langle x_ {1}, x '_ {1} rangle, ldots, langle x_ {n}, x' _ {n} rangle)}$ yukarıdaki ile aynı aritmetiği kullanarak. Eğer tüm unsurları ${ displaystyle nabla f}$ o zaman arzu edilir ${ displaystyle n}$ fonksiyon değerlendirmeleri gereklidir. Pek çok optimizasyon uygulamasında yönlü türevin gerçekten yeterli olduğuna dikkat edin.

Yüksek mertebe ve birçok değişken

Yukarıdaki aritmetik, çok değişkenli fonksiyonların ikinci derece ve daha yüksek türevlerini hesaplamak için genelleştirilebilir. Bununla birlikte, aritmetik kurallar hızla karmaşık hale gelir: karmaşıklık, en yüksek türev derecesinde ikinci dereceden oluşur. Bunun yerine, kesilmiş Taylor polinomu cebir kullanılabilir. Sonuçta ortaya çıkan aritmetik genelleştirilmiş ikili sayılar üzerinde tanımlanır ve işlevleri bir veri türü gibi kullanarak verimli hesaplamaya izin verir. Bir fonksiyonun Taylor polinomu bilindiğinde, türevler kolayca çıkarılır.

Uygulama

İleri mod AD, bir standart olmayan yorum gerçek sayıların çift sayılarla değiştirildiği, sabitlerin epsilon katsayısı sıfır olan ikili sayılara yükseltildiği ve sayısal ilkellerin çift sayılar üzerinde çalışacak şekilde kaldırıldığı programda. Bu standart olmayan yorum genellikle iki stratejiden biri kullanılarak uygulanır: kaynak kodu dönüşümü veya operatör aşırı yükleme.

Kaynak kod dönüşümü (SCT)

Şekil 4: Kaynak kodu dönüşümünün nasıl çalışabileceğine dair örnek

Bir fonksiyonun kaynak kodu, orijinal talimatlarla araya eklenmiş türevleri hesaplamak için ifadeler içeren otomatik olarak oluşturulmuş bir kaynak kodu ile değiştirilir.

Kaynak kod dönüşümü tüm programlama dilleri için uygulanabilir ve derleyicinin derleme zamanı optimizasyonları yapması da daha kolaydır. Bununla birlikte, AD aracının kendisinin uygulanması daha zordur.

Operatör aşırı yükleme (OO)

Şekil 5: Operatör aşırı yüklemesinin nasıl çalışabileceğine dair örnek

Operatör aşırı yükleme onu destekleyen bir dilde yazılmış kaynak kodu için bir olasılıktır. Gerçek sayılar ve temel matematiksel işlemler için nesneler, yukarıda açıklanan artırılmış aritmetiği karşılamak için aşırı yüklenmelidir. Bu, işlevin farklılaştırılması için orijinal kaynak kodundaki işlemlerin biçiminde veya dizisinde herhangi bir değişiklik gerektirmez, ancak aşırı yüklemeyi desteklemek için genellikle sayılar ve vektörler için temel veri türlerinde değişiklikler gerektirir ve genellikle özel işaretleme işlemlerinin eklenmesini de içerir.

İleri birikim için operatör aşırı yüklemesinin uygulanması kolaydır ve ayrıca ters biriktirme için de mümkündür. Ancak, mevcut derleyiciler, ileriye dönük birikimle karşılaştırıldığında kodu optimize etmede geride kalıyor.

Operatör aşırı yüklemesi, hem ileri hem de ters biriktirme için, nesnelerin skalerlerden ziyade gerçek sayıların vektörleri olduğu uygulamalar için çok uygun olabilir. Bunun nedeni, bandın daha sonra vektör işlemlerini içermesidir; bu, her vektör işleminin birçok skaler işlem gerçekleştirdiği hesaplama açısından verimli uygulamaları kolaylaştırabilir. Örneğin, Monte-Carlo simülasyonu ile hesaplanan değerleri farklılaştırmak için vektör bitişik algoritmik farklılaştırma (vektör AAD) teknikleri kullanılabilir.

C ++ 'da otomatik farklılaştırmanın operatör aşırı yükleme uygulamalarının örnekleri şunlardır: Usta ve Stan kütüphaneler.

Notlar

^ Ağırlık matrisleri açısından, ek, değiştirmek. Ekleme açıcı ${ displaystyle [1 cdots 1]}$ , dan beri ${ displaystyle [1 cdots 1] sol [{ begin {smallmatrix} x_ {1} vdots x_ {n} end {smallmatrix}} sağ] = x_ {1} + cdots + x_ {n},}$ ve fanout vektör ${ displaystyle sol [{ başlar {smallmatrix} 1 vdots 1 end {smallmatrix}} sağ],}$ dan beri ${ displaystyle sol [{ begin {smallmatrix} 1 vdots 1 end {smallmatrix}} right] [x] = sol [{ begin {smallmatrix} x vdots x end {smallmatrix}} right].}$

Referanslar

^ Neidinger Richard D. (2010). "Otomatik Farklılaştırma ve MATLAB Nesne Tabanlı Programlamaya Giriş" (PDF). SIAM İncelemesi. 52 (3): 545–563. CiteSeerX 10.1.1.362.6580. doi:10.1137/080743627.
^ ^a ^b Baydin, Atılım Güneş; Pearlmutter, Barak; Radul, Alexey Andreyevich; Siskind Jeffrey (2018). "Makine öğreniminde otomatik farklılaşma: bir anket". Makine Öğrenimi Araştırmaları Dergisi. 18: 1–43.
^ YENİDEN. Wengert (1964). "Basit bir otomatik türev değerlendirme programı". Comm. ACM. 7 (8): 463–464. doi:10.1145/355586.364791.
^ Bartholomew-Biggs, Michael; Brown, Steven; Christianson, Bruce; Dixon Laurence (2000). "Algoritmaların otomatik farklılaşması". Hesaplamalı ve Uygulamalı Matematik Dergisi. 124 (1–2): 171–190. Bibcode:2000JCoAM.124..171B. doi:10.1016 / S0377-0427 (00) 00422-2. hdl:2299/3010.
^ Linnainmaa, Seppo (1976). "Birikmiş Yuvarlama Hatasının Taylor Genişlemesi". BIT Sayısal Matematik. 16 (2): 146–160. doi:10.1007 / BF01931367.
^ Griewank Andreas (2012). "Farklılaşmanın Ters Modunu Kim Buldu?" (PDF). Optimizasyon Hikayeleri, Documenta Matematica. Ekstra Hacim ISMP: 389–400.
^ Naumann, Uwe (Nisan 2008). "Optimal Jacobian birikimi NP-tamamlandı". Matematiksel Programlama. 112 (2): 427–441. CiteSeerX 10.1.1.320.5665. doi:10.1007 / s10107-006-0042-z.

daha fazla okuma

Rall, Louis B. (1981). Otomatik Farklılaştırma: Teknikler ve Uygulamalar. Bilgisayar Bilimlerinde Ders Notları. 120. Springer. ISBN 978-3-540-10861-0.
Griewank, Andreas; Walther Andrea (2008). Türevlerin Değerlendirilmesi: Algoritmik Türev İlke ve Teknikleri. Uygulamalı Matematikteki Diğer Başlıklar. 105 (2. baskı). SIAM. ISBN 978-0-89871-659-7. Arşivlenen orijinal 2010-03-23 tarihinde. Alındı 2009-10-21.
Neidinger Richard (2010). "Otomatik Farklılaştırma ve MATLAB Nesne Tabanlı Programlamaya Giriş" (PDF). SIAM İncelemesi. 52 (3): 545–563. CiteSeerX 10.1.1.362.6580. doi:10.1137/080743627. Alındı 2013-03-15.
Naumann, Uwe (2012). Bilgisayar Programlarını Farklılaştırma Sanatı. Yazılım-Ortamlar-araçlar. SIAM. ISBN 978-1-611972-06-1.
Henrard, Marc (2017). Finansta Algoritmik Farklılaşma Açıklandı. Finans Mühendisliği Açıklandı. Palgrave Macmillan. ISBN 978-3-319-53978-2.

Dış bağlantılar

www.autodiff.org, "Otomatik farklılaştırma hakkında bilmek istediğiniz her şeye giriş sitesi"
Paralel OpenMP Programlarının Otomatik Olarak Farklılaştırılması
Otomatik Farklılaştırma, C ++ Şablonları ve Fotogrametri
Otomatik Farklılaştırma, Operatör Aşırı Yükleme Yaklaşımı
Web tabanlı bir arayüz aracılığıyla herhangi bir Fortran77, Fortran95 veya C programının analitik türevlerini hesaplayın Fortran programlarının Otomatik Farklılaştırılması
Scala'da ileri Otomatik Farklılaşma için açıklama ve örnek kod
finmath-lib otomatik farklılaştırma uzantıları, Rastgele değişkenler için otomatik farklılaşma (Stokastik otomatik farklılaştırmanın Java uygulaması).
Eşlenik Algoritmik Farklılaşma: Kalibrasyon ve Örtük Fonksiyon Teoremi
C ++ Şablon tabanlı otomatik farklılaştırma makalesi ve uygulama
Teğet Kaynaktan Kaynağa Hata Ayıklanabilir Türevler
[1], Algoritmik Farklılaşmaya Göre Tam Birinci ve İkinci Derece Yunanlılar
[2], GPU ile Hızlandırılmış Bir Uygulamanın Birleşik Algoritmik Farklılaşması
[3], Hesaplamalı Finans Yazılımında Ek Yöntemler Algoritmik Farklılaşma için Araç Desteği

[5] Ağırlık matrisleri açısından, ek, değiştirmek. Ekleme açıcı ${ displaystyle [1 cdots 1]}$ , dan beri ${ displaystyle [1 cdots 1] sol [{ begin {smallmatrix} x_ {1} vdots x_ {n} end {smallmatrix}} sağ] = x_ {1} + cdots + x_ {n},}$ ve fanout vektör ${ displaystyle sol [{ başlar {smallmatrix} 1 vdots 1 end {smallmatrix}} sağ],}$ dan beri ${ displaystyle sol [{ begin {smallmatrix} 1 vdots 1 end {smallmatrix}} right] [x] = sol [{ begin {smallmatrix} x vdots x end {smallmatrix}} right].}$

[1] Neidinger Richard D. (2010). "Otomatik Farklılaştırma ve MATLAB Nesne Tabanlı Programlamaya Giriş" (PDF). SIAM İncelemesi. 52 (3): 545–563. CiteSeerX 10.1.1.362.6580. doi:10.1137/080743627.

[baydin2018automatic-2] Baydin, Atılım Güneş; Pearlmutter, Barak; Radul, Alexey Andreyevich; Siskind Jeffrey (2018). "Makine öğreniminde otomatik farklılaşma: bir anket". Makine Öğrenimi Araştırmaları Dergisi. 18: 1–43.

[3] YENİDEN. Wengert (1964). "Basit bir otomatik türev değerlendirme programı". Comm. ACM. 7 (8): 463–464. doi:10.1145/355586.364791.

[4] Bartholomew-Biggs, Michael; Brown, Steven; Christianson, Bruce; Dixon Laurence (2000). "Algoritmaların otomatik farklılaşması". Hesaplamalı ve Uygulamalı Matematik Dergisi. 124 (1–2): 171–190. Bibcode:2000JCoAM.124..171B. doi:10.1016 / S0377-0427 (00) 00422-2. hdl:2299/3010.

[lin1976-6] Linnainmaa, Seppo (1976). "Birikmiş Yuvarlama Hatasının Taylor Genişlemesi". BIT Sayısal Matematik. 16 (2): 146–160. doi:10.1007 / BF01931367.

[grie2012-7] Griewank Andreas (2012). "Farklılaşmanın Ters Modunu Kim Buldu?" (PDF). Optimizasyon Hikayeleri, Documenta Matematica. Ekstra Hacim ISMP: 389–400.

[8] Naumann, Uwe (Nisan 2008). "Optimal Jacobian birikimi NP-tamamlandı". Matematiksel Programlama. 112 (2): 427–441. CiteSeerX 10.1.1.320.5665. doi:10.1007 / s10107-006-0042-z.

[1]

[2]

[3]

[4]

[a]

[5]

[6]

[7]