FMA komut seti - FMA instruction set

FMA komut seti 128 ve 256-bit'in bir uzantısıdır Akış SIMD Uzantıları talimatlar x86 mikroişlemci komut seti gerçekleştirmek kaynaşmış çarpma-ekle (FMA) işlemleri.[1] İki çeşit vardır:

Talimatlar

FMA3 ve FMA4 komutları hemen hemen aynı işlevselliğe sahiptir, ancak uyumlu değildir. Her ikisi de içerir kaynaşmış çarpma-ekle (FMA) talimatları kayan nokta skaler ve SIMD işlemler, ancak FMA3 komutlarının üç işlenenleri varken FMA4 komutlarının dört işlenenleri vardır. FMA işlemi forma sahiptir d = yuvarlak (a · b + c), yuvarlak işlevi bir yuvarlama hedefe sığacak çok fazla önemli bit varsa sonucun hedef yazmacı içine sığmasına izin vermek.

Dört işlenen formu (FMA4), a, b, c ve d üç işlenen formu (FMA3) bunu gerektirirken, dört farklı yazmaç d ile aynı kayıt olmak a, b veya c. Üç işlenenli biçim kodu kısaltır ve donanım uygulamasını biraz daha basit hale getirirken, dört işlenili biçim daha fazla programlama esnekliği sağlar.

Görmek XOP komut seti Intel ve AMD arasındaki uyumluluk sorunları hakkında daha fazla tartışma için.

FMA3 komut seti

FMA3 ile CPU'lar

FMA3'ten alıntı

Desteklenen komutlar arasında VFMADD, VFMADDSUB, VFMSUBADD, VFMSUB, VFNMADD, VFNMSUB bulunur. İşlenenlerin açık sırası, "132", "213" ve "231" sayılarının yanı sıra işlenen formatı (paketlenmiş veya skaler) ve boyut (tek veya çift) kullanılarak anımsatıcıya dahil edilir.

Anımsatıcı (AT&T)OperandlarOperasyon
VFMADD132PDyymm, ymm, ymm / m256a = a · c + b
VFMADD132PSy
VFMADD132PDxxmm, xmm, xmm / m128
VFMADD132PSx
VFMADD132SDxmm, xmm, xmm / m64
VFMADD132SSxmm, xmm, xmm / m32
VFMADD213PDyymm, ymm, ymm / m256a = b · a + c
VFMADD213PSy
VFMADD213PDxxmm, xmm, xmm / m128
VFMADD213PSx
VFMADD213SDxmm, xmm, xmm / m64
VFMADD213SSxmm, xmm, xmm / m32
VFMADD231PDyymm, ymm, ymm / m256a = b · c + a
VFMADD231PSy
VFMADD231PDxxmm, xmm, xmm / m128
VFMADD231PSx
VFMADD231SDxmm, xmm, xmm / m64
VFMADD231SSxmm, xmm, xmm / m32

FMA4 komut seti

FMA4 ile CPU'lar

  • AMD
    • "Ağır Ekipman" işlemcileri
    • Zen: WikiChip'in testi, FMA4'ün resmi olarak desteklenmemesine ve hatta CPUID tarafından rapor edilmemesine rağmen (testlerin koşulları altında) hala çalıştığını gösteriyor. Bu, Agner tarafından da onaylandı.[5] Ancak diğer testler yanlış sonuçlar verdi.[6] AMD Resmi Web Sitesi FMA4 Destek Notu ZEN CPU'lar = AMD ThreadRipper 1900x, R7 Pro 1800, 1700, R5 Pro 1600, 1500, R3 Pro 1300, 1200, R3 2200G, R5 2400G.[7][8][9]
  • Intel
    • Intel'in açıkladığı FMA3 değişikliği nedeniyle, gelecekteki Intel işlemcilerinin FMA4'ü destekleyip desteklemeyeceği belirsiz.

FMA4'ten alıntı

Anımsatıcı (AT&T)OperandlarOperasyon
VFMADDPDxxmm, xmm, xmm / m128, xmm / m128a = b · c + d
VFMADDPDyymm, ymm, ymm / m256, ymm / m256
VFMADDPSxxmm, xmm, xmm / m128, xmm / m128
VFMADDPSyymm, ymm, ymm / m256, ymm / m256
VFMADDSDxmm, xmm, xmm / m64, xmm / m64
VFMADDSSxmm, xmm, xmm / m32, xmm / m32

Tarih

Intel'in FMA3 ve AMD'nin FMA4'ü arasındaki uyumsuzluk, her iki şirketin de kodlama ayrıntılarını birbirleriyle koordine etmeden planlarını değiştirmesinden kaynaklanıyor. AMD planlarını FMA3'ten FMA4'e değiştirirken, Intel neredeyse aynı anda planlarını FMA4'ten FMA3'e değiştirdi. Tarih şu şekilde özetlenebilir:

  • Ağustos 2007: AMD duyurur SSE5 3-operandlı FMA komutlarını içeren komut seti. Komutların üç işlenen içermesine izin vermek için yeni bir kodlama şeması (DREX) tanıtıldı.[10]
  • Nisan 2008: Intel duyurur AVX ve 4-operandlı FMA komutları dahil FMA komut setleri. Bu talimatların kodlamasında yeni CANINI SIKMAK kodlama şeması,[11] AMD'nin DREX planından daha esnektir.
  • Aralık 2008: Intel, FMA talimatlarının özelliklerini 4 işlenenden 3 işlenene değiştirir. VEX kodlama şeması hala kullanılmaktadır.[12]
  • Mayıs 2009: AMD, FMA talimatlarının özelliklerini 3 işlenili DREX biçiminden 4 işlenen VEX biçimine değiştirdi, bu da Aralık 2008 Intel belirtimi yerine Nisan 2008 Intel belirtimi ile uyumlu.[13]
  • Ekim 2011: AMD Buldozer işlemci FMA4'ü destekler.[14]
  • Ocak 2012: AMD, kod adı verilen gelecekteki işlemcilerde FMA3 desteğini duyurdu Trinity ve Vishera; Piledriver mimarisine dayalıdırlar.[15]
  • Mayıs 2012: AMD Piledriver işlemci hem FMA3 hem de FMA4'ü destekler.[14]
  • Haziran 2013: Intel Haswell işlemci FMA3'ü destekler.[16]
  • Şubat 2017 İlk nesil AMD Ryzen işlemciler resmi olarak FMA3'ü destekliyor, ancak FMA4'ü desteklemiyor. CPUID talimat.[17] FMA4'ün bu işlemcide uygulanıp uygulanmadığına ilişkin olarak, başlangıç ​​yamasındaki hata verileri nedeniyle karışıklık olmuştur. GNU Binutils o zamandan beri düzeltilmiş paket.[18][19] FMA4 komutları bazı testlere göre çalışıyor gibi görünse de yanlış sonuçlar da verebilir.[6] Ek olarak, ilk Ryzen CPU'ları belirli bir FMA3 talimatları dizisi tarafından çökebilir. O zamandan beri güncellenmiş bir CPU mikro kodu ile çözülmüştür.[20]

Derleyici ve derleyici desteği

Farklı derleyiciler, FMA için farklı düzeylerde destek sağlar:

  • GCC 4.5.0 sürümünden beri -mfma4 ile FMA4'ü destekler[21] ve 4.7.0 sürümünden beri -mfma ile FMA3.
  • Microsoft Visual C ++ 2010 SP1, FMA4 talimatlarını destekler.[22]
  • Microsoft Visual C ++ 2012, FMA3 talimatlarını destekler (işlemci ayrıca AVX2 komut seti uzantısını destekliyorsa).
  • Microsoft Visual C ++ VC 2013'ten beri
  • PathScale -mfma ile FMA4'ü destekler.[23]
  • LLVM 3.1 FMA4 desteği ekler,[24] ön FMA3 desteği ile birlikte.[25]
  • Open64 5.0, "sınırlı destek" ekler.
  • Intel derleyiciler yalnızca FMA3 talimatlarını destekler.[21]
  • NASM 2.03 sürümünden beri FMA3 talimatlarını ve 2.06'dan beri FMA4 talimatlarını destekler.
  • Yasm 0.8.0 sürümünden beri FMA3 talimatlarını ve 1.0.0 sürümünden itibaren FMA4 talimatlarını destekler.
  • FASM hem FMA3 hem de FMA4 talimatlarını destekler.

Referanslar

  1. ^ "FMA3 ve FMA4 komut setleri değildir, bunlar ayrı komutlardır - kaynaştırılmış çarpma toplama. Intel ve AMD'nin bunları nasıl uyguladığına bağlı olarak oldukça yararlı olabilirler." Woltmann, George (Prime95). "Intel AVX ve GIMPS". mersenneforum.org/index.php. Harika İnternet Mersenne Prime Search (GIMPS) projesi. Alındı 27 Temmuz 2011.
  2. ^ Maffeo, Robin (1 Mart 2012). "AMD ve Visual Studio 11 Beta". AMD. Arşivlenen orijinal Kasım 9, 2013. Alındı 2018-11-07.
  3. ^ "AMD64 Mimarisi Programcı Kılavuzu Cilt 6: 128-Bit ve 256-Bit XOP, FMA4 ve CVT16 Talimatları" (PDF). AMD. 1 Mayıs 2009.
  4. ^ "Yeni" Buldozer "ve" Piledriver "Talimatları Yüksek performanslı yazılım geliştirme için ileri bir adım" (PDF). AMD. Ekim 2012.
  5. ^ http://agner.org/optimize/blog/read.php?i=838
  6. ^ a b "Tartışma - Ryzen, FMA4 için belgelenmemiş desteğe sahip". Alındı 2017-05-10.
  7. ^ "www.amd.com, FMA4 destek modeli listesi". Alıntıda boş bilinmeyen parametre var: |1= (Yardım)
  8. ^ "www.amd.com, FMA4 destek modeli listesi". Alıntıda boş bilinmeyen parametre var: |1= (Yardım)
  9. ^ "www.amd.com, FMA4 destek modeli listesi". Alıntıda boş bilinmeyen parametre var: |1= (Yardım)
  10. ^ "128-Bit SSE5 Komut Seti". AMD Geliştirici Merkezi. Arşivlenen orijinal 2008-01-15 tarihinde. Alındı 2008-01-28.
  11. ^ "Intel Gelişmiş Vektör Uzantıları Programlama Referansı" (PDF). Intel. Alındı 2008-04-05.[kalıcı ölü bağlantı ]
  12. ^ "Intel Gelişmiş Vektör Uzantıları Programlama Referansı". Intel. Alındı 2009-05-06.
  13. ^ "Dengeyi yakalamak". Dave Christie, AMD Geliştirici blogları. 6 Mayıs 2009. Arşivlenen orijinal 8 Temmuz 2012. Alındı 2018-11-07.
  14. ^ a b "Yeni Buldozer ve Piledriver Talimatları" (PDF). AMD. Alındı 25 Temmuz 2013.
  15. ^ "AMD Ailesi 15h İşlemciler için Yazılım Optimizasyon Kılavuzu" (PDF). AMD. Alındı 19 Nisan 2012.
  16. ^ "Intel Mimarisi Yönerge Seti Uzantıları Programlama Referansı" (PDF). Intel. Alındı 25 Temmuz 2013.
  17. ^ "Intel, AMD ve VIA CPU'ların mikro mimarisi Montaj programcıları ve derleyici üreticileri için bir optimizasyon kılavuzu" (PDF). Alındı 2017-05-02.
  18. ^ https://sourceware.org/ml/binutils/2015-03/msg00078.html
  19. ^ https://sourceware.org/ml/binutils/2015-08/msg00039.html
  20. ^ "AMD Ryzen Makinesi, FMA3 Talimatları Dizisine Çöküyor". Alındı 2017-09-10.
  21. ^ a b Latif, Lawrence (14 Kasım 2011). "AMD Bulldozer yalnızca FMA4 ve XOP talimatları GCC Intel tarafından desteklenmektedir.. The Inquirer.
  22. ^ "Visual Studio 2010 SP1 için FMA4 Intrinsics Eklendi".
  23. ^ "EKOPath adam dokümanı". Arşivlenen orijinal 2016-06-23 tarihinde. Alındı 2013-07-24.
  24. ^ "LLVM 3.1 Sürüm Notları".
  25. ^ "CPUID aracılığıyla AVX ve AVX2 desteğinin algılanmasını etkinleştir". LLVM. 2012-04-26.