MateCat - MateCat

MateCat Aracı düzenleme sayfası

MateCat web tabanlı bir bilgisayar destekli çeviri (CAT) aracıdır ve bunlardan birkaçı mevcut piyasada bulunmaktadır. MateCat, Özgür Yazılım Vakfı'ndan Kısıtlı Genel Kamu Lisansı (LGPL) kapsamında açık kaynaklı bir yazılım olarak piyasaya sürüldü.

Proje

Makine Çevirisi Geliştirilmiş Bilgisayar Destekli Çevirinin kısaltması olan MateCat, 287688 numaralı hibe sözleşmesi kapsamında Avrupa Birliği'nin Yedinci Çerçeve Programı tarafından finanse edilen 3 yıllık bir araştırma projesidir (11 / 2011-10 / 2014).[1] Halihazırda 2.500.000 € 'dan fazla Avrupa fonu almıştır.[2]

Proje konsorsiyumu FBK tarafından yönetilmektedir (Fondazione Bruno Kessler), İtalya'nın Trento şehrinde bulunan uluslararası bir araştırma merkezi.

CAT araçları

MateCat'in amacı, makine çevirisi sonuçlarını düzenlemek ve yerelleştirme iş akışını yönetmek için bir araç oluşturmaktır. Sistem, kullanıcıya tamamen otomatik ve şeffaf bir şekilde en doğru çeviri önerilerini sunmak için hatalardan öğrenebilir, zaman içinde otomatik olarak gelişebilir ve alana özgü dilde (örneğin, yasal terminoloji) uzmanlaşabilir.[3]

CAT araçları, çeviri belleklerine (TM), terminoloji veritabanlarına, uyum araçlarına ve son zamanlarda makine çevirisi (MT) motorlarına erişim sağlar. Bir TM, temelde çevrilmiş bölümlerin bir deposudur. Çeviri sırasında CAT aracı, geçerli kaynak segmentin tam veya belirsiz eşleşmelerini aramak için ÇB'yi sorgular. Bu eşleşmeler, kullanıcıya çeviri önerileri olarak önerilmektedir. Bir segment çevrildikten sonra, kaynağı ve hedef metinleri gelecekteki sorgular için TM'ye eklenir. Bir MT motorundan gelen önerilerin TM eşleşmelerine tamamlayıcı olarak entegrasyonu, son araştırmalarla motive edilmiştir,[4][5][6] Bu, çeviri sonrası MT önerilerinin çevirilerdeki doğruluk düzeyini önemli ölçüde artırdığını göstermiştir.

Teknoloji

İstatistiksel MT

MateCat aracı, Chrome aracılığıyla erişilebilen bir web sunucusu olarak çalışır. CAT web sunucusu, açık API'ler aracılığıyla diğer hizmetlere bağlanır: TM sunucusu MyMemory,[7] ticari Google Translate (GT) MT sunucusu ve Musa'nın listesi [8]yapılandırma dosyasında belirtilen tabanlı sunucular. MyMemory’nin ve GT’nin sunucuları her zaman çalışır durumda ve kullanılabilir durumdayken, özelleştirilmiş Moses sunucularının ilk önce yüklenmesi ve ayarlanması gerekir. Moses sunucuları ile iletişim, kendi kendine ayarlama, kullanıcı uyarlamalı ve bilgilendirici MT işlevlerini desteklemek için GT API'yi genişletir. XLIFF [9] MateCat aracının açık kaynak sürümü tarafından yerel olarak desteklenen dosya biçimidir; ancak harici dosya dönüştürücüler, MateCat yapılandırma dosyasına eklenebilir. Araç, Latin olmayan alfabeler ve sağdan sola diller dahil olmak üzere Unicode (UTF-8) kodlamayı destekler ve işaretleme etiketlerini yerleştiren metinleri işler.

MateCat, son teknolojiyi üç yönde ilerleterek istatistiksel MT'ye artan ilgi ve beklentilerden yararlanır: Kendi kendine ayarlanan MT, Kullanıcıya uyarlanabilir MT, Bilgilendirici MT.

Bu üç yöndeki araştırmalar, hem kurumsal düzeyde bir çeviri tezgahı hem de yeni MT işlevlerini entegre etmek, düzenleme sonrası deneyleri çalıştırmak ve kullanıcı verimliliğini ölçmek için gelişmiş bir araştırma platformu olan yeni nesil bir CAT yazılımına dönüştü. Bunlar şunları içerir: i) Musa Araç Kiti için, dillere ve alanlara göre özelleştirilebilen gelişmiş bir API, ii) aynı projede birden çok kullanıcının işbirliğini sağlayan temiz ve sezgisel bir web arayüzü aracılığıyla kullanım kolaylığı, iii) uygunluklar, terminoloji veritabanları ve özelleştirilebilir kalite tahmin bileşenleri için destek ve iv) gelişmiş kayıt işlevleri.

MT desteği

Araç, gelişmiş bir CAT-MT iletişimi sağlayabilen Moses tabanlı sunucuları destekler. Özellikle, GT API'si, bir segmentin sonradan düzenlendiği her seferinde MT motoruna sağlanan geri bildirim bilgileriyle ve ayrıca güven skorları, kelime kafesleri vb. Dahil olmak üzere zenginleştirilmiş MT çıktısı ile zenginleştirilir. Geliştirilmiş MT sunucusu, hizmet vermek için çoklu iş parçacığı özelliğini destekler. birden çok çevirmen, etiketler dahil metin bölümlerini yönetir ve her kullanıcı tarafından gerçekleştirilen sonradan düzenlemelerden uyarlar [10]

Bağlama duyarlı çeviri

MateCat ayrıca, yalnızca halihazırda düzenlenmiş bölümlerle değil, aynı zamanda teorik olarak tüm belgeyle ilgili olarak tutarlı olan MT tarafından öneriler de sağlar. Bu bağlam bilgisi, istatistiksel modellere yerleştirilecektir ve örneğin sözcük alternatifleri arasında daha iyi belirsizliği gidermeye imkan vermelidir. Bağlama dayalı modeller, belge analizi sırasında çıkarılan yinelenen terimler ve ifadeler hakkındaki bilgileri, mevcut olur olmaz karşılık gelen seçilmiş ve onaylanmış çevirilerle birleştirecektir. Özellikle, cümle içi ve cümle içi anaforik ifadeler, sözdizimsel uygunluklar ve sözcüksel tutarlılıkla ilgili çeviri kısıtlamaları, belirli istatistiksel modeller aracılığıyla dikkate alınacaktır.

Gerçek zamanlı işlem

Geleneksel MT sistemlerinin temel bileşenleri, yani çeviri ve dil modelleri genellikle durağandır: ilk eğitim aşamasından sonra asla değişmezler. Bu, MateCat'in çevirmenler için tasarladığı gibi dinamik bir ortam için uygun olmadıkları anlamına gelir. Önceki iki görevde tasvir edilen dinamik değişiklikleri modellemek için, MateCat, kullanıcı tarafından yeni bir çeviri sağlanır sağlanmaz hızlı ve etkili bir şekilde güncellenebilen yenilikçi veri yapıları ve bu uyarlamayı bu şekilde gerçekleştirmek için yenilikçi, verimli algoritmalar geliştirdi. tüm sürecin gerçek zamanlı olarak gerçekleşmesi ve çevirmen için şeffaf olması. Dahası, tek CPU çok iş parçacığından yararlanmanın yanı sıra özel kümeler veya bilgisayar bulutları üzerinde çalışan dağıtılmış bilgi işlem olanaklarından yararlanılarak verimlilik artırılacaktır.

Günlüğü düzenle

Şekil 1 - MateCat Aracı düzenleme günlüğü sayfası.

Sonradan düzenleme sırasında araç, her bölüm için zamanlama bilgilerini toplar ve bu, bölüm her açıldığında ve kapatıldığında güncellenir. Ayrıca, her bölüm için, oluşturulan öneriler ve fiilen sonradan düzenlenmiş olanlar hakkında bilgi toplanır. Bu bilgilere, Düzenleme Sayfasındaki Düzenleme Günlüğü adlı bir bağlantı aracılığıyla her zaman erişilebilir. Düzenleme Günlüğü sayfası (Şekil 1), ortalama çeviri hızı ve düzenleme sonrası çabası ve MT veya TM'den gelen en iyi önerilerin yüzdesi gibi proje üzerinde şimdiye kadar gerçekleştirilen genel düzenlemenin bir özetini gösterir. Ayrıca, çeviri hızı açısından en yavaştan en hızlıya sıralanmış her bir segment için, gerçekleştirilen kurgu işlemleri hakkında detaylı istatistikler raporlanmaktadır. Daha fazla ayrıntı içeren bu bilgiler, daha ayrıntılı bir düzenleme sonrası analizi gerçekleştirmek için bir CSV dosyası olarak da indirilebilir. Günlüğü Düzenle sayfasında gösterilen bilgiler, bir çeviri projesinin ilerlemesini gerçek zamanlı olarak izlemek için çok yararlı olsa da, CSV dosyası, proje sona erdikten sonra ayrıntılı verimlilik analizleri için temel bir bilgi kaynağıdır.

Başvurular

MateCat, MateCat projesi tarafından yeni MT işlevlerini araştırmak için kullanılmıştır[11] çevirmenlerin birlikte çalışmaya alıştıkları tüm bilgi kaynaklarının emrinde olduğu gerçek bir profesyonel ortamda bunları değerlendirmek. Dahası, esnekliğinden ve kullanım kolaylığından yararlanarak, araç son zamanlarda veri toplama ve eğitim amacıyla (çeviri çalışmalarında öğrenciler için CAT teknolojisi üzerine bir kurs) kullanılmıştır. Aracın ilk sürümü de CasmaCat projesi tarafından kullanılmıştır [12] bir çalışma tezgahı oluşturmak için[13] özellikle etkileşimli MT, göz izleme ve el yazısı girdisi gibi gelişmiş etkileşim yöntemlerini araştırmak için uygundur. Araç şu anda çeviri ajansı Translated.net tarafından dahili çeviri projeleri için kullanılıyor ve hem dil hizmeti sağlayıcıları hem de BT şirketleri gibi birkaç uluslararası şirket tarafından test ediliyor. Bu, yüzlerce çevirmenden sürekli geri bildirim toplamayı mümkün kıldı ve bu, aracın sağlamlığını geliştirmemize yardımcı olmanın yanı sıra, son kullanıcıya en iyi yardımı sağlamak için yeni MT işlevlerinin entegre edilme şeklini de etkiliyor.

Referanslar

  1. ^ José, M. ve Machado, B. (2014). Ücretsiz ve açık kaynaklı yazılım - bir çevirmenin iyi arkadaşı, 3. Şuradan alındı http://ec.europa.eu/translation/portuguese/magazine
  2. ^ AVRUPA KOMİSYONU. (2017). AVRUPA KOMİSYON PERSONELİ ÇALIŞMA BELGESİ UFUK 2020 ARA DÖNEM DEĞERLENDİRMESİ EK 2. Brüksel. Alınan http://ec.europa.eu/transparency/regdoc/rep/10102/2017/EN/SWD-2017-221-F1-EN-MAIN-PART-12.PDF
  3. ^ https://www.fbk.eu/en/result/matecat/
  4. ^ Marcello Federico; Alessandro Cattelan; Marco Trombetti (2012). "Makine çevirisi ile geliştirilmiş bilgisayar destekli çeviride kullanıcı verimliliğinin ölçülmesi. Amerika'da Makine Çevirisi Derneği'nin Onuncu Konferansı Bildirileri (AMTA)" (PDF). Amta2012.amtaweb.org. Arşivlenen orijinal (PDF) 30 Ekim 2014. Alındı 30 Ekim 2014.
  5. ^ Spence Green; Jeffrey Heer; Christopher D Manning (2013). "İnsanların dil çevirisi için sonradan düzenlemenin etkinliği. SIGCHI Bilgisayar Sistemlerinde İnsan Faktörleri Konferansı Bildirileri". Dl.acm.org. s. 439–448. Alındı 30 Ekim 2014.
  6. ^ Samuel Läubli; Mark Fishel; Gary Massey; Maureen Ehrensberger-Dow; Martin Volk (2013). "Gerçekçi Bir Çeviri Ortamında Düzenleme Sonrası Verimliliğin Değerlendirilmesi. Michel Simard Sharon O'Brien ve Lucia Specia'da (editörler), editörler, MT Zirvesi XIV Çalıştayı Bildiri Sonrası Düzenleme Teknolojisi ve Uygulaması" (PDF). Nice, Fransa: Mt-archive.info. s. 83–91. Alındı 30 Ekim 2014.
  7. ^ "MyMemory, MT ve insan katkılarıyla işbirliği içinde oluşturulmuş dünyanın en büyük Çeviri Belleğidir (TM)". Mymemory.translated.net. Alındı 30 Ekim 2014.
  8. ^ "Moses, en popüler açık kaynaklı istatistiksel MT araç setidir". Statmt.org. Alındı 30 Ekim 2014.
  9. ^ "Docs.oasis-open.org". Docs.oasis-open.org. Alındı 30 Ekim 2014.
  10. ^ Nicola Bertoldi, Mauro Cettolo ve Marcello Federico. 2013. Makine Çevirisi Geliştirilmiş Bilgisayar Destekli Çeviri için Önbellek Tabanlı Çevrimiçi Uyarlama. İçinde MT Zirvesi XIV Bildirileri, 35–42. sayfalar, Nice, Fransa, Eylül.
  11. ^ Bertoldi ve diğerleri, 2013; Cettolo ve diğerleri, 2013; Turchi ve diğerleri, 2013; Turchi vd., 2014
  12. ^ "Casmacat.eu". Casmacat.eu. Alındı 30 Ekim 2014.
  13. ^ Vicent Alabau, Ragnar Bonk, Christian Buck, Michael Carl, Francisco Casacuberta, Mercedes Garca-Martiınez ,, Jesus Gonzalez, Philipp Koehn, Luis Leiva, Bartolomé Mesa-Lao, Daniel Oriz, Hervé Saint-Amand, German Sanchis ve Chara Tsiukala. 2013. Web tabanlı bir çalışma tezgahı ile gelişmiş bilgisayar destekli çeviri. İçinde Yayın Sonrası Düzenleme Teknolojisi ve Uygulaması Çalıştayı Bildirileri, sayfalar 55–62.

Dış bağlantılar