Şema agnostik veritabanları - Schema-agnostic databases

Şema agnostik veritabanları veya kelime bilgisinden bağımsız veritabanları verilerin temsilinden soyutlanacak kullanıcıları desteklemeyi, otomatik anlamsal eşleme sorgular arasında ve veritabanları. Şema agnostisizm kullanıcı terminolojisi ve yapısıyla verilen bir sorguyu eşleyen ve onu veri kümesi sözlüğüyle otomatik olarak eşleyen bir veritabanının özelliğidir.

Veritabanı şemalarının boyutundaki ve anlamsal heterojenliğindeki artış, sorgulama ve arama yapan kullanıcılar için yeni gereksinimler getirir. yapılandırılmış veriler. Bu ölçekte, veri tüketicilerinin sorgulamak için verilerin temsiline aşina olmaları mümkün olmayabilir. Bu tartışmanın merkezinde anlamsal boşluk veri ölçeği ve karmaşıklığı arttıkça daha merkezi hale gelen kullanıcılar ve veritabanları arasında.

Açıklama

Veri ortamlarının, birden çok veri kaynağından gelen verilerin tüketimine doğru evrimi ve şema boyutu, karmaşıklık, dinamiklik ve Ademi merkeziyetçilik (SCoDD) şemaları[1][2][3] çağdaş veri yönetiminin karmaşıklığını artırır. SCoDD eğilimi, veri yönetimi alanında merkezi bir veri yönetimi endişesi olarak ortaya çıkmaktadır. Büyük veri kullanıcıların ve uygulamaların, farklı anlamsal varsayımlar ve kullanım bağlamları altında bağımsız veri kaynakları tarafından üretilen daha eksiksiz verilere talep olduğu senaryolar, Anlamsal ağ Veri uygulamaları.

Veritabanlarının heterojen veri ortamları doğrultusunda gelişmesi, kullanılabilirliği güçlü bir şekilde etkiler, göstergebilim ve yapılandırılmış sorgular, anahtar sözcük tabanlı arama ve görsel sorgu sistemleri gibi mevcut veri erişilebilirlik yöntemlerinin arkasındaki anlamsal varsayımlar. Potansiyel olarak milyonlarca dinamik olarak değişen öznitelikleri içeren şemasız veritabanları ile, bazı kullanıcıların veritabanını sorgulamak için 'şema' ya da kelime dağarcığından haberdar olması mümkün değildir. Bu ölçekte, yapılandırılmış bir sorgu oluşturmak için şemayı anlama çabası engelleyici hale gelebilir.

Şema agnostik sorgular

Şema agnostik sorgular, veritabanının temsilini (şemasını) anlamadan kullanıcıların karmaşık bilgi ihtiyaçlarını karşılamasına izin veren yapılandırılmış veritabanları üzerinden sorgu yaklaşımları olarak tanımlanabilir. Benzer şekilde Tran ve ark.[4] bunu, "kullanıcıların verilerin temelini oluşturan şemayı bilmesini gerektirmeyen arama yaklaşımları" olarak tanımlar. Veritabanları üzerinde anahtar kelimeye dayalı arama gibi yaklaşımlar, kullanıcıların yapılandırılmış sorgular kullanmadan veritabanlarını sorgulamasına olanak tanır. Bununla birlikte, Tran ve diğerleri tarafından tartışıldığı gibi: "Bu noktalardan, kullanıcılar karmaşık bilgi ihtiyaçlarını karşılamak için daha fazla gezinme ve keşif yapmak zorundadır. Web'de kullanılan ve basit ihtiyaçlara odaklanan anahtar sözcük aramasının aksine, burada ayrıntılı olarak açıklanan anahtar kelime araması daha karmaşık sonuçlar elde etmek için kullanılır. Tek bir kaynak kümesi yerine amaç, karmaşık kaynak kümelerini ve bunların ilişkilerini hesaplamaktır. "

Destekleme yaklaşımlarının geliştirilmesi doğal dil arayüzleri (NLI) veri tabanları üzerinden şema agnostik sorguların amacına yöneliktir. Tamamlayıcı olarak, anahtar kelime aramaya dayalı bazı yaklaşımlar, daha karmaşık bilgi ihtiyaçlarını ifade eden anahtar kelime tabanlı sorguları hedeflemiştir. Diğer yaklaşımlar, şema kısıtlamalarının gevşetilebildiği veritabanları üzerinden yapılandırılmış sorguların yapımını araştırmıştır. Tüm bu yaklaşımlar (doğal dil, anahtar kelime tabanlı arama ve yapılandırılmış sorgular), anlamsal kaygının tamamen yokluğundan daha ilkeli anlamsallığa kadar değişen, sorgular ve veriler arasında esnek bir anlamsal eşleşmeyi destekleme sorununu ele almak için farklı düzeylerde karmaşıklığı hedeflemiştir. modeller. Şema agnostisizm talebi, yapılandırılmış veriler üzerinden anlamsal arama ve doğal dil sorgu sistemlerinde örtük bir gereklilik olsa da, çağdaş veritabanı yönetim sistemleri için bir kavram ve gerekli bir gereklilik olarak yeterince bireyselleştirilmemiştir. Son çalışmalar, şema agnostik sorgularda yer alan anlambilimsel yönleri tanımlamaya ve modellemeye başlamıştır.[1][5][6]

Şema agnostik yapılandırılmış sorgular

Yapılandırılmış bir standardın sözdizimini izleyen şema agnostik sorgulardan oluşur (örneğin SQL, SPARQL ). Operatörlerin sözdizimi ve anlambilim korunurken farklı terminolojiler kullanılır.

örnek 1

SEÇİN? Y {BillClinton hasDaughter? X. ? x marriedTo? y.}

aşağıdakilerle eşleşen SPARQL veri kümesi sözlüğünde sorgu:

ÖNEK : <http://dbpedia.org/resource/>ÖNEK dbpedia2: <http://dbpedia.org/property/>ÖNEK dbpedia: <http://dbpedia.org/ontology/>ÖNEK skos: <http://www.w3.org/2004/02/skos/core#>ÖNEK dbo: <http://dbpedia.org/ontology/>SEÇ   ? y  { :Bill Clinton dbpedia:çocuk ? x . ? x dbpedia2: ? y . }

Örnek 2

SEÇ   ? x {         ? x isA kitap .         ? x tarafından William_Goldman .         ? x has_pages ? p .         FİLTRE (? p > 300)  }

aşağıdakilerle eşleşen SPARQL veri kümesi sözlüğünde sorgu:

ÖNEK rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>ÖNEK : <http://dbpedia.org/resource/>ÖNEK dbpedia2: <http://dbpedia.org/property/>ÖNEK dbpedia: <http://dbpedia.org/ontology/>SEÇ ? x {         ? x rdf:tip dbpedia:Kitap .         ? x dbpedia2:yazar :William_Goldman .          ? x dbpedia:sayfa sayısı ? p .FİLTRE(? p > 300)}

Şemadan bağımsız anahtar kelime sorguları

Anahtar kelime sorguları kullanan şema agnostik sorgulardan oluşur. Bu durumda, operatörlerin sözdizimi ve anlambilimi, yapılandırılmış sorgu sözdiziminden farklıdır.

Misal

"Bill Clinton kızı ile evlendi"
"William Goldman'ın 300 sayfadan fazla kitapları"

Anlamsal karmaşıklık

2016 itibariyle şema agnostik sorgular kavramı, öncelikle akademik çevrelerde geliştirilmiştir. Şema agnostik sorgu sistemlerinin çoğu, bağlamında araştırılmıştır. Doğal Dil Arayüzleri veritabanları üzerinden veya Anlamsal ağ.[7] Bu çalışmalar, anlamsal ayrıştırma tekniklerinin büyük, heterojen ve şemasız veritabanları üzerindeki uygulamasını araştırıyor. Daha yakın zamanlarda, şema agnostik sorgu sistemleri ve veritabanları kavramının bireyselleştirilmesi literatürde daha açık bir şekilde ortaya çıktı.[1][5][6] Freitas vd.[8] şema agnostik sorguları eşlemenin anlamsal karmaşıklığı üzerine olasılıksal bir model sağlar.

Referanslar

  1. ^ a b c A. Freitas, "Büyük şema veritabanları üzerinden şemadan bağımsız sorgular: dağıtımsal anlambilim yaklaşımı" Doktora Tezi, 2015
  2. ^ Pat Helland, ["Çok fazla veriniz varsa, 'yeterince iyi' yeterince iyidir"], Commun. ACM 54 (6): 40–47, 2011.
  3. ^ M. L. Brodie ve J. T. Liu, ["Bilgi ekosistemleri çağında ilişkisel teknolojinin gücü ve sınırları"], Keynote, On The Move Federated Conferences, Heraklion, Yunanistan, 25–29 Ekim 2010.
  4. ^ T. Tran, T. Mathaess, P. Haase, ["Anahtar Kelime Tabanlı Şema-agnostik Aramanın Kullanılabilirliği - Anahtar Kelime Arama, Yönlü Arama, Sorgu Tamamlama ve Sonuç Tamamlama Üzerine Karşılaştırmalı Bir Çalışma"], 7. Genişletilmiş Anlamsal Web Konferansı Bildirilerinde (ESWC'10). Kandiye, Yunanistan, Haziran 2010.
  5. ^ a b A. Freitas, J.C. Pereira Da Silva, E. Curry, "Şema-agnostik Sorguların Anlamsal Haritalaması Üzerine: Bir Ön Çalışma", Veri Ağı için Doğal Dil Arayüzleri Çalıştayı (NLIWoD), 13th International Semantic Web Conference (ISWC), Rival del Garda, 2014.
  6. ^ a b S. Bischof, M. Kroetzsch, A. Polleres, S. Rudolph, ["SPARQL 1.1'de Schema-Agnostik Sorgu Yeniden Yazımı"], 13. Uluslararası Semantik Web Konferansı Bildirilerinde. Springer 2014.
  7. ^ Unger ve diğerleri, ["Bağlantılı Veriler Üzerinden Soru Cevaplamaya Giriş"], In Proceedings of the 2014 Reasoning Web Summer School, 2014
  8. ^ A. Freitas, J. E. Satış, S. Handschuh, E. Curry, "Sorgu ne kadar zor? Şema-Agnostik Sorguların Anlamsal Karmaşıklığını Ölçme", 11. Uluslararası Hesaplamalı Anlambilim Konferansı (IWCS) Bildirilerinde, Londra, 2015.