Basamaklı (yazılım) - Cascading (software)

Basamaklı
Kararlı sürüm
3.1
YazılmışJava
LisansApache Lisansı
İnternet sitesihttp://www.cascading.org/

Basamaklı bir yazılımdır soyutlama katmanı için Apache Hadoop ve Apache Flink. Basamaklama, herhangi birini kullanarak bir Hadoop kümesinde karmaşık veri işleme iş akışları oluşturmak ve yürütmek için kullanılır. JVM tabanlı dil (Java, JRuby, Clojure vb.), altında yatan karmaşıklığı gizleyerek Harita indirgeme Meslekler. Açık kaynaklıdır ve Apache Lisansı. Ticari destek Driven, Inc.'den alınabilir.[1]

Cascading, orijinal olarak Chris Wensel tarafından yazıldı ve daha sonra Driven olarak yeniden markalanan Concurrent, Inc'i kurdu.[2] Basamaklama, topluluk tarafından aktif olarak geliştirilmektedir[kaynak belirtilmeli ] ve bir dizi eklenti modülü mevcuttur.[3]

Mimari

Basamaklandırmayı kullanmak için, Apache Hadoop'un da yüklenmesi gerekir ve Hadoop işi .jar, Basamaklı .jars içermelidir. Basamaklama, bir veri işleme API'si, entegrasyon API'si, süreç planlayıcı ve süreç planlayıcıdan oluşur.

Basamaklı, Hadoop'un ölçeklenebilirliğinden yararlanır, ancak standart veri işleme işlemlerini temeldeki haritadan uzaklaştırır ve görevleri azaltır.[4][daha iyi kaynak gerekli ] Geliştiriciler, gerekli işlemleri açıklayan bir .jar dosyası oluşturmak için Basamaklama kullanır. Verilerin kaynaklardan toplandığı bir "kaynak boru havuzu" paradigmasını izler, sonuçların çıktı dosyalarında veya "havuzlarda" depolandığı veri analizi işlemlerini gerçekleştiren yeniden kullanılabilir "kanalları" izler. Borular, işleyecekleri verilerden bağımsız olarak oluşturulur. Veri kaynaklarına ve havuzlara bağlandıktan sonra buna "akış" denir. Bu akışlar bir "kademeli" olarak gruplandırılabilir ve süreç planlayıcı, belirli bir akışın tüm bağımlılıkları karşılanana kadar yürütülmemesini sağlayacaktır. Borular ve akışlar, farklı iş ihtiyaçlarını desteklemek için yeniden kullanılabilir ve yeniden düzenlenebilir.[5]

Geliştiriciler kodu JVM tabanlı bir dilde yazarlar ve MapReduce'u öğrenmeleri gerekmez. Ortaya çıkan program, diğer Java uygulamaları gibi regresyon testine tabi tutulabilir ve harici uygulamalarla entegre edilebilir.[6]

Basamaklama en çok reklam hedefleme, günlük dosyası analizi, biyoinformatik, makine öğrenimi, tahmine dayalı analitik, web içeriği madenciliği ve çıkartma, dönüştürme ve yükleme (ETL) uygulamaları.[7]

Basamaklama Kullanımları

Cascading, 2011 yılında SD Times tarafından en güçlü beş Hadoop projesinden biri olarak gösterildi.[8][güvenilmez kaynak? ] biyoinformatik ile ilgili büyük bir açık kaynak projesi olarak[9][güvenilmez kaynak? ] ve Tom White'ın Hadoop: A Definitive Guide adlı kitabına dahil edilmiştir.[10] Proje ayrıca sunumlarda, konferans tutanaklarında ve Hadoop kullanıcı grubu toplantılarında Hadoop ile çalışmak için yararlı bir araç olarak gösterildi.[11][12][13][14] Ve birlikte Apache Spark[15]

  • Çoklu alet açık Amazon Web Hizmetleri Cascading kullanılarak geliştirilmiştir.[16]
  • LogAnalyzer için Amazon CloudFront Cascading kullanılarak geliştirilmiştir.[17]
  • BackType[18] - sosyal analiz platformu
  • Etsy[19] - pazar yeri
  • FlightCaster[20] - uçuş gecikmelerini tahmin etme
  • İyon Akısı[21] - DNA dizisi verilerinin analizi
  • RapLeaf[22] - kişiselleştirme ve öneri sistemleri
  • Razorfish[23] - dijital reklamcılık

Basamaklama Üzerine Oluşturulan Etki Alanına Özgü Diller

  • PyCascading[24] - Twitter'dan GitHub'da mevcut
  • Cascading.jruby[25] - Gregoire Marabout tarafından geliştirilmiştir, GitHub'da mevcuttur
  • Cascalog[26] - yazan Nathan Marz GitHub'da mevcut
  • Haşlama[27] - Basamaklama için bir Scala API. Cascading / Scalding kodunu Spark'a geçirmeyi kolaylaştırır. Twitter ile GitHub'da mevcuttur

Referanslar

  1. ^ Basamaklı destek sayfası
  2. ^ Driven, Inc.
  3. ^ "Basamaklı modüller". Arşivlenen orijinal 2011-08-11 tarihinde. Alındı 2011-08-22.
  4. ^ Etsy tarafından Hadoop ile Basamaklama kullanımlarını açıklayan blog gönderisi
  5. ^ Basamaklı Kullanım Kılavuzu Arşivlendi 6 Şubat 2011, Wayback Makinesi
  6. ^ Tahrikli ürün sayfası
  7. ^ Tahrikli ana sayfa
  8. ^ Handy, Alex (1 Haziran 2011). "En güçlü beş Hadoop projesi". SD Zamanlar. Alındı 26 Ekim 2013.
  9. ^ Taylor, Ronald (21 Aralık 2010). "Hadoop / MapReduce / HBase çerçevesine ve biyoinformatikteki mevcut uygulamalarına genel bakış". BioMed Central. Springer Science + Business Media. Alındı 26 Ekim 2013.
  10. ^ White, Tom, "Hadoop: The Definitive Guide," O’Reilly Media, Inc., 2010, s. 539 - 549.
  11. ^ Nathan, Paco (Wikipedia: Paco Nathan ), SV Cloud Computing Meetup için "Hadoop'a Başlarken" sunumu, 19.07.2010.
  12. ^ "Julio Guijarro, Steve Loughran ve Paolo Castagna," Hadoop ve ötesi, "HP Labs, Bristol İngiltere, 2008" (PDF). Arşivlenen orijinal (PDF) 2011-10-01 tarihinde. Alındı 2011-08-22.
  13. ^ Cross, Bradford, "Flightcaster_HUG," Bay Area Hadoop Kullanıcıları Grubunda Sunum, 26 Mart 2010
  14. ^ Curtin, Christopher, "NoSQL, Hadoop and Cascading," Haziran 2010.
  15. ^ "Spark'ta Veri Merkezli Uygulamalar Oluşturmak için Basamaklama Kullanma". Kıvılcım Zirvesi 2014. 2014-05-07. Alındı 2016-03-25.
  16. ^ Cascading.Multitool AWS'de
  17. ^ Amazon CloudFront için LogAnalyzer
  18. ^ BackType blogu Arşivlendi 25 Ağustos 2011, Wayback Makinesi
  19. ^ Etsy tarafından Hadoop ile Basamaklama kullanımlarını açıklayan blog gönderisi
  20. ^ FlightCaster
  21. ^ İyon Akısı Arşivlendi 23 Ekim 2011, Wayback Makinesi
  22. ^ RapLeaf Blogu Arşivlendi 1 Şubat 2011, at Wayback Makinesi
  23. ^ Razorfish
  24. ^ [1]
  25. ^ Cascading.jruby
  26. ^ Cascalog
  27. ^ Haşlama

Dış bağlantılar