Cloudera Developer Training for Apache Spark Eğitimi

Ön Kayıt ve Fiyat Bilgi Formu




Tarih ve lokasyonlar


Bu eğitimi özel sınıf olarak kendi kurumunuzda talep edebilirsiniz.
Lütfen bizimle iletişime geçin:


info@bilginc.com

+90 212 282 7700

Talep Formu
Eğitim Tipi ve Süresi


Eğitim Sağlayıcı ve Kategori

Cloudera  » Apache Spark Eğitimler
Big Data  » Big Data Eğitimler
Big Data  » Popular Courses Eğitimler

Cloudera Developer Training for Apache Spark

 

Apache Spark için Cloudera Geliştici Eğitimi

Tüm verileriniz üzerinde batch, streaming ve interaktif analizlerle eksiksiz birleştirilmiş big data uygulamaları yaratma

 

Apache Spark, MapReduce’ün yeni nesil takipçisidir. Spark, Hadoop cluster’ındaki veriler için, hız, kullanım kolaylığı ve çok yönlü analizler için optimize edilmiş  güçlü, açık kaynak bir işlemleme (processing) motorudur.  Spark framework’ü streaming (akıtılan/duraksız) veri işleme ve karmaşık, yinelemeli algoritmaları destekler ve uygulamaların klasik Hadoop MapReduce programlarına göre 100x daha hızlı çalışmasını sağlar.

Bu derste tüm veriler üzerinde batch, streaming ve analizleri birleştiren eksiksiz, birleştirilmiş big data uygulamaları oluşturacaksınız. Daha hızlı ve daha iyi kararlar ve gerçek zamanlı hareketler için çeşitli kullanım durumlarına, mimarilerine ve endüstrilerine uygulanan karmaşık paralel uygulamalar yazmak için Spark’ın nasıl kullanılacağını öğreneceksiniz. Bu ders, geliştirici eğitim rotasının bir parçasıdır.

Neler Öğreneceksiniz

·         İnteraktif veri analizi için Spark shell kullanma

·         Spark's Resilient Distributed Datasets özellikleri

·         Bir cluster üzerinde Spark çalıştırmanın temelleri

·         Spark ile paralel programlama

·         Spark uygulamaları yazma

·         Spark ile streaming data işleme

Kimler Katılmalı

Geliştiriciler ve yazılım mühendisleri

Önkoşullar

·         Bir miktar programlama deneyimi (Python ve Scala önerilir)

·         Temel Linux bilgisi

·         Hadoop bilgisi zorunlu değildir

Devam Dersler

Bu ders için herhangi bir devam ders yoktur.

Ders Taslağı

1. Neden Spark?

·         Geleneksel Büyük-Ölçekli Sistemlerin Sorunları

·         Spark Tanıtımı

2. Spark Temelleri

·         Apache Spark nedir?

·         Spark Shell kullanma

·         Resilient Distributed Datasets (RDDs)

·         Spark ile Fonksiyonel Programlama

3. RDD’lerle Çalışma

·         RDD Operasyonları

·         Key-Value Pair RDD’leri

·         MapReduce ve Pair RDD Operasyonları

4. The Hadoop Dağıtılmış Dosya Sistemleri

·         Neden HDFS?

·         HDFS Mimarisi

·         HDFS Kullanma

5. Bir Cluster Üzerinde Spark Çalıştırma

·         Bir Spark Standalone Cluster’ı

·          The Spark Standalone Web UI

6. Spark ile Paralel Programlama

·         RDD Partisyonları ve HDFS Veri Yerelliği

·         Partisyonlarla Çalışma

·         Paralel Operasyonlar Gerçekleştirme

7. Önbellekleme ve Kararlılık

·         RDD Lineage

·         Önbellekleme Genelbakış

·         Distributed Persistence

8. Spark Uygulamaları Yazma

·         Spark Uygulamaları vs. Spark Shell

·         SparkContext Yaratma

·         Spark Özelliklerini Yapılandırma

·         Bir Spark Uygulaması Yaratma ve Çalıştırma

·         Logging

9. Spark, Hadoop, ve Enterprise Veri Merkezi

·         Spark ve Hadoop Ekosistemi

·         Spark ve MapReduce

10. Spark Streaming

·         Örnek: Streaming Word Count

·         Diğer Streaming Operasyonları

·         Sliding Window Operasyonları

·         Spark Streaming Uygulamaları Geliştirme

11. Ortak Spark Algoritmaları

·         İteratif/Yinelemeli Algoritmalar

·         Grafik Analizi

·         Makine Öğrenimi/Otomatik Öğrenme

12. Spark Performansını Artırma

·         Paylaşılan Değişkenler: Broadcast  Değişkenleri

·         Paylaşılan Değişkenler: Akümülatörler

·         Ortak Performans Meseleleri

 


Build complete unified big data applications combining batch, streaming, and interactive analytics on all your data.

Apache Spark is the next-generation successor to MapReduce. Spark is a powerful, open source processing engine for data in the Hadoop cluster, optimized for speed, ease of use, and sophisticated analytics. The Spark framework supports streaming data processing and complex, iterative algorithms, enabling applications to run up to 100x faster than traditional Hadoop MapReduce programs.

In this course, you will build complete, unified big data applications that combine batch, streaming, and interactive analytics on all data. You will learn how to use Spark to write sophisticated parallel applications for faster decisions, better decisions, and real-time actions, applied to a wide variety of use cases, architectures, and industries. This course is part of the developer learning path.

What You'll Learn

  • Use the Spark shell for interactive data analysis
  • Features of Spark's Resilient Distributed Datasets
  • Fundamentals of running Spark on a cluster
  • Parallel programming with Spark
  • Write Spark applications
  • Process streaming data with Spark

 

Who Needs to Attend

Developers and software engineers

Prerequisites

  • Some programming experience (Python and Scala suggested)
  • Basic knowledge of Linux
  • Knowledge of Hadoop not required

Follow-On Courses

There are no follow-ons for this course.

 

Course Outline

1. Why Spark?

  • Problems with Traditional Large-Scale Systems
  • Introducing Spark

2. Spark Basics

  • What is Apache Spark?
  • Using the Spark Shell
  • Resilient Distributed Datasets (RDDs)
  • Functional Programming with Spark

3. Working with RDDs

  • RDD Operations
  • Key-Value Pair RDDs
  • MapReduce and Pair RDD Operations

4. The Hadoop Distributed File System

  • Why HDFS?
  • HDFS Architecture
  • Using HDFS

5. Running Spark on a Cluster

  • A Spark Standalone Cluster
  •  The Spark Standalone Web UI

6. Parallel Programming with Spark

  • RDD Partitions and HDFS Data Locality
  • Working with Partitions
  • Executing Parallel Operations

7. Caching and Persistence

  • RDD Lineage
  • Caching Overview
  • Distributed Persistence

8. Writing Spark Applications

  • Spark Applications vs. Spark Shell
  • Creating the SparkContext
  • Configuring Spark Properties
  • Building and Running a Spark Application
  • Logging

9. Spark, Hadoop, and the Enterprise Data Center

  • Spark and the Hadoop Ecosystem
  • Spark and MapReduce

10. Spark Streaming

  • Example: Streaming Word Count
  • Other Streaming Operations
  • Sliding Window Operations
  • Developing Spark Streaming Applications

11. Common Spark Algorithms

  • Iterative Algorithms
  • Graph Analysis
  • Machine Learning

12. Improving Spark Performance

  • Shared Variables: Broadcast Variables
  • Shared Variables: Accumulators
  • Common Performance Issues

 

 

 



Eğitim içeriğini PDF olarak indir