Cloudera Training for Data Analysts: Using Pig, Hive, and Impala with Hadoop Eğitimi

Ön Kayıt ve Fiyat Bilgi Formu




Tarih ve lokasyonlar


Bu eğitimi özel sınıf olarak kendi kurumunuzda talep edebilirsiniz.
Lütfen bizimle iletişime geçin:


info@bilginc.com

+90 212 282 7700

Talep Formu
Eğitim Tipi ve Süresi

3 Days ILT     4.0 Days ILT    
Eğitim Sağlayıcı ve Kategori

Cloudera  » Apache Hive and Pig Eğitimler
Big Data  » Big Data Eğitimler

Cloudera Training for Data Analysts: Using Pig, Hive, and Impala with Hadoop

Hadoop Üzerinde bilindik betik dillerini ve SQL kullanarak gerçek zamanlı olarak geniş ve karmaşık verileri yönetme, işleme ve sorgulama

Bu uygulamalı eğitimde, Apache Pig, Apache Hive ve Cloudera Impala’nın diğer teknolojilerden bilinen kullanıcı tanımlı işlevler, filtreler ve joinler aracılığı ile veri dönüşümlerini ve analizlerini nasıl olanaklı kıldığını öğreneceksiniz. Ayrıca, Big data’ya geleneksel veri analitikleri ve iş zekası becerilerini nasıl uygulanacağını ve SQL ve bilindik betik dillerini kullanarak karmaşık veri takımlarına nasıl erişeceğinizi, ve bunları  nasıl değiştireceğinizi işleyeceğinizi ve analiz edeceğinizi öğreneceksiniz

Apache Hive, çoklu-yapılı verileri analistlere, veritabanı yöneticilerine ve Java programlama deneyimi olmayan diğer kişilere ulaşılabilir yapar. Apache Pig, bilindik betik dillerinin temellerini Hadoop cluster’a uygular. Cloudera Impala, yerli bir SQL ortamı aracılığıyla Hadoop’ta saklanan verilerin gerçek-zamanlı, etkileşimli analizini mümkün kılar.

Neler Öğreneceksiniz

·         Apache Hadoop temelleri ve Hadoop araçları ile veri çıkarma, dönüştürme, yükleme (ETL), alınım ve işleme

·         Pig ile çoklu veri takımlarını birleştirme ve benzeşmeyen verileri analiz etme

·         Hive ile tablolarda veri organize etme, dönüşümler gerçekleştirme ve karmaşık sorguları sadeleştirme

·         Impala’lı SQL kullanarak HDFS veya HBase’te saklanan çok büyük veri takımları üzerinde gerçek zamanlı interaktif analizler gerçekleştirme

·         Hadoop’taki belli bir görev için en doğru analiz aracının nasıl seçileceği

Kimler Katılmalı

Veri analistleri, geliştiriciler ve yöneticiler

Önkoşullar

·         SQL ve temel UNIX veya Linux komutlarını tanıma

·         Ön Java ve Apache Hadoop bilgisi gerekli değildir

Devam Dersler

Bu eğitim için herhangi bir devam eğitimi yoktur.

Ders Taslağı

1. Hadoop Temelleri

·         Hadoop Motivasyonu

·         Hadoop Genel Bakış

·         HDFS

·         MapReduce

·         Hadoop Ekosistemi

·         Uygulamalı Alıştırmalar: Hadoop Araçları ile Data Ingest

2. Pig’e Giriş

·         Pig Nedir?

·         Pig'in Özellikleri

·         Pig Kullanım Durumları

·         Pig ile Etkileşim Kurma

3. Pig ile Temel Veri Analizi

·         Pig Latin Sentaksı

·         Veri Yükleme

·         Basit Veri Tipleri

·         Alan Tanımları

·         Veri Çıktısı

·         Şemayı Görüntüleme

·         Veri Filtreleme ve Sıralama

·         Yaygın Kullanılan Fonksiyonları Ya da

·         Uygulamalı Alıştırma: ETL Processing için Pig Kullanma

4. Pig ile Karmaşık Veri İşleme

·         Depolama Formatları

·         Karmaşık/İç İçe Veri Tipleri

·         Gruplama

·         Karmaşık Veriler İçin Dahili İşlevler

·         Gruplandırılmış Verileri Yineleme

·         Uygulamalı Alıştırma: Pig ile Reklam Kampanyası Verilerini Analiz Etme

5. Pig ile Multi-Dataset İşlemleri

·         Veri Takımlarını Birleştirme Teknikleri

·         Pig’de Veri Takımlarını Birleştirme

·         Takım Operasyonları

·         Veri Takımlarını Ayırma

·         Uygulamalı Alıştırma: Pig ile Benzeşmeyen Veri Takımlarını Analiz etme

6. Pig Genişletme

·         Parametrelerle Esneklik Katma

·         Macrolar ve Importlar

·         UDFler

·         Katkı Veren Fonksiyonlar

·         Pig ile Veri İşlemek İçin Diğer Dilleri Kullanma

·         Pratik Uygulama: Streaming ve UDFlerle Pig Genişletme

7. Pig Sorun Giderme ve Optimizasyon

·         Pig’de Sorun Giderme

·         Logging

·         Hadoop'un Web UI’sını Kullanma

·         Opsiyonel Demo: Web UI ile Başarısız Görevde Sorun Giderme

·         Veri Örnekleme ve Hata Ayıklama

·         Performans Genel Değerlendirmesi

·         Uygulama Planı

·         Pig Görevlerinizin Performansını İyileştirmek için Öneriler

8. Hive’a Giriş

·         Hive Nedir?

·         Hive Şeması ve Veri Depolama

·         Hive ve Geleneksel Veritabanları Karşılaştırması

·         Hive vs. Pig

·         Hive Kullanım Durumları

·         Hive ile Etkileşme

9. Hive ile İlişkisel Veri Analizi

·         Hive Veritabanları ve Tablolar

·         Temel HiveQL Sentaksı

·         Veri Tipleri

·         Veri Takımlarını Birleştirme(Join)

·         Ortak Dahili Fonksiyonlar

·         Uygulamalı Alıştırma: Shell, Scripts ve Hue üzerinde Hive Sorgularını Çalıştırma

10. Hive Veri Yönetimi

·         Hive Veri Formatları

·         Veritabanları Oluşturma ve Hive-Yönetimli Tablolar

·         Hive’a Veri Yükleme

·         Veritabanları ve Tabloları Değiştirme

·         Öz-Yönetimli Tablolar

·         Görünümlerle Sorguları Basitleştirme

·         Sorgu Sonuçlarını Depolama

·         Veriye Erişimi Denetleme

·         Uygulamalı Alıştırma: Hive ile Veri Yönetimi

11. Hive ile Metin İşleme

·         Metin İşleme Genel Değerlendirmesi

·         Önemli String Fonksiyonları

·         Hive’da Düzenli İfadeleri Kullanma

·         Duygu Analizi ve N-Grams

·         Uygulamalı Alıştırma (Opsiyonel): Duygu Analizi ile İçgörü Kazanma

12. Hive Optimizasyonu

·         Sorgu Performansı

·         Görev İfa Planını Denetleme

·         Partisyonlama

·         Bucketing

·         Veri İndeksleme

13. Hive’ı Genişletme

·         SerDes

·         Veri Dönüşümü ile

·         Özel Betikler

·         Kullanıcı Tanımlı İşlevler

·         Parametrelerle İfade Edilmiş Sorgular

·         Pratik Alıştırma: Hive ile Veri Dönüşümü

14. Impala’ya Giriş

·         Impala Nedir?

·         Impala Hive ve Pig’den Nasıl Farklılaşır

·         Impala İlişkisel Veritabanlarından Nasıl Farklılaşır

·         Sınırlamalar ve Gelecek Yönergeleri

·         Impala Shell’i Kullanma

15. Impala ile Veri Analiz Etme

·         Temel Sentaks

·         Veri Tipleri

·         Filtreleme, Sıralama ve Sınırlandırma

·         Veri Birleştirme ve Gruplama

·         Impala Performansını İyileştirme

·         Uygulamalı Alıştırmalar: Impala ile Etkileşimli Analiz

16. İş İçin En iyi Aracı Kullanma

·         MapReduce, Pig, Hive, Impala, ve İlişkisel Veritabanlarını Karşılaştırma

·         Hangisinin Seçileceği

Lablar

Ders süresince uygulamalı alıştırmalara katılacaksınız.

 


 

Learn to manage, manipulate, and query large, complex data in real time using SQL and familiar scripting languages on Hadoop.

In this hands-on course, you will learn how Apache Pig, Apache Hive, and Cloudera Impala enable data transformations and analyses via filters, joins, and user-defined functions familiar from other technologies. You will learn how to apply traditional data analytics and business intelligence skills to big data, and you'll learn how to access, manipulate, and analyze complex data sets using SQL and familiar scripting languages.

Apache Hive makes multi-structured data accessible to analysts, database administrators, and others without Java programming expertise. Apache Pig applies the fundamentals of familiar scripting languages to the Hadoop cluster. Cloudera Impala enables real-time interactive analysis of the data stored in Hadoop via a native SQL environment.

What You'll Learn

  • Fundamentals of Apache Hadoop and data extract, transform, load (ETL), ingestion, and processing with Hadoop tools
  • Joining multiple data sets and analyzing disparate data with Pig
  • Organizing data into tables, performing transformations, and simplifying complex queries with Hive
  • Performing real-time interactive analyses on massive data sets stored in HDFS or HBase using SQL with Impala
  • How to pick the best analysis tool for a given task in Hadoop

 

Who Needs to Attend

Data analysts, business analysts, developers, and administrators

Prerequisites

  • Familiarity with SQL and basic UNIX or Linux commands
  • Prior knowledge of Java and Apache Hadoop is not required

Follow-On Courses

There are no follow-ons for this course.

 

Course Outline

1. Hadoop Fundamentals

  • The Motivation for Hadoop
  • Hadoop Overview
  • HDFS
  • MapReduce
  • The Hadoop Ecosystem
  • Hands-On Exercise: Data Ingest with Hadoop Tools

2. Introduction to Pig

  • What Is Pig?
  • Pig's Features
  • Pig Use Cases
  • Interacting with Pig

3. Basic Data Analysis with Pig

  • Pig Latin Syntax
  • Loading Data
  • Simple Data Types
  • Field Definitions
  • Data Output
  • Viewing the Schema
  • Filtering and Sorting Data
  • Commonly Used Functions
  • Hands-On Exercise: Using Pig for ETL Processing

4. Processing Complex Data with Pig

  • Storage Formats
  • Complex/Nested Data Types
  • Grouping
  • Built-In Functions for Complex Data
  • Iterating Grouped Data
  • Hands-On Exercise: Analyzing Ad Campaign Data with Pig

5. Multi-Dataset Operations with Pig

  • Techniques for Combining Data Sets
  • Joining Data Sets in Pig
  • Set Operations
  • Splitting Data Sets
  • Hands-On Exercise: Analyzing Disparate Data Sets with Pig

6. Extending Pig

  • Adding Flexibility with Parameters
  • Macros and Imports
  • UDFs
  • Contributed Functions
  • Using Other Languages to Process Data with Pig
  • Hands-On Exercise: Extending Pig with Streaming and UDFs

7. Pig Troubleshooting and Optimization

  • Troubleshooting Pig
  • Logging
  • Using Hadoop's Web UI
  • Optional Demo: Troubleshooting a Failed Job with the Web UI
  • Data Sampling and Debugging
  • Performance Overview
  • The Execution Plan
  • Tips for Improving the Performance of Your Pig Jobs

8. Introduction to Hive

  • What Is Hive?
  • Hive Schema and Data Storage
  • Comparing Hive to Traditional Databases
  • Hive vs. Pig
  • Hive Use Cases
  • Interacting with Hive

9. Relational Data Analysis with Hive

  • Hive Databases and Tables
  • Basic HiveQL Syntax
  • Data Types
  • Joining Data Sets
  • Common Built-In Functions
  • Hands-On Exercise: Running Hive Queries on the Shell, Scripts, and Hue

10. Hive Data Management

  • Hive Data Formats
  • Creating Databases and Hive-Managed Tables
  • Loading Data into Hive
  • Altering Databases and Tables
  • Self-Managed Tables
  • Simplifying Queries with Views
  • Storing Query Results
  • Controlling Access to Data
  • Hands-On Exercise: Data Management with Hive

11. Text Processing with Hive

  • Overview of Text Processing
  • Important String Functions
  • Using Regular Expressions in Hive
  • Sentiment Analysis and N-Grams
  • Hands-On Exercise (Optional): Gaining Insight with Sentiment Analysis

12. Hive Optimization

  • Query Performance
  • Controlling Job Execution Plan
  • Partitioning
  • Bucketing
  • Indexing Data

13. Extending Hive

  • SerDes
  • Data Transformation with
  • Custom Scripts
  • User-Defined Functions
  • Parameterized Queries
  • Hands-On Exercise: Data Transformation with Hive

14. Introduction to Impala

  • What is Impala?
  • How Impala Differs from Hive and Pig
  • How Impala Differs from Relational Databases
  • Limitations and Future Directions
  • Using the Impala Shell

15. Analyzing Data with Impala

  • Basic Syntax
  • Data Types
  • Filtering, Sorting, and Limiting Results
  • Joining and Grouping Data
  • Improving Impala Performance
  • Hands-On Exercise: Interactive Analysis with Impala

16. Choosing the Best Tool for the Job

  • Comparing MapReduce, Pig, Hive, Impala, and Relational Databases
  • Which to Choose?

 

Labs

You will participate in hands-on exercises throughout the course.

 



Eğitim içeriğini PDF olarak indir