fbpx
  • nl
  • en

Cursus Hadoop voor Big Data

Cursus Hadoop voor Big Data
Regio:
  • Modules
  • Cursus
  • Inhoud
  • Algemene informatie
    Algemeen
  • Reviews
  • Module 1 : Hadoop Intro

    Module 2 : Java API

    Module 3 : HDFS

    Big Data Handling
    No SQL
    Comparison to Relational DB
    Hadoop Eco-System
    Hadoop Distributions
    Pseudo-Distributed Installation
    Namenode Safemode
    Namenode High Availability
    Secondary Namenode
    Hadoop Filesystem Shell
    Create via Put method
    Read via Get method
    Update via Put method
    Delete via Delete method
    Create Table
    Drop Table
    Scan API
    Scan Caching
    Scan Batching
    Filters
    Hadoop Environment
    Hadoop Stack
    Hadoop Yarn
    Distributed File System
    HDFS Architecture
    Parallel Operations
    Working with Partitions
    RDD Partitions
    HDFS Data Locality
    DAG (Direct Acyclic Graph)

    Module 4 : Hbase Key Design

    Module 5 : MapReduce

    Module 6 : Submitting Jobs

    Storage Model
    Querying Granularity
    Table Design
    Tall-Narrow Tables
    Flat-Wide Tables
    Column Family
    Column Qualifier
    Storage Unit
    Querying Data by Timestamp
    Querying Data by Row-ID
    Types of Keys and Values
    SQL Access
    MapReduce Model
    MapReduce Theory
    YARN and MapReduce 2.0 Daemons
    MapReduce on YARN single node
    MapReduce framework
    Tool and ToolRunner
    GenericOptionsParser
    Running MapReduce Locally
    Running MapReduce on Cluster
    Packaging MapReduce Jobs
    MapReduce CLASSPATH
    Decomposing into MapReduce
    MapReduce Job
    Using JobControl class
    Joining data-sets
    User Defined Functions
    Logs and Web UI
    Input and Output Formats
    Anatomy of Mappers
    Reducers and Combiners
    Partitioners and Counters
    Speculative Execution
    Distributed Cache
    YARN Components

    Module 7 : Hadoop Streaming

    Module 8 : Utilities

    Module 9 : Hive

    Implement a Streaming Job
    Contrast with Java Code
    Create counts in Streaming App
    Text Processing Use Case
    Key Value Pairs
    $yarn command
    Using Pipes
    ZooKeeper
    Scoop
    Introduce Oozie
    Deploy and Run Oozie Workflow
    Pig Overview
    Execution Modes
    Developing Pig Script
    Hive Concepts
    Hive Clients
    Table Creation and Deletion
    Loading Data into Hive
    Partitioning
    Bucketing
    Joins
  • Doelgroep Cursus Hadoop voor Big Data

    Cursus Hadoop voor Big DataDe cursus Hadoop voor Big Data is bedoeld voor developers, data analisten en anderen die willen leren met hoe je data kunt verwerken met Hadoop.

    Voorkennis training Hadoop voor Big Data

    Om aan deze cursus deel te nemen is kennis van programmeren in Java en databases bevorderlijk voor de begripsvorming. Voorafgaande kennis van Java of Hadoop is niet nodig.

    Uitvoering cursus Hadoop voor Big Data

    De theorie wordt behandeld aan de hand van presentaties. Illustratieve demo’s worden gebruikt om de behandelde concepten te verduidelijken. Er is voldoende gelegenheid om te oefenen en afwisseling van theorie en praktijk. De cursustijden zijn van 9.30 tot 16.30.

    Certificering cursus Hadoop voor Big Data

    De deelnemers krijgen na het goed doorlopen van de cursus een officieel certificaat Hadoop voor Big Data.

  • Cursus Hadoop voor Big Data

    In de cursus Hadoop voor Big Data leren de deelnemers Apache Hadoop te gebruiken voor de opslag en verwerking van grote hoeveelheden data. Hadoop gebruikt een eenvoudig programmeer model in een gedistribueerde omgeving over een cluster van computers. De architectuur van Hadoop komt uitgebreid aan de orde. Binnen een Hadoop cluster wordt het Hadoop Distributed File System (HDFS) gebruikt als bestandssysteem. HDFS is een horizontaal schaalbaar bestandssysteem dat opgeslagen staat op een cluster van servers. De data wordt gedistribueerd opgeslagen, en het bestandssysteem zorgt automatisch voor replicatie van data over het cluster. Een belangrijk algoritme voor het verwerken van Data is het MapReduce algorithm en hier wordt uitgebreid aandacht aan besteed. Tenslotte is er aandacht voor tools en utilities die vaak in combinatie met Hadoop worden gebruikt zoals Zookeeper, Scoop, Ozie en Pig.

  • Cursusvorm

    Al onze cursussen zijn klassikale cursussen waarbij de cursisten aan de hand van een ervaren trainer met diepgaande materie kennis door de stof worden geleid. Theorie wordt steeds afgewisseld met oefeningen.

    Maatwerk

    We doen ook maatwerk  en passen dan de cursusinhoud aan op uw wensen. Op verzoek gaan we ook in op uw praktijkcases.

    Cursustijden

    De cursustijden zijn in pricipe van 9.30 tot 16.30. Maar we zijn hierin flexibel. Soms moeten mensen namelijk kinderen naar de opvang brengen of halen en komen andere tijden hun beter uit. In goed overleg kunnen we dan andere cursustijden afspreken.

    Hardware

    Wij zorgen voor de computers waarop de cursus gehouden kan worden. Op deze computer is de voor de cursus benodigde software al geinstalleerd. U hoeft geen laptop mee te nemen om aan de cursus te kunnen deelnemen. Als u liever op uw eigen laptop werkt kunt u hem desgewenst meenemen. De benodigde software wordt dan aan het begin van de cursus geinstalleerd.

    Software

    Onze cursussen worden over het algemeen gegeven met Open Source software zoals Eclipse, IntelliJ, Tomcat, Pycharm, Anaconda en Netbeans. Het digitale cursusmateriaal krijgt u na de cursus mee naar huis.

    Lunch

    De cursus is inclusief lunch die we in een restaurantje op loopafstand van het cursuslokaal gebruiken.

    Locaties

    De cursussen worden op diverse plaatsen in het land gepland. Een cursus gaat op een locatie door als er zich minimaal 3 mensen voor die locatie inschrijven. Als er inschrijvingen voor verschillende locaties zijn gaat de cursus door op onze hoofdlocatie is Houten net onder Utrecht. Een cursus op onze hoofdlocatie gaat ook door bij 2 inschrijvingen en regelmatig ook bij 1 inschrijving.  Overigens doen we ook cursussen op de locatie van de klant als men daar prijs op stelt.