fbpx

Cursus PySpark voor Big Data

Regio:
  • Inhoud
  • Training
  • Modules
  • Algemeen
    Algemeen
  • Reviews
  • Certificaat
  • Cursus PySpark voor Big Data : Inhoud

    In de cursus PySpark voor Big Data leren de deelnemers Apache Spark vanuit Python te gebruiken. Apache Spark is een Framework voor parallelle processing van big data. Met PySpark wordt Apache Spark geïntegreerd met de Python taal.

    Spark Architectuur

    In de cursus PySpark voor Big Data komt aan de orde komt de architectuur van Spark, de Spark Cluster Manager en het verschil tussen Batch en Stream Processing.

    Hadoop

    Na een bespreking van het Hadoop Distributed File System wordt ingegaan op parallelle operaties and het werken met RDD's, Resilient Distributed Datasets. De configuratie van PySpark applicaties via SparkConf en SparkContext komt eveneens aan bod in de cursus PySpark voor Big Data.

    MapReduce en SQL

    Uitgebreid wordt ingegaan op de mogelijke operaties op RDD's waaronder map en reduce. Ook komt het gebruik van SQL in Spark aan de orde. De GraphX library wordt besproken en er wordt ingegaan op DataFrames. Verder komen iteratieve algorithmen aan de orde.

    Mlib library

    Tenslotte wordt in de cursus PySpark voor Big Data aandacht besteed aan machine learning met de Mlib library.

  • Cursus PySpark voor Big Data : Training

    Doelgroep Cursus PySpark voor Big Data

    De cursus PySpark voor Big Data is bedoeld voor developers en aankomende Data Analisten die Apache Spark willen leren gebruiken vanuit Python.

    Voorkennis training PySpark voor Big Data

    Om aan deze cursus deel te nemen is kennis enige ervaring met programmeren bevorderlijk voor de begripsvorming. Voorafgaande kennis van Python of big data handling met Apache Spark is niet nodig.

    Uitvoering cursus PySpark voor Big Data

    De theorie wordt behandeld aan de hand van presentaties. Illustratieve demo’s worden gebruikt om de behandelde concepten te verduidelijken. Er is voldoende gelegenheid om te oefenen en afwisseling van theorie en praktijk. De cursustijden zijn van 9.30 tot 16.30.

    Certificering cursus PySpark voor Big Data

    De deelnemers krijgen na het goed doorlopen van de cursus een officieel certificaat PySpark voor Big Data.

    Cursus-PySpark-voor-Big Data
  • Cursus PySpark voor Big Data : Modules

    Module 1 : Python Primer

    Module 2 : Spark Intro

    Module 3 : HDFS

    Python Syntax
    Python Data Types
    List, Tuples, Dictionaries
    Python Control Flow
    Functions and Parameters
    Modules and Packages
    Comprehensions
    Iterators and Generators
    Python Classes
    Anaconda Environment
    Jupyter Notebooks
    What is Apache Spark?
    Spark and Python
    PySpark
    Py4j Library
    Data Driven Documents
    RDD's
    Real Time Processing
    Apache Hadoop MapReduce
    Cluster Manager
    Batch versus Stream Processing
    PySpark Shell
    Hadoop Environment
    Environment Setup
    Hadoop Stack
    Hadoop Yarn
    Hadoop Distributed File System
    HDFS Architecture
    Parallel Operations
    Working with Partitions
    RDD Partitions
    HDFS Data Locality
    DAG (Direct Acyclic Graph)

    Module 4 : SparkConf

    Module 5 : SparkContext

    Module 6 : RDD’s

    SparkConf Object
    Setting Configuration Properties
    Uploading Files
    SparkContext.addFile
    Logging Configuration
    Storage Levels
    Serialize RDD
    Replicate RDD partitions
    DISK_ONLY
    MEMORY_AND_DISK
    MEMORY_ONLY
    Main Entry Point
    Executor
    Worker Nodes
    LocalFS
    SparkContext Parameters
    Master
    RDD serializer
    batchSize
    Gateway
    JavaSparkContext instance
    Profiler
    Resilient Distributed Datasets
    Key-Value pair RDDs
    Parallel Processing
    Immutability and Fault Tolerance
    Transformation Operations
    Filter, groupBy and Map
    Action Operations
    Caching and persistence
    PySpark RDD Class
    count, collect, foreach,filter
    map, reduce, join, cache

    Module 7 : Spark Processing

    Module 8 : Broadcast and Accumulator

    Module 9 : Algorithms

    SQL support in Spark
    Spark 2.0 Dataframes
    Defining tables
    Importing datasets
    Querying data frames using SQL
    Storage formats
    JSON / Parquet
    GraphX
    GraphX library overview
    GraphX APIs
    Performance Tuning
    Serialization
    Network Traffic
    Disk Persistence
    MarshalSerializer
    Data Type Support
    Python’s Pickle Serializer
    DStreams
    Sliding Window Operations
    Multi Batch and State Operations
    Iterative Algorithms
    Graph Analysis
    Machine Learning API
    mllib.classification
    Random Forest
    Naive Bayes
    Decision Tree
    mllib.clustering
    mllib.linalg
    mllib.regression
  • Cursus PySpark voor Big Data : Algemeen

    Cursusvorm

    Al onze cursussen zijn klassikale cursussen waarbij de cursisten aan de hand van een ervaren trainer met diepgaande materie kennis door de stof worden geleid. Theorie wordt steeds afgewisseld met oefeningen.

    Maatwerk

    We doen ook maatwerk  en passen dan de cursusinhoud aan op uw wensen. Op verzoek gaan we ook in op uw praktijkcases.

    Cursustijden

    De cursustijden zijn in pricipe van 9.30 tot 16.30. Maar we zijn hierin flexibel. Soms moeten mensen namelijk kinderen naar de opvang brengen of halen en komen andere tijden hun beter uit. In goed overleg kunnen we dan andere cursustijden afspreken.

    Hardware

    Wij zorgen voor de computers waarop de cursus gehouden kan worden. Op deze computer is de voor de cursus benodigde software al geinstalleerd. U hoeft geen laptop mee te nemen om aan de cursus te kunnen deelnemen. Als u liever op uw eigen laptop werkt kunt u hem desgewenst meenemen. De benodigde software wordt dan aan het begin van de cursus geinstalleerd.

    Software

    Onze cursussen worden over het algemeen gegeven met Open Source software zoals Eclipse, IntelliJ, Tomcat, Pycharm, Anaconda en Netbeans. Het digitale cursusmateriaal krijgt u na de cursus mee naar huis.

    Lunch

    De cursus is inclusief lunch die we in een restaurantje op loopafstand van het cursuslokaal gebruiken.

    Locaties

    De cursussen worden op diverse plaatsen in het land gepland. Een cursus gaat op een locatie door als er zich minimaal 3 mensen voor die locatie inschrijven. Als er inschrijvingen voor verschillende locaties zijn gaat de cursus door op onze hoofdlocatie is Houten net onder Utrecht. Een cursus op onze hoofdlocatie gaat ook door bij 2 inschrijvingen en regelmatig ook bij 1 inschrijving.  Overigens doen we ook cursussen op de locatie van de klant als men daar prijs op stelt.

    Evaluaties

    Na afloop van iedere cursus worden de deelnemers verzocht de cursus te evalueren ten aanzien van cursusinhoud, cursusmateriaal, trainer en locatie. Het evaluatie formulier staat op https://www.klantenvertellen.nl/reviews/1039545/spiraltrain. De evaluaties van voorgaande deelnemers en voorgaande cursussen kunnen daar ook worden teruggevonden.

    Copyright

    De intellectuele eigendomsrechten van de gepubliceerde cursus inhoud, ook wel aangeduid als infosheet, behoren toe aan SpiralTrain. Het is niet toegestaan de cursusinformatie, de infosheet, te publiceren in schiftelijke dan wel digitale vorm zonder de uitdrukkelijke toestemming van SpiralTrain. Onder de cursus inhoud dient te worden verstaan de beschrijving van de cursus inhoud in zinnen alsmede de indeling van de cursus in modules en onderwerpen in de modules.

  • Cursus PySpark voor Big Data : Reviews

  • Cursus PySpark voor Big Data : Certificaat