Opis szkolenia
Kurs Big Data on AWS wprowadza do opartych na chmurze rozwiązań big data, takich jak Amazon Elastic MapReduce (EMR), Amazon Redshift, Amazon Kinesis i innych platform big data w AWS. W tym kursie pokażemy, jak używać Amazon EMR do przetwarzania danych przy użyciu szerokiego ekosystemu narzędzi Hadoop, takich jak Hive i Hue. Nauczymy Cię również, jak tworzyć środowiska dużych zbiorów danych, współpracować z Amazon DynamoDB, Amazon Redshift i Amazon Kinesis oraz wykorzystywać sprawdzone metody projektowania dużych środowisk danych pod kątem bezpieczeństwa i opłacalności kosztowej.
Profil słuchaczy
- Osoby odpowiedzialne za projektowanie i wdrażanie rozwiązań big data.
- Data Scientists i Data Analysts zainteresowani rozwiązaniami big data w AWS
Wymagania
Zalecamy, aby uczestnicy kursu spełniali następujące warunki wstępne:
- Podstawowa znajomość technologii big data, w tym zadawanie zapytań w Apache Hadoop, MapReduce, HDFS i SQL/NoSQL.
- Uczestnicy powinni ukończyć szkolenie online Big Data Technology Fundamentals lub mieć podobne doświadczenie.
- Bieżąca wiedza na temat podstawowych usług AWS i implementacji chmury publicznej.
- Uczestnicy powinni ukończyć kurs AWS Technical Essentials (AWSE) lub mieć podobne doświadczenie.
- Podstawowe zrozumienie hurtowni danych, relacyjnych systemów bazodanowych i projektowania baz danych.
Cel szkolenia
Ten kurs uczy, jak:
- Dopasować rozwiązania AWS do dużego ekosystemu danych.
- Wykorzystanie Apache Hadoop w kontekście Amazon EMR.
- Omówienie komponentów klastra usługi Amazon EMR.
- Uruchomienie i skonfigurowanie klastera Amazon EMR.
- Wykorzystanie narzędzi programistycznych dostępnych dla Amazon EMR, w tym Hive, Pig oraz Streaming.
- Wykorzystanie Hue celem poprawienia łatwości korzystania z usługi Amazon EMR.
- Użycie analityki Spark i Spark SQL w Amazon EMR.
- Dobranie odpowiednich opcji przechowywania danych AWS.
- Identyfikacji korzyści płynących z używania Kinesis Amazon do przetwarzania dużych danych w czasie prawie rzeczywistym.
- Definiowanie koncepcji magazynowania danych oraz baz danych.
- Wykorzystanie Amazon Redshift, aby efektywnie przechowywać i analizować dane.
- Zrozumienie i zarządzanie kosztami i bezpieczeństwem dla wdrożeń Amazon EMR i Amazon Redshift.
- Określenie opcji przetwarzania, przesyłania i kompresowania danych.
- Użycie oprogramowania do wizualizacji danych i zapytań.
- Zarządzanie przepływami za pomocą usługi AWS Data Pipeline.
Program szkolenia
Dzień 1
- Wprowadzenie do Big Data
- Przyswajanie, transfer i kompresja
- Rozwiązania pamięci masowej
- Przechowywanie i odpytywanie danych w DynamoDB
- Big Data Processing i Amazon Kinesis
- Wprowadzenie do Apache Hadoop i Amazon EMR
- Korzystanie z Amazon Elastic MapReduce
Dzień 2
- Schematy programowania Hadoop
- Przetwarzanie logów serwera za pomocą Hive w Amazon EMR
- Przetwarzanie danych przy użyciu Hadoop Streaming w Amazon EMR
- Usprawnianie pracy z Amazon EMR przy pomocy Hue.
- Uruchamianie Pig Scripts w Hue na Amazon EMR
- Spark w Amazon EMR
- Interaktywne tworzenie i wydawanie zapytań za pomocą Spark i Spark SQL na Amazon EMR
- Zarządzanie kosztami EMR w Amazon
- Zabezpieczanie wdrożeń platformy Amazon EMR
Dzień 3
- Hurtownie danych oraz kolumnowe bazy danych
- Amazon Redshift i Big Data
- Optymalizacja środowiska Amazon Redshift
- Wzorce projektowe Big Data
- Wizualizacja i zarządzanie dużych zbiorów danych
- Używanie Tibco Spotfire do wizualizacji dużych zbiorów danych