Kurs „Inżynier danych” - kurs 95 000 rub. z warsztatu Yandex, szkolenie 6,5 miesiąca, data: 11 grudnia 2023 r.
Miscellanea / / November 30, 2023
Dla praktykujących programistów
Naucz się budować infrastrukturę do pracy z danymi i usystematyzuj swoją wiedzę, aby wykorzystać ją w swojej obecnej roli lub zmienić kierunek na inżyniera danych.
Dla początkujących inżynierów danych
Strukturyzacja wiedzy: oprócz jasnej teorii będzie dużo praktyki. Zdobędziesz doświadczenie pracując nad projektami - dzięki temu zbudujesz portfolio, wyróżnisz się na tle innych kandydatów i nie zagubisz się w prawdziwej pracy.
Specjaliści i analitycy Data Science
Opanuj umiejętności, które pomogą Ci skuteczniej radzić sobie z zadaniami: buduj potoki danych, projektuj witryny sklepowe, buduj ETL i gromadź surowe dane w dużych wolumenach.
Aktualizacja modelu danych
1 moduł 2 tygodnie
Firma nadal zanurza Cię w swoich procesach. Dane, z którymi pracowałeś, zostały zaktualizowane, więc musisz zmienić model danych.
Na tym kursie:
- zrozumieć, w jaki sposób firma buduje bazę danych;
- aktualizować strukturę aktualnej bazy danych zgodnie z nowymi wymaganiami biznesowymi;
- przygotować nowe prezentacje i wskaźniki dla analityków i menedżerów.
Technologie i narzędzia:
- PostgreSQL
+1 projekt w portfelu
Zbuduj hurtownię danych z ładowaniem przyrostowym na potrzeby analiz odbiorców w sklepie internetowym.
DWH: rewizja modelu danych
Moduł 2 3 tygodnie
Firma się rozwija, architektura danych staje się coraz bardziej złożona. Dostajesz zadanie - optymalizować procesy za pomocą danych.
Na tym kursie:
- przemyśleć proces przejścia ze starego schematu bazy danych na nowy, minimalizując straty biznesowe (wdrożenie bez przestojów);
- przygotować migrację danych;
- uwzględnić możliwe problemy i zaprojektować opcję wycofania zmian;
- wdrożyć nową strukturę bazy danych i dostosować ją do istniejących procesów wokół danych.
Technologie i narzędzia:
- PosgreSQL
- Pyton
+1 projekt w portfelu
Uporządkujesz model danych i zmigrujesz dane w ramach aktualnej pamięci sklepu internetowego.
ETL: automatyzacja przygotowania danych
Moduł 3 3 tygodnie
Wiesz już prawie wszystko o hurtowni danych firmy. Nadszedł czas, aby ponownie przemyśleć procesy ETL.
Na tym kursie:
- zautomatyzować potok danych;
- skonfigurować automatyczne pobieranie danych ze źródeł;
- nauczyć się regularnie i stopniowo wczytywać dane do bazy danych.
Technologie i narzędzia:
- Pyton
- Przepływ powietrza
- PostgreSQL
+1 projekt w portfelu
Zbuduj potok automatycznego odbierania, przetwarzania i ładowania danych ze źródeł do witryny sklepowej dla projektu e-commerce.
Kontrola jakości danych
Moduł 4 1 tydzień
Chcesz mieć pewność, że Twoje pierwsze rurociągi działają prawidłowo. Należy sprawdzać jakość danych i terminowo śledzić awarie.
Na tym kursie:
- rozumieć, jak korzystać z metainformacji i dokumentacji;
- ocenić jakość danych.
DWH dla wielu źródeł
Moduł 5 2 tygodnie
Kontynuujesz badania nad DWH, ponieważ rozwoju firmy, a co za tym idzie, wzrostu wolumenu danych nie da się zatrzymać.
Na tym kursie:
- zbudować DWH od podstaw na relacyjnym systemie DBMS;
- zapoznaj się z MongoDB jako źródłem danych.
Technologie i narzędzia:
- PostgreSQL
- MongoDB
+1 projekt w portfelu
Zaprojektujesz i wdrożysz DWH dla własnego startupu.
Analityczne bazy danych
Moduł 6 2 tygodnie
Istnieje coraz więcej konkretnych, nieustrukturyzowanych danych, które również muszą być przechowywane i przetwarzane. Dlatego przybliżymy Państwu koncepcję analitycznych baz danych na przykładzie Vertica DBMS.
Na tym kursie:
- organizacja przechowywania badań w Vertica;
- nauczyć się wykonywać podstawowe operacje na danych w Vertice;
- zbuduj prostą hurtownię danych w Vertica.
Technologie i narzędzia:
- Pion
- PostgreSQL
- Przepływ powietrza
- S3
+1 projekt w portfelu
Zbuduj DWH dla obciążonego i niskostrukturalnego systemu przesyłania danych przy użyciu Vertica.
Organizacja jeziora danych
Moduł 7 4 tygodnie
Klasyczne rozwiązania nie pomagają poradzić sobie z ilością danych. Aby sprostać nowym wyzwaniom biznesowym, zbudujesz i zapełnisz jezioro danych.
Na tym kursie:
- rozważ architekturę Data Lake (tłum. „jezioro danych”);
- nauczyć się przetwarzać dane w systemie MPP;
- wypełnić Data Lake danymi ze źródeł;
- przećwicz przetwarzanie danych przy użyciu PySpark i Airflow.
Technologie i narzędzia:
- Hadoop
- MapaRedukuj
- HDFS
- Apache Spark (PySpark)
+1 projekt w portfelu
Zbuduj Data Lake i zautomatyzuj ładowanie i przetwarzanie w nim danych.
Przetwarzanie strumieniowe
Moduł 8 3 tygodnie
Pokonałeś trudności z dużą ilością danych, ale pojawiło się nowe zadanie - musisz pomóc biznesowi szybciej podejmować decyzje. Tutaj będziesz potrzebować wiedzy na temat przetwarzania danych strumieniowych. streaming).
Na tym kursie:
- rozważyć cechy przetwarzania danych strumieniowych;
- zbuduj własny system przesyłania strumieniowego;
- zbuduj witrynę sklepową, korzystając z danych w czasie rzeczywistym.
Technologie i narzędzia:
- Kafka
- Transmisja strumieniowa Iskry
+1 projekt w portfelu
Opracujesz system przetwarzania danych w czasie rzeczywistym.
Technologie chmurowe
Moduł 9 3 tygodnie
Teraz możesz pracować zarówno z dużymi wolumenami danych, jak i strumieniami. Pozostaje tylko zautomatyzować skalowanie systemów za pomocą usług chmurowych.
Na tym kursie dowiesz się jak wdrożyć poznane już rozwiązania, ale w chmurze (na przykładzie Yandex Cloud).
Technologie i narzędzia:
- Yandex. Chmura
- Kubernetes
- kubectl
- Redisa
- PostgreSQL
+1 projekt w portfelu
Rozbudujesz infrastrukturę do przechowywania i przetwarzania danych w chmurze.
Projekt dyplomowy
Moduł 10 3 tygodnie
Potwierdź, że nauczyłeś się nowych umiejętności.
Tutaj będziesz musiał samodzielnie wybrać i wdrożyć rozwiązania problemu biznesowego. Pomoże Ci to ponownie wzmocnić wykorzystanie narzędzi, których się nauczyłeś, a także Twoją niezależność.