Последнее обновление: 2021-10-08 09:36:15
Главная задача Data engineer — построить систему хранения данных, очистить и отформатировать их, а также настроить процесс обновления и приёма данных для дальнейшей работы с ними. Помимо этого, инженер данных занимается непосредственным созданием моделей обработки информации и машинного обучения.
Что нужно, чтобы стать data engineerязыки программирования – SQL и Python;базы данных SQL и NoSQL;технологии для работы с данными ETL/ELT – Apache Airflow, Hadoop;инструменты для передачи данных, например Apache Beam;облачные инфраструктуры.5 июл. 2021 г.
Дата-инженер работает с данными, а значит ему нужно знать о данных всё: Алгоритмы и структуры данных. Здесь важна не теоретическая подготовка с вызубренными определениями, а понимание всех рабочих процессов. К примеру, на Udemy есть курс, полностью посвящённый данным, их типам и структурам.
По сути, это своего рода гибрид дата-аналитика и дата-саентиста; дата-инженер обычно отвечает за управление рабочими процессами, конвейерами обработки и ETL-процессами. Ввиду важности этих функций, в настоящее время это очередной популярный профессиональный жаргонизм, который активно набирает обороты.
Специалист по машинному обучению (machine learning) – это программист, работающий в сфере создания и контроля искусственного интеллекта (ИИ). Главная задача – научить программу анализировать данные и делать на их основе логические выводы.
На русский язык data lake переводится как «озеро данных». Оно представляет собой огромное хранилище, в котором разные данные хранятся в «сыром», то есть неупорядоченном и необработанном виде.
Data Warehouse использует метод ETL – Extract, Transform и Load, то есть дословно переводится как «извлечение», «преобразование» и «загрузка». В свою очередь, Data Lake использует ELT — Extract, Load и Transform, то есть сначала идет «загрузка», а только потом «преобразование».
Data lake — это огромное хранилище, которое принимает любые файлы всех форматов. Источник данных тоже не имеет никакого значения. Озеро данных может принимать данные из CRM- или ERP-систем, продуктовых каталогов, банковских программ, датчиков или умных устройств — любых систем, которые использует бизнес.
Hadoop — одно из решений для хранения и анализа больших данных. Его используют Google, Amazon, Facebook, Twitter, eBay и другие гиганты рынка. При этом технология подходит для любого бизнеса, работающего с объемами данных свыше терабайта, оптимизирована для работы на виртуальных машинах, удобно масштабируется.
«озеро данных») — термин, описывающий любые крупные объемы данных. Фактически это репозитарий, в котором хранится огромный объем «сырых» данных в их первоначальном формате до тех пор, пока они не будут использованы.
DWH, как правило, хранит информацию разных подразделений — там найдутся данные и по товарам, и по персоналу, и по сделкам. Объемы данных. Обычная БД, которая ведется в рамках стандартной деятельности компании, содержит только актуальную информацию, нужную в данный момент для функционирования определенной системы.
Хранилище данных — это центральный репозиторий информации, которую можно анализировать для принятия более обоснованных решений. Данные поступают в хранилище из транзакционных систем, реляционных баз данных и других источников — как правило, с определенной периодичностью.
Поэтому возникли корпоративные хранилища данных (Data Warehouse, DWH) – предметно-ориентированные базы данных для консолидированной подготовки отчётов, интегрированного бизнес-анализа и оптимального принятия управленческих решений на основе полной информационной картины [1].
Есть такое понятие – стейджинг. Это когда данные просто сливаютсятся в том виде, в каком они есть в системных источниках, потом некие ETL процессы перерабатывают это все в логическую модель. Над логической моделью строится витрина отчетности или сегментация, в зависимости от того, для чего эти данные нужны.