Data Engineer в команду валидации моделей

Дата создания: 11 июля 2020

В команду валидации внутренних моделей требуется data engineer для подготовки данных для проведения валидации, а также проверки качества данных, используемых в рамках разработки и применения моделей. Райффайзенбанк готов рассмотреть специалистов разного уровня: Junior, Middle и Senior. Идеальный кандидат имеет опыт в части программирования и применения SQL и обладает теоретическими знаниями в части Hadoop, HDFS, парадигм разработок.

Москва

Постоянная

Полная занятость

Откликнуться

Требования

Как Junior Data Engineer:
— Изучал SQL и тебя не пугают: join'ы, агрегатные функции, подзапросы, DDl, DML, DCL, CTE, транзакции.
— Читал о HDFS и Hadoop и даже сам пробовал поднимать дома или в облаке.
— Знаком с понятием ООП и без труда объяснишь, что это.
— кодил на Java, Scala или Python.
— Тебе не слабо развернуть дистрибутив Hadoop Hortonworks 3.0, запулить туда текстовый файлик и прочитать его содержимое с HDFS любым способом.
— Готов узнавать много нового и активно качать скилл.

Как Middle Data Engineer:
— Умеешь все то же, что и Junior Data Engineer.
— Работал с SQL и не раз писал сложные запросы.
 — Использовал Hadoop, знаешь, как работает Yarn, как эффективно хранить данные на HDFS, писал запросы в Hive.
— Имел дело с key-value БД (Hbase, Cassandra…).
— Пишешь читабельный код, разделяешь его на классы, применяешь паттерны.
— Знаешь, что такое Unit-тесты.
— Обязательно и часто коммитишь сделанные изменения.
— Писал код на Spark и можешь считать данные сервиса используя его Rest API, отсортировать, отфильтровать их и сохранить результат на HDFS.
— Имел дело с Kafk'ой и баловался со стримингом.
— Умеешь работать самостоятельно.

Будет плюсом:
— Знакомство с банковской предметной областью.
— Опыт работы с любой из «классических» РСУБД (Oracle, MS-SQL PostgreSQL).
— Умение деплоить приложения в Docker.
— Понимание CI / CD практик и инструментов.
— Возможность продемонстрировать один из своих проектов на GitHub.

Чем предстоит заниматься

— Собирать и подготавливать данные для валидации и мониторинга моделей (работа с хранилищами SAS, Oracle, Hadoop).
— Проверять данные, используемые для разработки моделей и скрипты по их сбору.
— Применять техники потоковой обработки данных для решения реал-тайм задач.
— Строить витрины данных, выбирая оптимальный формат и структуру хранения данных.
— Придумывать индикаторы качества данных.
— Использовать такие технологии, как: SQL, SAS, Hadoop, Spark, NiFi, Hive, Hbase, Kafka, Airflow, ClickHouse, Java, Python.

https://www.raiffeisen.ru/

13 открытых вакансий

Райффайзенбанк — один из 11 системно-значимых банков России. Мы часть международной банковской Группы Райффайзен, традиции которой насчитывают более 120 лет успешной работы. Наша миссия — постоянно находить новые решения, которые делают жизнь наших клиентов легче. Вот то, что мы понимаем под инновациями.