Проверь свой уровень в аналитике!
Ответь на вопросы по SQL, витрины данных и инструмент автоматизации Apache Airflow
Начать
Как часто вы пишете SQL‑запросы в текущей работе?
От частоты использования инструмента зависит твой уровень владения им, подумай об этом)
Ежедневно
Раз в неделю
Реже раза в месяц
Никогда не писал(а)
Какой уровень владения SQL вы бы себе присвоили?
Как показывает рынок вакансий SQL является самым востребованным навыком для аналитиков данных
Новичок (знаю базовые SELECT, WHERE)
Средний (использую JOIN, подзапросы, агрегатные функции)
Продвинутый (пишу сложные оконные функции, оптимизирую запросы)
Эксперт (разрабатываю схемы БД, настраиваю индексы)
Что такое аналитическая витрина данных?
Давай копнём чуть глубже твои знания
Инструмент для визуализации данных в реальном времени
Специализированная таблица/набор таблиц для анализа, оптимизированная под конкретные задачи
Платформа для хранения сырых данных без обработки
Сервис для отправки уведомлений о изменениях в данных
Работали ли вы с Apache Airflow?
Apache Airflow широко используется по всему миру, в том числе в России, т.к. он open source, а значит бесплатный
Да, активно использую в проектах
Пробовал(а) на тестовых задачах
Знаю теорию, но не применял(а)
Не знаком(а) с инструментом
Для чего в Airflow используется DAG (Directed Acyclic Graph)?
DAG - основное понятие для Airflow, с ними ты плотно можешь работать как аналитик-инженер
Для хранения данных в распределённой системе
Для описания последовательности задач и их зависимостей
Для визуализации метрик производительности
Для шифрования данных при передаче
Как вы обычно автоматизируете повторяющиеся SQL‑задачи?
Обновлять данные - типичная задача для инженеров, но не для всех аналитиков. Зато это направление куда стоит развиваться
Запускаю вручную через интерфейс БД
Использую cron-задачи с скриптами
Применяю ETL‑инструменты (например, Airflow)
Не автоматизирую — делаю всё вручную
Знакомы ли вы с системой контроля версий Git/GitHub?
Инженерные задачи точно требуют навыков работы с git-системами и репозиториями
Работаю с Git ежедневно, использую ветки, pull request
Коммичу изменения, но не использую продвинутые функции
Знаю основы (commit, push, pull)
Не работал(а) с Git
Для чего используется оператор DISTINCT ON? (в PostgreSQL)
Наверняка знакомы с DISTINCT, а вот DISTINCT ON умеют применять не многие
удалить все дубликаты из таблицы физически (очистить данные)
выбрать первую строку для каждого уникального значения в указанных столбцах, учитывая порядок сортировки
подсчитать количество уникальных значений в столбце
объединить несколько таблиц, исключая повторяющиеся строки
Как вы обрабатываете ошибки в автоматизированных пайплайнах?
Настраиваю уведомления (email/Slack) и ручной разбор
Использую встроенные механизмы ретриев в Airflow
Логирую ошибки, но разбираю их постфактум
Не предусматриваю обработку ошибок
Как вы тестируете корректность данных в витринах?
На некачественных данных будет такой же анализ, поэтому проверки очень важны
Сверяю выборки вручную с исходниками
Пишу автоматические тесты на проверку агрегатов и ключей
Доверяю ETL‑инструменту — он гарантирует точность
Не тестирую, полагаюсь на логику запроса
Супер! Поздравляю с прохождением теста
Переходи дальше по кнопке, чтобы посмотреть правильные ответы на технические вопросы и получить полезные инсайты от меня
К материалам
Далее
Отправить