Что такое аналитическая витрина

Ответ: Это специализированная таблица или набор таблиц для анализа, оптимизированная под конкретные задачи.

Данные перед витриной проходят нужные шаги сборки и обработки: объединяются, фильтруются, чистятся, агрегируются, считаются нужные метрики.

Дальше витрина данных становится основным источником правды для всех ответов на вопросы от бизнеса и может быть использована
  • в BI отчетах
  • для рассылки метрик в мессенджеры
  • для обычных выгрузок в excel
  • для отправок по другим каналам связи типа email
Витрина данных помогает аналитику избавиться от множества рутинных задач или "шаблонных" запросов.
Весь процесса разработки витрин от сбора требований до автоматизации обновления данных и отчетов мы разбираем с учениками на курсе

Для чего в Airflow используются DAG

Ответ: Для описания последовательности задач и их зависимостей

Airflow используется для задач оркестрации потоков данных
  • запустить
  • остановить
  • посмотреть логи
  • выставить зависимости между задачами
  • установить расписание работы

DAG - это направленный ацикличный граф, который строится из отдельных задач. Каждая задача может иметь связь с другой задачей. Пример такого графа задач можно увидеть на картинке ниже.

Каждая задача может включать внутри себя логику из разных действий
  • запуск SQL запроса
  • запуск Python скрипты
  • отправка письма на почту
  • запись файла в облачное хранилище
  • и прочее

С помощью такого инструмента можно автоматизировать задачи разной сложности и строить максимально эффективные аналитические решения с конвейером обновляемых автоматически данных!

Для чего используется оператор DISTINCT ON

Ответ: выбрать первую строку для каждого уникального значения в указанных столбцах, учитывая порядок сортировки
SELECT DISTINCT ON (customer_id) 
order_date,
customer_id,
channel,
interface,
order_type
FROM core.orders
WHERE order_type = 'paid'
ORDER BY customer_id, order_date ASC
Например, данный запрос оставит строки с первыми оплаченными заказами каждого клиента. Что здесь происходит
  • фильтрацией оставляем изначально только строки с оплаченными заказами paid
  • определяется уникализация строки по полю customer_id
  • все строки с одинаковым customer_id сортируются по order_date

Это один из операторов, который используется часто на практике для подобных задач в процессе разработки витрин данных.
Сегодня рынок IT требует сильных технических специалистов, умеющих решать любую задачу "под ключ". Бизнес оптимизирует ресурсы, оставляя только эффективных и универсальных сотрудников.

Сейчас развитие навыков это не вопрос повышения зарплаты, а способ удержаться на кризисном рынке


  • продвинутый SQL
  • оптимизация запросов
  • автоматизация проверок качества данных
  • написание DAG в Apache Airflow
  • работа с Git
  • Cloud Functions

Всё это и практика в настроенной инфраструктуре доступна на курсе "Продвинутый SQL и автоматизация витрин данных"