El servicio también está disponible en su idioma. Para cambiar el idioma, presioneEspañola
Best analytics service

Add your telegram channel for

  • get advanced analytics
  • get more advertisers
  • find out the gender of subscriber
Гео и язык канала

все посты Инжиниринг Данных

Делюсь новостями из мира аналитики и вредными карьерными советами;) 8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄‍♂️ 
Показать больше
20 878+3
~5 905
~67
33.36%
Общий рейтинг Telegram
В мире
41 794место
из 78 777
В стране, Россия 
5 543место
из 8 625
В категории
875место
из 1 396
Архив постов
Собеседования тоже можно в бане проводить! Баня топчик!
2 419
0
Сегодня первый раз побывал в общественном разряде бани. Баня — это заебись! И вот почему: ♨️ Контекст максимально располагает к открытому и прямолинейному общению. Вместе с одеждой и аксессуарами спадает напускной флер, остается, так сказать, фактура. Это очень меняет ракурс восприятия себя самого и других людей; ♨️ Методичный алгоритм действий помогает переключиться и сосредоточиться на ощущениях, тело становится первостепенным, разум и рефлексия отходят на второй план; ♨️ Вокруг — разные, непохожие друг на друга люди, которым абсолютно все равно, кто ты за пределами этих стен. 💡Outcome на будущее: если хочешь получше узнать человека, сходи с ним в баню.
Показать полностью ...
2 475
9
Книга Kubernetes in Action (2nd edition by Marko Lukša, Kevin Conner) — отличный старт для знакомства с Kubernetes Когда я начал читать книгу Kubernetes in Action, сразу понял — это не просто теория. Автор делает акцент на понятном объяснении того, что такое Kubernetes, как он работает и почему его популярность так стремительно выросла. Честно говоря, я был впечатлен уже с первых страниц. Что мне особенно понравилось Во-первых, в книге есть множество наглядных иллюстраций, которые помогают понять, как Kubernetes управляет приложениями и как он абстрагирует инфраструктуру. Эти схемы не просто украшают текст, они на самом деле помогают видеть общую картину, особенно если вы еще новичок в этой теме. Ну и, конечно, материал изложен очень просто — так, как будто вы говорите с опытным наставником, а не читаете технический мануал. Теперь давайте разберем основные идеи первых глав (1.1 Introducing Kubernetes - 1.2 Understanding Kubernetes), которые привлекли мое внимание. --- Введение в Kubernetes: Зачем это нужно? Kubernetes — это по сути штурман для ваших приложений. Он автоматизирует процесс их деплоя и управления, решает за вас повседневные задачи, как настоящий помощник капитана. Вся идея в том, чтобы вы сосредоточились на развитии проекта, а Kubernetes сам справился с рутиной, следя за тем, чтобы приложения работали бесперебойно. Причем, как отмечает автор, имя Kubernetes символично. Как штурман направляет корабль, так Kubernetes направляет ваше приложение, оставляя за вами только ключевые решения. --- Почему Kubernetes стал таким популярным? Развитие микросервисов и контейнеров изменило весь подход к разработке ПО. Если раньше приложения представляли собой большие монолитные системы, которые было сложно масштабировать и управлять, то теперь мы работаем с десятками и сотнями микросервисов. Kubernetes автоматизирует их управление, делая развертывание и масштабирование микросервисов тривиальной задачей. Автор книги подчеркивает: то, что раньше было сложно, с Kubernetes стало простым и очевидным. --- Как Kubernetes решает повседневные задачи? Читая книгу, я понял: Kubernetes — это не просто система для развертывания приложений. Это целая экосистема, которая позволяет автоматически управлять масштабированием, следить за здоровьем приложения и даже восстанавливаться после сбоев. Если ваше приложение упало — Kubernetes сам перезапустит его. А если произошел сбой оборудования, Kubernetes перенесет работу на здоровые узлы. Все это экономит время и нервы. --- Основные компоненты Kubernetes Автор подробно объясняет архитектуру Kubernetes, разделяя её на две главные плоскости: Control Plane и Workload Plane. Control Plane управляет состоянием всего кластера, а Workload Plane — это место, где запускаются приложения. Все выглядит логично, и благодаря иллюстрациям с каждым компонентом становится легче разобраться. --- Личный опыт Для меня этот материал стал отличным введением в тему. Книга Kubernetes in Action помогает понять не только теоретические основы, но и показывает, как Kubernetes действительно работает на практике. А самое главное — автор делает это легко и доступно, с примерами и наглядными пояснениями. Если вы хотите погрузиться в мир Kubernetes — это идеальная отправная точка. От себя же я составил Mind Map первых двух частей, которым хотел бы поделиться в этом посте (пока что ссылкой на dropbox) - Обзор следующих частей опубликую очень скоро🛥
Показать полностью ...
Kubernetes in Action till 1.3.pdf
Shared with Dropbox
3 076
102
Все чаще мелькает информация про YAML инженера. Вот несколько статей: Dbt модели у меня безусловно лидируют, так же использовал для Mock тестов в Pytest и Helm Charts и Kubernetes.
4 553
65
Чем заместить SAP BW так, чтобы работало не хуже? Компания-интегратор решила этот вопрос для своих заказчиков, предложив миграцию на комплекс российских и open source решений. На вебинаре 25 сентября эксперты из Sapiens solutions, Иннотех и Arenadata расскажут, как при реализации такого проекта в крупном системообразующем банке удалось нивелировать риски и получить качественный результат. Тема вебинара: Мигрируем аналитическую отчетность с SAP BW на импортонезависимый стек. Кейс клиента Дата вебинара: 25.09.2024 Время начала: 11:00 Мск Регистрация ❗️Ключевые моменты вебинара: ✅ Кейс реализации проекта по импортозамещению SAP BW в системообразующем российском банке (целевая архитектура, проблемы и решения, подходы к оценке обьемов работ и приоритизации и др.) ✅ Техническая реализация проекта (особенности реализации экстракции из ERP, реализация хранилища данных, доработка open source и др.) ✅ Поддержка Arenadata До встречи на !
Показать полностью ...
5 251
54
Например, если менеджеру тяжело проводить 1:1 с его командой, возможно, у него очень большая команда. А ведь Безос нас учил — эффективная команда — это команда размером с две пиццы (). Может быть, у вас слишком много подчинённых? А может быть, вам надоело делать то, что вы делаете, и роль менеджера по работе с людьми (people manager) — это не ваше, а ваша роль — Individual Contributor? А если вы инженер и вы терпеть не можете митинги, очевидно, такие встречи для вас могут казаться бесполезными. Хотят, тут многое зависит от менеджера и ваших способностей. Например, вы работаете над задачей и вам не хватает информации, как её делать, на встрече 1:1 ваш менеджер может вам подсказать и показать. Очевидно, такие встречи полезны. А если ваш менеджер не очень технический, то он просто будет требовать отчёты по статусу и срокам. Как вы сами видите по комментариям в прошлом посте, подчинённым и менеджерам не нравятся лишние митинги, но таков путь.😎 Теперь про свой опыт. Книга нам подсказывает, как лучше управлять ожиданиями менеджера и как лучше намекнуть инженеру о полезности таких встреч. Для меня встреча 1:1: - Задать вопросы по проектам, где я заблокирован (полезно) - Поговорить 5–10 минут ни о чём о том, как дела, как дети и отпуска (бесполезно) - Выполнять формальности по оценке эффективности (performance review), заполнению документов и обязательных форм (нужно) - Рассказать о своих успехах и достижениях (бесполезно, но создает видимость, что тебя хвалят и любят, и чувствуешь себя полезным) Самое главное, что вам нужно знать о встречах 1:1 — это то, что они не предназначены для разговора о повышении. Конечно, они подразумевают общение на тему карьерного роста и развития карьеры, что сулит вам в лучшем случае 2% индексацию в год, а если вам повезёт — 10–15% при повышении. Поэтому важно понимать: ваше ментальное здоровье — это ваша ответственность, и на работу надо приходить без карьерных ожиданий, тогда стресса не будет. Что касается денег, это вопрос job hopping, job stacking, side hustle. К этому тоже надо прийти путем проб и ошибок. Лично я научился соблюдать все формальности и играть по корпоративным правилам, говорить только то, что от меня хочет слышать менеджер, при этом планируя свою карьеру независимо от конкретной компании, менеджера и проекта. Каждая конкретная компания — это временно. Лучшее, что я могу сделать, — это не иметь никаких ожиданий от моего менеджера и руководства, а просто делать свою работу хорошо, быть на пике знаний и технологий и поддерживать с кем угодно хорошие отношения и помогать более младшим коллегам. П.С. Вообще понятие карьеры — это не обязательно работа “на дядю” в офисе 5 дней в неделю. Это ваш путь, где вам нужно что-то делать, чем вам не противно и что приносит удовольствие, и за это хорошо платят или в долгой перспективе вам хорошо будут платить. Сюдя подходят и pet проекты, стартапы, и блоги, и свои каналы в Телеграме или YouTube. Главное — не быть зацикленным на текущей работе, особенно если вы чувствуете, что выгораете. То есть это не параллельная реальность. У нас не должно быть двух реальностей — одна домашняя, личная жизнь, а другая карьера. У меня эти вещи переплетаются. Например, я использую единый календарь для всего, беру детей на конференции (брал на Snowflake в Лас-Вегас) или поездки в офис. Даю детям доступ в Slack, чтобы они могли помогать мне отвечать коллегам, когда я занят. Прошу жену заполнить Excel-таблицу или загрузить расходы. Такое совмещение позволяет мне не разделять личную жизнь и работу и возможно это ответ на частый вопрос - “Как я все успеваю?” Известный факт: человек — кузнец своего счастья, поэтому не нужно обижаться на менеджера или коллегу за свои неудачи, а лучше потратить энергию на то, чтобы стать лучше.💞
Показать полностью ...
5 286
85
Вопрос про 1:1 возник после книги. Я прослушал книгу . Книгу нашёл в подписке Audible на распродаже. Кстати, на русском книга называется “Управляй как бог менеджмента 🔫😊🔫: Инструменты выдающегося руководителя” Книга небольшая, и в ней много практических примеров. Вообще, вот краткое содержание по главам: Глава 1: Проведение эффективных индивидуальных встреч (One-on-Ones) В этой главе автор подчеркивает важность регулярных индивидуальных встреч между менеджером и сотрудниками. Такие встречи позволяют устанавливать доверительные отношения, обсуждать текущие задачи, выявлять проблемы и поддерживать профессиональное развитие сотрудников. Марк предлагает структурированный подход к проведению встреч, включая подготовку повестки, активное слушание и последующие действия для обеспечения эффективности взаимодействия. Глава 2: Давать конструктивную обратную связь Марк Хорстман объясняет, как правильно давать обратную связь, которая способствует росту и улучшению работы сотрудников. Он выделяет ключевые принципы, такие как своевременность, конкретность и объективность. Важно не только указывать на ошибки, но и признавать достижения, что повышает мотивацию и укрепляет рабочие отношения. Глава 3: Эффективный коучинг и развитие сотрудников В этой главе рассматриваются методы коучинга, направленные на развитие навыков и компетенций сотрудников. Марк предлагает техники постановки целей, постановки вопросов, стимулирующих самостоятельное мышление, и создания условий для непрерывного обучения. Коучинг помогает сотрудникам раскрывать свой потенциал и способствует общему успеху команды. Глава 4: Делегирование задач и ответственности Марк обсуждает важность делегирования как инструмента управления временем и развития сотрудников. Правильное делегирование включает определение задач, соответствующих компетенциям сотрудников, установление четких ожиданий и предоставление необходимой поддержки. Это не только освобождает время менеджера для стратегических задач, но и способствует росту и вовлечённости команды. Глава 5: Управление временем и приоритетами В последней главе автор делится стратегиями эффективного управления временем. Марк предлагает методы расстановки приоритетов, планирования рабочего дня и минимизации отвлекающих факторов. Он также подчеркивает важность баланса между краткосрочными задачами и долгосрочными целями, что помогает менеджерам оставаться продуктивными и сосредоточенными на ключевых аспектах своей работы. Мне показалось, что одним из главных акцентов книги были встречи 1:1 как инструмент повышения продуктивности работников и менеджеров. Важно понимать, что основная цель менеджера — создать условия, при которых сотрудники могут максимально раскрыть свой потенциал, быть мотивированными и достигать высоких результатов. Сотрудники должны работать много, хорошо, качественно, самостоятельно, с высокой отдачей, то есть иметь высокий КПД. Задача менеджера — создать условия, в которых это возможно. И как раз встречи 1:1 очень способствуют этому. То есть в книге доказано, что при правильном использовании такого формата встреч это будет полезно для бизнеса, поэтому тут не обсуждается вопрос — нравятся они или нет. Как говорится — “нравится, не нравится, терпи моя красавица”. Я прекрасно понимаю менеджеров, которым эти встречи надоели, и ещё больше понимаю сотрудников, которых эти встречи бесят. К сожалению для тех и других в книге очень развернуто написано, почему это плохо и что это показатель плохой вовлечённости. Ну если по-русски, значит таких людей, конечно, можно попробовать переубедить (и в книге даны примеры), но в целом это говорит о начале конца, и таких людей можно считать неэффективными, опять же в книге это обосновано почему.
Показать полностью ...
4 799
92
Как вы относитесь к 1:1, One-on-One, OOO встречам? И практикуются ли они у вас? 1:1 — это встреча между менеджером и его подчиненным (direct report), как правило, раз в неделю или раз в две недели на 30 минут. Например, в РФ и в старых предприятиях такого не было, а вот в Amazon, Microsoft и других есть. Так как я в Канаде проработал за 10 лет в 13-ти командах, 10 компаниях, из них 3 команды были в Amazon и 3 команды в Microsoft, то в каждой компании было по-своему. Мне вообще нравится сравнивать компании, менеджеров, культуру между собой. Когда менеджер со мной общается, я обычно смотрю не на то, что он мне говорит, а на то, как он это говорит. Чувствую себя исследователем корпоративной и стартап-культур, смотрю, что работает, а что нет. А главное, каким образом я могу управлять ожиданиями моего менеджера, чтобы не скатывалось все в микроменеджмент. Поэтому интересно узнать ваше мнение пока только об аспекте 1:1 встреч. Если вы подчиненный, проводит ли ваш менеджер с вами такие встречи, как часто, полезно ли это? А если менеджер, проводите такие встречи с подчиненными, как часто, помогает? В следующем посте уже напишу про эти встречи с “научной точки” зрения по книжкам для “эффективных менеджеров”.😝
Показать полностью ...
5 502
16
6 964
19
Интересная что не ChatGPT убивает поисковики и классическое гугление, а социальные сети. Надо попробовать поискать код в ТикТок:)
Грокс
Интересное наблюдение про изменение поведенческого паттерна: Fortune пишет, что молодёжь уходит от «гугления» и всё чаще использует TikTok и Instagram в качестве поисковой системы. Так называемый «social searching» использует 45% представителей поколения Z. Среди миллениалов таких только 35%, среди представителей Gen X — 20%, а среди бумеров — менее 10%. Технофилы ошибочно пророчили, что ChatGPT убьёт «классические» поисковики, но умерщвляют их скорее социальные сети. «Примерно 40% молодых людей, когда ищут место для обеда, не заходят в Google Maps или Search» — поделился старший вице-президент Гугла. https://fortune.com/2024/09/10/gen-z-google-verb-social-media-instagram-tiktok-search-engine/
6 551
7
Коллеги из проекта проведут 19 сентября вебинар, на котором поделятся опытом применения ИИ в BI в крупных российских компаниях. 🔥Тема вебинара: Как ИИ в BI меняет взаимодействие с данными. Сценарии применения BI-ассистента Easy Report ❗️Дата: 19 сентября 2024 года ❗️Время: 11:00 Мск, продолжительность – 1 час ❗️Участие бесплатное, требуется . ⬇️Содержание вебинара: 1. Применение ИИ в современных BI-решениях. 2. Эволюция self-service аналитики: как пользователи могут самостоятельно получать нужные данные без помощи ИТ-специалистов. 3. Реальные сценарии применения первого российского BI-помощника с ИИ – Easy Report. 4. Демонстрация работы Easy Report: - обработка запросов на естественном языке, - формирование отчетов и вычисления “на лету”, - интерактивные графики в мессенджере, - data alerts и др. 🚀.
Показать полностью ...
6 824
26
Типичная задачка для ETL разработчик data engineer. У нас есть приложение и у него есть backend база данных (она же OLTP). Если вы еще изучаете, то вам нужно ответить сразу на два вопроса: 1) ETL vs ELT в чем собственно разница. Чтобы ответить, надо не chatGPT спрашивать, а прям реально самому попробовать на примере БД локальной, и прочувствовать разницу 2) OLTP vs хранилище данных, часто это называют OLAP, но я не люблю называть аналитические запросы OLAP, потому что это пересекается с MOLAP (кубы MS Analysis Services и язык MDX) или ROLAP (что по сути происходит в любом современном BI, когда с помощью запроса мы кешируем результат SQL и потом его slice and dice У нас простая задача - нужно в отчете показать количество пользователей. И тут сразу должны возникнуть вопросы: Что такое пользователь? Как его идентифицировать? В какой таблице найти? Как к нему подключиться? Сколько там данных? (Строк) А можно ли нагружать эту базу данных своими запросами? Вдруг это production БД Ок, у нас реплика (тоже надо знать, что это такое, и как ее создают в backend). Мы можем к ней подключаться по JDBC/ODBC через SQL клиент, или даже BI инструмент, чтобы изучить данные. Как раз тот самый запрос поможет:
select * from users limit 10
Обязательно нужно узнать про уникальный ключ в этой таблице. Он нам поможет избежать дубликатов, так сказать uniqueness test. И еще можно отслеживать freshness таблица по какому-нибудь timestamp. Дальше нам надо придумать как эту табличку тянуть в хранилище данных, обычно в staging слой. И тут есть разные способы и инструменты (их не так много). Например, мы можем использовать Change Data Capture метод, который позволяет нам копировать только свежие и измененные данные, я это еще называю incremental загрузка. Альтернатива это full reload. Если вы посмотрите инструменты Fivetran, Airbyte, Meltano, Matillion - все они предлагают вам похожие способы забора и загрузки данных. Ок, нам повезло - наша таблица содержит два ключевых timestamp: -
created_at
-
updated_at
И мы можем использовать подход с watermark, то есть хранить последнее значение (или находить его) перед запуском загрузки, и при каждом запуске ETL job, мы просто должны:
select *
from users
where created_at >= $parameter or updated_at >= $parameter
Но не забывайте самое главное свойство ETL pipelines - idempotent - то есть если каким-то образом мы выполним один и тот же job много раз, результат будет всегда такой же. Для этого при incremental (инкрементальной) загрузке у нас есть варианты разные
DELETE/INSERT
,
UPSERT
,
MERGE
,
UPDATE/INSERT
и зависит это от данных и возможностей базы данных. Например для таблиц с логами, у нас история не меняется и всегда
APPEND
, то есть данные добавляются, и отлично подходит
DELETE/INSERT
, а для таблички с пользователями у нас для каждого
USER_ID
могу поменяться атрибуты, поэтому мы будем использовать
UPSERT
. Для этого важно знать уникальный ключа в таблице! Выше я писал про свой подход с Snowflake Procedure, но это можно реализовать множеством других способов и инструментов. Главное суть остается та же. Теперь у нас есть таблица с пользователями, которая обновляется каждый день. И у для разработчика сразу должны возникнуть вопросы к заказчику, так сказать уточнение требований отчета:
Показать полностью ...
5 686
96
1) Мы хотим видеть просто абсолютное кол-во пользователей? 2) Если пользователей изменил пол (про это как то была дискуссия в телеге, про пример об неизменных dimension как пол клиента), но это было в прошлом, теперь все бывает, и разработчик должен быть готов использовать Slowly Change Dimensions, и хотя бы согласовать, что делать с изменением. Можно просто перезаписать (Type 1) или написать, что раньше пол-то был другой (Type 2). Реальные проблемы западных инженеров! 3) А еще вопрос, интересный, если пользователь удалился из backend, он же ведь все равно остался в хранилище данных и его может надо пометить как
IS_DELETED
. А для этого нам уже придется сравнивать полный snapshot и текущею базу и находить удаленных клиентов. 4) И возможно, мы хотим видеть историю роста, вчера было 100 клиентов, а сегодня 110, то есть нам надо делать SNAPSHOTS раз в день. Казалось бы такая простая задача, а сколько возможностей. Самое интересное, что практически во всех организациях, где есть хранилище данных это делают. Часто терминология разная, но идея остается прежней, и ей уже лет 30 если не больше. И для этого не нужно знать ни python, ни Hadoop, ни streaming. Просто SQL и пару приемов, как данные сделать полезными для конечного потребителя. Поэтому прежде чем получать сертификаты dbt, snowflake, Databricks и тп, попробуйте на локальной базе разобраться с этими вещами и потом будет легче делать все тоже самое но уже на modern data stack за хорошую денюшку.
Показать полностью ...
6 801
72
Николай Валиотти из ежегодно проводит независимое исследование онлайн-курсов по аналитике. Гарантия трудоустройства, новая профессия в кратчайшие сроки, высокая зарплата и успешная жизнь после прохождения курсов — так ли все прекрасно, как обещают в популярных онлайн-школах? Так что, если вы не так давно проходили курсы или осваивали профессию аналитика в онлайн-школе, свое мнение. Пожалуй, тот самый случай, когда оно искренне важно для всех. Будет отличный вариант рассказать все хорошее или плохое про курсы, и тот случай когда можно указать Data Learn (бесплатный курс на русском - от Excel до Spark и BigData) или Surfalytics (бесплатный курс на английском, где за основу я взял data learn но улучшил). А еще за прохождение опроса можно получить подборку бесплатных материалов на русском и английском языках про дата-аналитику, SQL и не только. 🔜 P.S. Ответы принимаются до 19 сентября включительно, поэтому не откладывайте это дело в долгий ящик. P.P.S. А еще мы обсудили с Колей о подкасте, где обсудим вопрос развитие карьеры в сторону создания своего консалтинга, сложность service business, масштабирование, плюсы и минусы и вообще Коля расскажет свою история о создании успешной международной компании. Уверен будет много интересных тем подискутировать.
Показать полностью ...
Онлайн-курсы. Напрасная трата времени и денег или шанс сменить профессию/сферу деятельности?
Расскажите о своём опыте прохождения онлайн-курсов
5 918
15
Знаете ли вы, что такое хранимые процедуры? Раньше в Oracle, SQL Server, Teradata без них никуда было не деться. На всех работах, где эти мастодонты хранилищ данных использовались, всегда применялись процедуры. Например, Oracle PL/SQL — мощная штука, которая позволяет создавать ETL, не отходя от кассы выходя из Oracle. Это было задолго до появления всех ништяков в Python. Я всегда думал, что хранимые процедуры для «олдов» (такой термин вообще существует?). Помню, как пришёл в Amazon в 2016 году, а там Oracle on-premises и весь ETL на PL/SQL. Прямо как в dbt: последовательность SQL-трансформаций (теперь это называется DAG), разные функции и даже возможность забирать данные из SFTP, API и других систем. Тогда я все это дело переделал на Redshift + Matillion ETL. Подумал тогда: «Что за смех, мы тут в облаке AWS строим modern data stack (кстати, в 2016 году такой термин ещё не использовался), а они тут со своим PL/SQL и Git в Bitbucket». Теперь у нас low/no code (тоже не использовал такой термин), и я мышкой всё сделаю. И я, конечно, всё сделал, и оно до сих пор работает, но я бы им порекомендовал перейти на dbt и вообще подумать про Analytics/Infra as a code 😛 Самое интересное, что недавно у меня была задача затягивать данные из backend в Azure (Azure SQL, CosmosDB), и, очевидно, я использовал Azure Data Factory. Но ADF сам ничего не умеет. Там есть отличная интеграция между всеми сервисами Azure, и можно из любого сервиса выгрузить в Azure Storage. Но если я хочу реализовать инкрементальную загрузку, slowly changing dimensions, snapshots и т.п., мне нужно где-то хостить свою логику. И я не придумал ничего лучше, чем использовать хранимые процедуры Snowflake. Там есть много вариантов: хочешь — пиши на SQL, хочешь — на JavaScript. В общем, я всю логику положил в Stored Procedures, и всё работает замечательно. Вот пример:
create or replace procedure CONFIG.UPDATE_WATERMARK_JOB(SCHEMA_NAME VARCHAR, PIPELINE_NAME VARCHAR,
                                                        START_TIMESTAMP TIMESTAMP_NTZ, END_TIMESTAMP TIMESTAMP_NTZ,
                                                        SOURCE VARCHAR, TABLE_NAME VARCHAR,
                                                        LAST_CREATED_TIMESTAMP TIMESTAMP_NTZ,
                                                        LAST_UPDATED_TIMESTAMP TIMESTAMP_NTZ)
    returns VARCHAR
    language SQL
    strict
as
$$
BEGIN

    INSERT INTO raw.config.watermark_table
        (schema_name, pipeline_name, start_timestamp, end_timestamp, source, table_name, last_created_timestamp, last_updated_timestamp)
    VALUES
        (schema_name, pipeline_name, start_timestamp, CONVERT_TIMEZONE('UTC', CURRENT_TIMESTAMP()), source, table_name, last_created_timestamp, last_updated_timestamp);

    RETURN 'Success';
END;
$$;
Получается, что всё новое — это хорошо забытое старое! Как у вас дела обстоят с хранимыми процедурами?
Показать полностью ...
6 065
43
Недавно попалась статья . Зарплаты курьеров до 250т рублей в Москве это круто. Мне кажется в среднем BI разработчик получает до 200х тысяч. Получается отличная работа на свежем воздухе и не нужно сидеть за компьютером. Я кстати работал курьером несколько лет, так как ничего другого не мог найти в 11м классе и на первых курсах университета. Сначала я работал в тур фирме, а потом развозил платежи от 1С конторы. И уже тогда я делегировал часть заказов своему дедушке. Правда деньги были смешные, но самый крутой навык это ориентация на местности и карте (раньше не было gps и навигаторов), а была книжка с картой Москвы. И заодно очень хорошо знал Москву. Может есть ниша онлайн курсов курьеров и insights как совмещать 2-3 работы доставки и outsource своих заказов?!
Показать полностью ...
Hh.ru назвал российские компании с самой высокой зарплатой курьеров
Средняя зарплата курьеров на сегодняшний день составляет 110 тыс. руб. Больше других курьерам на личном автомобиле предлагают «Купер», «Перекресток Впрок» и Ozon Fresh
5 983
24
Системный аналитик, присоединяйся к Сберу! 👌 Мы разрабатываем аналитическую платформу по управлению эффективностью организации. Наша цель – создать «сердце» платформы: общие технологические сервисы для разработчиков и low/no-code инструменты, которыми будут пользоваться аналитики для реализации бизнес-логики. Чем предстоит заниматься ⤵️ 👉 сбором, детализацией, уточнением и согласованием требований 👉 проработкой и подготовкой типовых решений для использования общих сервисов 👉 разработкой технической документации для разработчиков 👉 контролем реализации требований на всех этапах жизненного цикла разработки. Читай подробности и откликайся на вакансию 💁
Показать полностью ...
5 870
19
Пример типичной организации в Северной Америке и расходов на data-инструменты. Компания на 1000+ человек. Команда данных состоит почти из 20 человек, и структура примерно следующая: - Director Data Engineering (подчиняется VP Engineering) - Manager Data Engineering (Pipelines) — команда занимается интеграцией данных (загрузка данных в Staging). - Manager Data Engineering (Data Warehouse) — команда занимается созданием хранилища данных поверх Staging, то есть моделированием данных, использует dbt и применяет бизнес-логику, чтобы создавать корпоративную модель данных и рассчитывать бизнес-показатели. Команда — смесь Data Engineering и Analytics Engineering. - Manager Data Enablement — команда представляет собой смесь Analytics Engineering и BI-разработчиков, делает дашборды в Tableau/Looker и, по необходимости, дорабатывает модели в dbt (кустарным способом, далеким от лучших практик DE). Инструменты, которые используются: - Snowflake — $100k в месяц только за compute. - Airflow — оркестрация, open source, хостится на AWS ECS. - dbt core — SQL-трансформации, open source, запускается на AWS ECS. - Alation — $170k в год, дата-каталог, документация по показателям. Идея была внедрить Data Governance, единый портал для бизнес-пользователей, но фактически затея провалилась. - Looker — $120k в год, конкурирует с Tableau (Enterprise-лицензия, такая же безлимитная по пользователям, но за дорого), и поэтому Looker долго не продержится. - Monte Carlo — $140k в год, отличный инструмент для отслеживания Data Observability, качества данных, часто выручает, когда даже dbt tests ничего не видят. Но честно говоря, дорого — это где-то 8-10% от стоимости Snowflake. - Hightouch — $30k в год, интеграция с Salesforce, Marketo и другими инструментами. Можно условно бесплатно сделать то же самое через Python+Docker, но по опыту с такими решениями из подручных средств страдают инженеры, и у вас вечные проблемы с различными изменениями в API, rate limit и т.п. - Fivetran — $45k в год, интеграция с API Salesforce, Gsheets, Marketo, Zendesk и т.п. Так как это малая часть данных, то и цена небольшая. Это расценки чисто на data-команду, а ещё есть ML-команда, расходы на AWS для инфраструктуры, и самая дорогая часть всего — data platform команда, которая использует Apache Kafka и пишет в S3 данные из MongoDB, Postgres, Cloudflare, серверных логов, Syslog и т.п. Точных цифр нет, но только расходы на платформенную команду могут составлять несколько миллионов долларов. Какие выводы из этого маленького примера: - Аналитика — это дорого. - Облака — это дорого. - Compute всегда дорого. - Storage дорого. - Использовать вендора — очень дорого, и ещё vendor lock в придачу. - Инженеры — очевидно дорогие. - Использовать бесплатный open-source — тоже дорого, и часто цена команды компенсирует цену лицензии. - А самое дорогое — это уволить старую команду и нанять новую, чтобы новая всё починила и наконец-то показала ROI аналитики (хотя если старая не смогла, то и новая не факт, что поможет; хотя если мигрировать Snowflake на Databricks или наоборот, то на пару лет все будут заняты!). Как ни крути — всё дорого. Поэтому, если вы внедряете решение, старайтесь сразу отслеживать все расходы и мониторить их еженедельно. Это легче, чем спустя год-два распутывать клубок из высоких расходов. Если команда использует open-source, старайтесь, чтобы все хорошо понимали, как это работает и как это обслуживается, иначе это будет black box и технический долг. Чаще проводите ревизию и удаляйте ненужные куски кода, старые pipelines, отчёты, dbt-модели и т.п. Сделайте leaderboard и пусть у вас будут top performers — те, кто удаляет старый и ненужный код. И самое главное, обязательно фокус на business value, хотя это и так очевидно. Нужно балансировать между тем, что нужно бизнесу прямо сейчас и тем, что будет хорошо для аналитического решения и команды. И чисто для инженеров было бы хорошо иметь 100% прозрачность в performance review, честный разговор о перспективах в компании. А то любят наобещать всего и побольше потом, а по факту 2% индексации🦯
Показать полностью ...
6 498
167
Где искать работу зарубежом? Международные стартапы с русскоговорящими фаундерами или командами – один из эффективных способов получить оффер за рубежом сейчас. Вакансии именно в таких компаниях собирают ребята в канале , а также делятся прямыми контактами HR для отклика. Как результат – уже десятки читателей получили офферы в Neon, InDrive, 1inch, Wheely и др. Несколько актуальных вакансий: – (remote или Армения, Казахстан, Кипр. Помогают с релокацией) – в Salmon (remote или помогают с релокацией на Филиппины) – в Appodeal (remote) – (Ереван) Еще у ребят есть отдельный с вакансиями только для аналитиков и дата инженеров 💙 и развивайте карьеру в будущем единороге!
Показать полностью ...
Connectable Jobs Abroad
Вакансии от 200+ зарубежных компаний с русскоговорящими фаундерами или командами. Наши читатели уже получили 100+ офферов в InDrive, Revolut, Wheely, Finom и другие компании💙 Разместить вакансию: https://cutt.ly/DwJ5xAhT Q&A: @connectable_jobs_team
6 353
58
Знаете какой самый популярный SQL запрос у крутого дата инженера?
SELECT * FROM 

А крутого дата инженера, но с реальным опытом, будет немного другой:

SELECT * FROM 
LIMIT 10 Даже chatGPT понял, что к чему: - does it make sense? - Да, это шутка, и она передает смысл! Первое выражение показывает запрос новичка или “крутого” дата инженера, который хочет увидеть все данные, а второе - опытного инженера, который понимает, что часто достаточно увидеть лишь часть данных, чтобы оценить содержимое таблицы и сэкономить ресурсы. Эта шутка подчёркивает, что опытные инженеры более прагматичны и ценят эффективность в работе с данными. Отличная шутка для тех, кто знаком с SQL и повседневными задачами дата инженеров! Реально мой день начинается и заканчивается с этих запросов🙌
Показать полностью ...
7 435
50
Визуализация дня. Согласно нему брак заключается реже по многим причинам — высоким уровням личной задолженности (кредиты/ипотеки), снижению общественного давления и другим факторам, — но одним из главных, похоже, является равенство заработной платы. Согласно исследованию Калифорнийского университета, каждое увеличение средней зарплаты женщин на 10% приводит к снижению числа заключаемых браков на 7%. Как все успели жениться, замуж выйти?)
6 702
119
Что ещё почитать? Удивительно, что до сих пор не постил в канал свой список любимых книг. Они действительно хорошие. Лейл Лаундес "Как говорить с кем угодно и о чем угодно" Джим Кэмп “Сначала скажите нет” Брайан Трейси "Переговоры" Stephanie Palmer “Good in a Room” Карен Прайор «Не рычите на собаку! Книга о дрессировке людей, животных и самого себя» Пять учебников по переговорам и общению с другими людьми. Они очень разные между собой и по формату, и по целевой аудитории, и по рекомендациям, но каждый из пяти этих взглядов на коммуникацию был мне очень полезен и каждым я активно пользуюсь. "Думай медленно... Решай быстро", Дэниел Канеман “The Willpower Instinct: How Self-Control Works, Why It Matters, and What You Can Do to Get More of It”, Kelly McGonigal "The Shallows", Николас Карр Три отличные книги о том, как люди думают и как на это можно влиять. В первую очередь интересно понимать и влиять на самого себя, конечно. И выключите, наконец, уведомления на телефоне! “Remote. Office not required”, David Heinemeier Hansson, Jason Fried Книга об удаленке, написанная задолго до COVID. Очень много конкретных мыслей и предложений о том, как организовать её эффективнее. Аллен Карр "Легкий способ сбросить вес" Алексей Филатов "Теория и практика жиросжигания" Две лучшие книги по борьбе с лишним весом из тех, что я читал, а читал я много. По их рецептам я реально худел с минимальными усилиями. Та самая “волшебная таблетка”. "Ценностное управление для бизнеса", Константин Харский Культура ест стратегию на завтрак, как известно. А чтобы ценности вашей компании использовались как-то иначе, чем просто висеть на холодильнике – прочтите книгу Харского. "Школа продаж. Что делать, если клиент не хочет покупать?" Александр Деревицкий «Метод тыквы. Как стать лидером в своей нише без бюджета», Майк Микаловиц “No B.S. Ruthless Management of People and Profits” Dan S. Kennedy Учебники бизнеса. Из каждого есть что взять и с чем поспорить, но даже то, “с чем поспорить”, читается с огромным интересом. "Разумное распределение активов", Уильям Дж. Бернстайн Лучшая книга об инвестициях. Вы не потеряете много денег, если будете инвестировать, опираясь на её идеи. “Onward: How Starbucks Fought for Its Life without Losing Its Soul”, Howard Schultz “Anything You Want: 40 Lessons for a New Kind of Entrepreneur”, Derek Sivers Две вдохновляющие истории двух совершенно разных бизнесов. Патрик Ленсиони «Пять пороков команды. Притчи о лидерстве» “Кто, решите вашу проблему номер один”, Джефф Смарт, Рэнди Стрит Две лучшие книги о найме и работе с людьми. А люди – это же самое главное в бизнесе? Мою с соавторами книгу в этот список вставлять нескромно, так что я её просто рядом поставлю. Список закончился выше. “50 бизнес-моделей новой экономики. Уроки компаний-единорогов”, Алексей Черняк, Михаил Иванов, Александр Горный P.S.: меньше книг, но с более подробным комментарием о каждой – в весеннем ролике на YouTube.
Показать полностью ...
6 262
283
Еще одна свежая книга, которая покрывает важный термин - . Poor data quality can cause major problems for data teams, from breaking revenue-generating data pipelines to losing the trust of data consumers. Despite the importance of data quality, many data teams still struggle to avoid these issues—especially when their data is sourced from upstream workflows outside of their control. The solution: data contracts. Data contracts enable high-quality, well-governed data assets by documenting expectations of the data, establishing ownership of data assets, and then automatically enforcing these constraints within the CI/CD workflow. This practical book introduces data contract architecture with a clear definition of data contracts, explains why the data industry needs them, and shares real-world use cases of data contracts in production. In addition, you'll learn how to implement components of the data contract architecture and understand how they're used in the data lifecycle. Finally, you'll build a case for implementing data contracts in your organization. Authors Chad Sanderson and Mark Freeman will help you: - Explore real-world applications of data contracts within the industry - Understand how to apply each component of this architecture, such as CI/CD, monitoring, version control data, and more - Learn how to implement data contracts using open source tools - Examine ways to resolve data quality issues using data contract architecture - Measure the impact of implementing a data contract in your organization - Develop a strategy to determine how data contracts will be used in your organization Компания Chad ищет инвестиции и я смотрел их pitch deck, пока у них как-то тухло по paying customers. Если попростому, то data contracts это договоренность между 2мя командами о схеме и типе данных. Например, вы забираете данные из backend OLTP. Инженеры решили поменять табличку, переименовали поле в таблицу и у вас упал ETL pipeline, ведь хранилище данных это . Вы его конечно почините, но так происходит часто и это влияете на качество дашбордов и в целом BI users experience. Поэтому data contract позволяет нам проактивно мониторить этот процесс. Инженеры в backend знаю как их изменения повлияют на хранилище данных. Можно это внедрить и обычным способом, например в git кто-то из дата команды должен делать code review, чтобы знать об изменениях, но это подходит для маленьких компаний.
Показать полностью ...
6 428
136
Свежая книжка по DE Data projects are an intrinsic part of an organization's technical ecosystem, but data engineers in many companies are still trying to solve problems that others have already solved. This hands-on guide shows you how to provide valuable data by focusing on various aspects of data engineering, including data ingestion, data quality, idempotency, and more. Author Bartosz Konieczny guides you through the process of building reliable end-to-end data engineering projects, from data ingestion to data observability, focusing on data engineering design patterns that solve common business problems in a secure and storage-optimized manner. Each pattern includes a user-facing description of the problem, solutions, and consequences that place the pattern into the context of real-life scenarios. Throughout this journey, you'll use open source data tools and public cloud services to see how to put each pattern into practice. You'll learn: - Challenges data engineers face and their impact on data systems - How these challenges relate to data system components What data engineering patterns are for - How to identify and fix issues with your current data components - Technology-agnostic solutions to new and existing data projects - How to implement patterns with Apache Airflow, Apache Spark, Apache Flink, and Delta Lake URL: (по подписке доступна ранняя версия)
Показать полностью ...
5 883
159
Arch.Meetup by Sber: современное управление архитектурой данных – регистрация открыта ✅ Уже 11 сентября в офисе Сбера и онлайн вместе с ИТ-архитекторами, data-инженерами и спикерами из трех IT-компаний поговорим об архитектуре данных и ее роли в управлении данными.   В программе – сразу 3 доклада, нетворкинг с большим архитектурным сообществом, выставка новых продуктов и технологий Сбера и фуршет. О чем поговорим?   ▪️Есть ли Архитектура данных за пределами хранилищ? ▪️Как моделировать данные на Enterprise-уровне? ▪️Как архитектура помогает в вопросах инвентаризации данных? ▪️Что такое Data API и почему мы часто говорим об интегрируемости данных?    👉🏻 Подробная программа и регистрация – по этой ссылке. Успей пройти регистрацию – количество очных мест ограничено.
Показать полностью ...
6 919
85
Хорошая визуализация как работает giveaway в Телеграмме. Как обычно был хороший intention у product managers но по факту вреда от него больше. Жалко, что реальные люди могут и не выиграть. По источнику трафика все приходят по URL, где то есть агрегатор каналов с призами наверно. 😑
7 778
4
Решили завтра сгонять в Seattle на пару деньков пока у детей не сильная загрузка. В среду в 6 вечера буду на с сидром и семьей, подходите пообщаемся про рынок Seattle/US.
7 875
2
Отвечаю очень развернуто на вопрос как стать дата инженером. В конце бонусом рассказываю про пользу сертификации, то есть бесполезность сертификатов при поиске работы.

IMG_8548.MP4

7 762
210
7 149
0
Вот и прошел наш 6ти дневный Surfalytics meetup в красивом Тофино на острове Ванкувер на берегу открытого Тихого океана. 6 дней пролетело незаметно, было 10 семей и каждый нашел свое, все попробовали серф и влюбились в это место как мы 9 лет назад. Мы были рады разделить эти дни с замечательной компанией и надеюсь в след году будет еще больше людей и еще больше дней. Instagram: 🌊🌊🌊

camp 2024.mp4

7 555
7
В итоге за три дня я смог полностью пересобрать модель безопасности для Snowflake, понять, как работает Permifrost, и разблокировать все задачи, связанные с добавлением новых объектов в хранилище данных. Заодно появился готовый проект для Surfalytics по использованию Permifrost, который мы будем изучать. —- PS: В чём ценность Permifrost и такого знания? Как мне видится, это отличная галочка в резюме для Analytics/Data Engineer. Очень полезная вещь для любого проекта в Snowflake и легко описывается в формате (Situation, Task, Action, Result). Этому мы тоже будем учиться в Surfalytics. А так интересно услышать от экспертов про: 1) Использовании Permiftost или альтернатив, как например , где можно создавать все объекта и давать права в одном месте 2) В целом про best practices RBAC 3) Как это делается в BigQuery, Databricks, Redshift и тп
Показать полностью ...
7 087
13
Я часто слышал и видел — утилиту для настройки прав доступа в Snowflake. Permifrost — это Python-инструмент для управления правами доступа в Snowflake. Основная документация по его использованию доступна в проекте и на PyPI. Разработан в GitLab. Одна из ключевых особенностей Snowflake — это удобное управление доступом с помощью . Внутри Snowflake у нас есть: - база данных; - внутри базы данных есть схемы; - внутри схемы есть объекты: таблицы, вьюхи, процедуры. Чтобы написать запрос, пользователь или сервисный пользователь должен иметь , например, на SELECT. Привилегий много, но для нас важно разделить их на категории READ, MODIFY и ADMIN — этого будет достаточно. Все привилегии назначаются не конкретному пользователю, а роли, и уже потом мы назначаем роль пользователю. Кроме DATABASE, ROLE, и USER есть ещё один важный элемент — это WAREHOUSE (вычислительный кластер). Часто для каждого сервиса можно выбрать свой compute, и таким образом легче отслеживать его стоимость. Для меня все эти DBA-штучки в Snowflake довольно запутанные, и, если сильно углубляться, можно потратить много времени на планирование модели безопасности. Безусловно, есть классные вещи, такие как IP Policy для пользователя — мы указываем список IP-адресов для сервисного пользователя, откуда могут приходить запросы. Dynamic Masking позволяет скрывать PII-данные для пользователей, у которых нет прав доступа к "красным" данным. Обычно всё это настраивается с помощью команд GRANT, но легко потеряться в деталях. Поэтому Permifrost очень удобен: мы просто создаём YAML-файл, в котором описываем уже существующие объекты: - ROLES (можно группировать по App, Base, Functional и т.д.; каждая роль может быть
_admin
,
_modify
, `_view`); - DATABASES; - USERS; - WAREHOUSES. После этого мы выполняем команду, и все GRANT/REVOKE обновляются. Обычно Permifrost разворачивается через Dockerfile и настраивается на запуск в GitHub Actions раз в сутки (на всякий случай, но если изменения редкие, то и расписание не нужно). Таким образом, все изменения прав происходят через YAML-файл и Pull Request, что делает их полностью прозрачными для всех. Пример статьи по теме: Пример реализации от Meltano: [GitHub link]() Теперь расскажу, как мне пришлось разбираться с этой штукой. В проекте, который мне нужно было просмотреть и подправить, где до меня консультанты внедряли Snowflake и dbt, необходимо было создавать новые таблицы и давать права на чтение. Но почему-то на следующий день все мои GRANTы пропадали. Потом я создал нового пользователя для BI и дал ему права на чтение всех баз данных, но на следующий день всё снова пропало. В документации и репозитории была информация о Permifrost, но не было самого YAML-файла с конфигурацией, и вообще было непонятно, как изначально создавалась структура в Snowflake. Но по названиям было очевидно, что использовался какой-то шаблон. Я написал консультантам, они ответили в духе «мы ничего не знаем, лошадь не моя». Мне всё равно нужно было создать модель безопасности и взять ситуацию под контроль. Очевидное решение — использовать Permifrost. Проблема была в том, что если я начну менять права, то мой Permifrost может забрать права у сервисных пользователей, баз данных и т.д. А я тогда ещё не до конца понимал, как всё взаимосвязано. Следуя любимым — Bias for Action, Ownership, Deliver Results — я сразу начал менять продакшн в 10 вечера. Сначала отвалился Fivetran, затем оказалось, что у меня нет даже пароля от сервисного пользователя Fivetran. Методом научного тыка я разобрался, как выстроить взаимосвязь между YAML-спеком и Snowflake, сбросил пароль пользователя, и вроде бы Fivetran заработал. На следующий день я сломал dbt, но потом всё пошло быстрее.
Показать полностью ...
6 541
15
7 095
2
7 310
1
Увидел в Linkedin и перевел его в chatgpt: Я прочитал прогноз, что к 2030 году 80% разработчиков программного обеспечения будут заменены ИИ (или, что в противном случае, зарплаты сильно снизятся). Я также посмотрел видео на YouTube, где один парень заказал приложение у разработчиков, работающих с no-code решениями, которые оказались быстрее, дешевле и лучше, чем обычные разработчики. Я использую и Copilot, и ChatGPT в своей работе, но все же считаю себя разработчиком программного обеспечения, и хотя я нахожу эти инструменты потрясающими, мне сложно представить, как подобные прогнозы и утверждения могут стать реальностью, особенно в такие короткие сроки. Буду благодарен за советы, чего я не замечаю! Какие-то конкретные прорывы или разработки помимо Copilot и ChatGPT, рабочие процессы или интеграции? Вопрос понятный и актуальный. Мне понравился коммент от Gergely Orosz (автор The Pragmatic Engineer): Обратите внимание на то, кто делает такие прогнозы. Я вижу подобные предсказания почти исключительно от людей, работающих в компаниях с венчурным финансированием, создающих такие инструменты (их успех зависит от этого прогноза), от венчурных инвесторов, вкладывающих средства в те же компании, и от людей, которые не занимаются разработкой день за днем с использованием этих инструментов. Я спросил разработчиков, которые используют эти инструменты каждый день, и почувствовал суровую реальность по сравнению со всем этим хайпом: ссылка. От себя добавлю, что мне сложно предсказать, что будет с индустрией через пять лет. Возможно, такие опытные специалисты, как я, с пятнадцатилетним стажем выполнения примерно одних и тех же задач, будут востребованы в каком-то объеме. Однако начинать карьеру в качестве junior analyst в 2030 году, скорее всего, станет сложнее. Возможно, не столько из-за AI, сколько из-за количества кандидатов на рынке, которые прошли (и заплатили большие деньги) курсы и получили сертификат, подтверждающий, что они готовы "грызть" данные. Сейчас я на собственном опыте вижу, что ChatGPT и Copilot иногда помогают мне выполнять работу быстрее, но явно не лучше. Качество работы зависит от опыта и навыков. Например, у меня на велосипеде почти год не работал гидравлический тормоз. Я пытался его починить в мастерской, но мне говорили, что придется ждать неделю, чтобы просто прокачать масло. В итоге, времени все не хватало. И тут я зашел в небольшой магазин, и мастер за 5 минут и 10 долларов устранил проблему. Оказалось, что на моем gravel bike можно регулировать ручку тормоза под длину пальцев, и у меня она была неправильно настроена, из-за чего тормоз не работал. То есть, у него многолетний опыт, и он видит всю картину целиком. Я бы заплатил ему и 50 долларов за 10 минут работы, потому что он действительно профессионал в своем деле. Возвращаясь к AI, по моему скромному мнению, эти инструменты пока еще плохо воспринимают (бизнес-) контекст и общую картину. Они решают точечные задачи и автоматизируют узкие бизнес-процессы (например, поддержку). В аналитике, как правило, очень широкий и уникальный контекст. AI может создать pipeline, дашборд, собрать метрики, но пока это еще далеко от реальности, и крупные компании не скоро смогут это внедрить. До сих пор многие компании используют Teradata/Oracle с 90-х годов. У них огромные бюджеты на AI, которые раньше тратились на ML, Big Data, Cloud и т.д. В целом, нам не стоит беспокоиться по этому поводу, ведь мы не можем контролировать этот процесс. Но мы можем контролировать свою гибкость и всегда быть открытыми к новому (гибкое мышление), чтобы учиться и развиваться, о чем я часто пишу в этом канале. Нашим детям будет сложнее, и все, что мы можем сделать для них — это создать комфортные условия для учебы и спорта. Математика, чтение, языки и спорт — и все будет отлично! Ладно, а как вы себе представляете AI-апокалипсис? Лично я больше боюсь землетрясения, которое уж точно лишит всех работы в IT, как это уже бывало раньше -
Показать полностью ...
7 907
64
Пора узнать аудиторию получше Исследования аудитории необходимы, если бизнес не хочет тратить рекламный бюджет впустую. Когда проводить исследования, как они устроены и чем полезны — разберём 5 сентября на бесплатном вебинаре. Вы узнаете: ✅ Как на основе данных об аудитории оптимизировать рекламные кампании ✅ Как строится аналитика на данных Big Data МТС ✅ Как находить тех, кто мог увидеть наружную рекламу и стал клиентом компании ✅ Какую информацию о пользователях анализировать в зависимости от задач бизнеса Спикер — руководитель проектов исследований МТС Ads. Расскажет, как применять результаты исследований на практике, покажет кейсы и ответит на вопросы слушателей. 📅 5 сентября в 12:00 МСК 📌Онлайн Участие бесплатное, но нужна регистрация. Зарегистрироваться Реклама. ПАО «МТС» ИНН 7740000076
Показать полностью ...
5 955
13
7 321
4
Последние несколько лет ежедневные стендапы по 20-30 минут стали для меня невыносимы. Они бывают разными: • Каждый день можно выходить к доске и переклеивать sticky notes, если вы работаете в офисе. • Online-встречи с коллегами, где каждый делает вид, что рассказывает, что он сделал вчера и что будет делать сегодня. • Иногда проходят встречи для cross-команд, и тогда эта канитель занимает не 15-20 минут, а 30-40 минут. У нас было так: нужно было назвать следующего человека, вести учет из 20-25 людей, кто уже говорил, а кто — нет… Для меня это был настоящий челлендж. • Когда я работал на ГКНПЦ им. Хруничева в должности мастера участка механообработки, каждое утро я обходил токарей, фрезеровщиков и слесарей, жал им руку и спрашивал про прогресс. К сожалению, они не собирались у доски, и мне приходилось искать их по цеху. Это тоже был своеобразный, но бесполезный стендап. В общем, за последние два года я осознал, насколько круто проводить полностью асинхронные стендапы, где каждый пишет в thread в Slack о своём прогрессе. Это сразу освобождает больше времени на работу. Кстати, такой метод внедрил один из моих бывших менеджеров, который много лет проработал в Meta, а до этого вышел на IPO вместе с Lyft и смог купить домик в Сиэтле за 4 миллиона долларов. Он был противником бесполезных встреч и сделал все нудные процессы полностью асинхронными. Это оказалось очень эффективно. Очевидно, что это хорошо работает с опытными специалистами. А как быть с новичками и стажерами? Здесь лучше иметь onboard-бадди или ментора, который будет работать с ними над задачами. Теперь у меня всё просто: если на митинге больше четырёх человек, включая меня, на 99% он бесполезен, и можно не ходить. Точнее, присутствовать надо, но мыслями и делами быть в другом месте, то есть заниматься работой. А как у вас обстоят дела с ежедневными стендапами и другими церемониями?
Показать полностью ...
7 923
97
10 лет назад все бежали в public cloud, а теперь повернулись на 180 градусов и бегут из public cloud. Интересный тренд. Думаю мы еще увидим много интересного как тренды меняются. Может оно и хорошо, что в РФ Яндекс и ВК облака еще не так сильно популярны, так сказать проскочили тренд и теперь снова в тренде на on-premise:)
7 900
75
Несмотря на то, что Snowflake хороший продукт, у него много проблем с экономикой, которая не сходится. Изначально продукт был очень сильно раздут и мы видим как цена акций падает. А следовательно мотивация многих людей тоже может падать, ведь их total comp зависит как раз от цены компании. Перевод поста: Непопулярное мнение о #snowflake. Уоррен Баффет известен тем, что никогда не инвестирует в программное обеспечение, но сделал исключение для Snowflake. Вероятно, он больше никогда не будет инвестировать в ПО, учитывая текущие результаты (цена ниже уровня IPO, отрицательная доходность за 4 года). На мой взгляд, у Snowflake есть две большие проблемы: 1) Структурная: Snowflake должен был следовать тому же пути, что и Марк Бениофф в Salesforce. Марк обещал, что весь рынок CRM на базе локальных решений перейдет в облако, но через 25 лет только около 50% рынка находится в облаке. Марк быстро расширялся, приобретая крупные смежные бизнесы, такие как ExactTarget (автоматизация маркетинга), Mulesoft (API, обработка данных), Tableau (BI), ClickSoftware (и чуть было не LinkedIN). Фрэнк Слутман отлично справился с задачей, заработав более $3 млрд на начальном кейсе использования облачного хранилища, но упустил возможность создания платформы. Кроме того, доходы компании полностью включают затраты на облако, так что это не чистый доход от ПО. Множитель должен быть больше похож на облачного провайдера, а не на SaaS/инфраструктуру. Возможно, он неправильно оценил Snowflake, исходя из своего опыта в ServiceNow, которая является действительно устойчивой платформой. Snowflake следовало бы приобрести Confluent, Alation (каталог), Grafana Labs (BI + наблюдаемость), чтобы упомянуть лишь некоторых. Или сделать ставку на стартапы баз данных ClickHouse или PG. Также стоило бы агрессивно консолидировать MDS (современный стек данных), чтобы вытеснить Databricks. Более дешевые альтернативы Fivetran, DBT, Monte Carlo и т.д. Боюсь, что сейчас уже слишком поздно. 2) Тактическая: Databricks конкурирует с более дешевым озером данных и множеством вариантов запросных движков. Кроме того, в настоящее время клиенты хотят решения на основе "GenAI", и с учетом наследия структурированных данных, Snowflake не является первым местом, куда клиенты обращаются за AI. И мы наблюдаем как Snowflake превращается в Enterprise компанию. Мне нравится коммент от CEO Databricks: All these years they kept saying that Snowflake's sales team is formidable. But the truth is that you need a technical sales team. Our CRO literally has a graduate degree in engineering from Stanford and can code. This makes all the difference in the world... Все эти годы говорили, что у Snowflake мощная команда продаж. Но на самом деле вам нужна техническая команда продаж. Наш CRO имеет диплом инженера из Стэнфорда и умеет программировать. Это меняет все… А как вам видеться противостояние 2х компаний?
Показать полностью ...
7 384
39
У Microsoft утекли зарплаты в США. В принципе зарплаты похожи на реальность, в Канаде все тоже самое но в Канадских долларах, и на 15-20% меньше. Источник Чтобы было понятно: 61, 62 - middle 63, 64 - senior 65, 66 - principal (staff нет позиции) Более детально по уровням можно смотреть на levels fyi сайте, там можно сравнить другие тех компании и их роли. Еще в Microsoft нет позиции Data Engineer, это Software Engineer. В описании позиции сложно понять, что будет делать человек, и только по стеку можно догадаться, что это про “хранилище данных”. Но как правило будет C# и Windows ноутбук. Навыки сложно конвертировать за пределами Microsoft. Внутри Microsoft ужасный refer, если в Amazon можно было прыгать из команды в команду легко, то в Microsoft это практически не возможно, менеджеры ничего не могут сделать и просто вам не отвечают.
Показать полностью ...
8 358
238
На этой неделе у нас будет потрясающий 5-дневный лагерь Surfalytics Surfing + Data в . Это одно из самых красивых мест в Северной Америке с особой атмосферой 💕. Что мы будем делать? ✅ серфинг для взрослых и бодисерфинг для детей ✅ рыбалка со скал на ужин ✅ походы ✅ велопрогулки ✅ сапсерфинг ✅ сауна ✅ ежедневный книжный клуб на 60 минут ✅ вечерние обсуждения данных ✅ обмен знаниями ✅ некоторые участники запланировали интервью на эти дни и могут воспользоваться коллективной помощью ;) PS Когда то я просто мечтал, как было бы круто так сделать, а сегодня я это делаю! Не стесняйтесь в своих хотелках🏄‍♂️
Показать полностью ...
9 807
13
Это значит что в эту неделю не будет тикетов
566
3
В субботу мы с Ромой Буниным очень классно посидели онлайн, 2,5 часа пролетело не заметно. За это время он меня пособеседовал на позицию BI разработчика/Аналитика и рассказал про зарплаты в Амстердаме. Рома очень классно проводит собеседование и у него высокие ожидания по разработке дашбордов, качеству визуализации, и главное коммуникации с бизнес пользователями, чтобы докопаться до сути бизнес проблемы. И вообще у него высокий emotional intelligence и сильные soft skills, что делает его классным лидером для своей команды и компании. На интервью: - работал в Tableau - писал SQL - рассказывал на пример дашборда о его проблемах и возможностях улучшений - пострарался решить бизнес кейс и сам увидел на своем опыте как сложно быть аналитиком Ссылка на пост и видео UPD: ссылка на dzen
Показать полностью ...
Reveal the Data
😎 Мокап: Инжиниринг Данных edition В комментариях к предыдущему видео с интервью Дима Аношин предложил провести такое же с ним. Встречайте! Получилось очень интересно и полезно. Специализация Димы — дата-инженер, но он справился с интервью лучше, чем многие BI-аналитики. Потому что опыт не пропьешь — Дима когда-то работал BI-аналитиком, да и инженеры данных работают рядом с BI. А ещё он спец как ввести себя на интервью и использовал много классных приёмов (их разберу в посте завтра). 🍿Запасайтесь поп-корном или кофе и поехали! 👉 Видео на Ютубе 👈 0:00 — План и small talk 2:00 — BI-инструмент и SQL 38:52 — Основы дизайна 54:50 — Бизнес-кейс 1:17:55— Обратная связь, обсуждение работы за рубежом По просьбам залил ещё на дзен. @revealthedata @rockyourdata
8 328
84
Вебинар «От сырых данных до готового AI-сервиса за 10 минут» 30 августа в 17:00 будем разбирать и выполнять тестовое задание ML-инженера в BigTech. На собеседованиях в ИТ часто встречаются задания в стиле «описать путь от модели в локальном Jupyter-ноутбуке до готового сервиса, к которому можно обращаться по API». На вебинаре поговорим о способах решения подобных задач и о том, как сделать из любой ML-модели готовый сервис. Дополнительно разберем основные принципы и инструменты MLOps. Вебинар будет полезен ML и MLOps-инженерам, Data Scientists, DevOps- и Data-инженерам, менеджерам технических продуктов. Программа 🔹 Создаем готовый ML API в Jupyter-ноутбуке. 🔹 Проводим версионирование модели, разбираем возможности и функции MLflow. 🔹 Налаживаем жизненный цикл модели. 🔹 Организовываем хранение ML-артефактов и пространство для командной работы над библиотекой моделей для разных задач. Регистрируйтесь на вебинар — мы пришлем ссылку на трансляцию в день мероприятия, а после вышлем запись.
Показать полностью ...
8 810
62
Так, минутка инноваций в области управления, чтобы не было косяков как выше и и все дружно плодотворно хорошо работали, желательно за маленькие деньги (деньги портят людей🫣) Встречайте, Trauma-Informed Если что Trauma-Informed Analytics & Data Engineering я уже занял. Но для вас есть опции: ->Trauma-Informed Excel Analytics ->Trauma-Informed burnout ->Trauma-Informed 1С разработка Из ЖПТ: Trauma-Informed — это подход, который учитывает воздействие травмы на человека и ориентирован на создание безопасной, поддерживающей среды, способствующей восстановлению и благополучию. Этот подход особенно важен в таких сферах, как образование, здравоохранение, социальная работа и психотерапия. Он включает понимание того, как травматические события могут влиять на поведение, эмоции и когнитивные процессы человека, и адаптирует методы взаимодействия с учетом этих факторов. Основные принципы Trauma-Informed подхода включают: 1. Безопасность: Создание физически и эмоционально безопасной среды для всех участников. 2. Доверие и Прозрачность: Поддержание доверительных и честных отношений, открытая коммуникация и уважение к личным границам. 3. Поддержка: Обеспечение эмоциональной поддержки и оказание помощи в восстановлении после травмы. 4. Сотрудничество: Включение человека в процесс принятия решений, уважение его выбора и предпочтений. 5. Учет культурных, гендерных и исторических факторов: Признание и уважение различий, связанных с культурным, гендерным или историческим контекстом. 6. Предотвращение повторной травматизации: Избегание ситуаций, которые могут напомнить о травме и вызвать повторное переживание травматического опыта. Этот подход способствует не только улучшению эмоционального состояния и качества жизни человека, но и более эффективному взаимодействию и предоставлению услуг.
Показать полностью ...
8 425
18
Недавно в LinkedIn увидел реплику, что лучший data лидер, тот кто умеет говорить НЕТ. Очень легко говорить на все ДА, over promising, так сказать, но нагрузка ложится на команду, и часто это может быть операционка, которая вообще не вперлась для дата команды. Как результат, если всегда говорить ДА всем, то создаются нереалистичные ожидания и начинает страдать work life balance (что видет к проблемам с mental health, или по нашему вы просто за…етесь работать в таком режиме и не успеваете отдыхать), а дальше вариантов несколько для инженеров: 1) продолжать работать в таком режиме от безвыходности 2) свалить нафиг в никуда, если финансы позволяют 3) пытаться найти новую работу и желательно чтобы ЗПшка была +20% как минимум (кстати рабочий вариант) Как результат long term будет большой fail ну или по простому бабки сжигаются на дату команду и value (КПД) низкое. Чтобы фигачить в таком режиме должен быть очень высокий инцентив, например если это ваша компания или у вас компенсация в год такая, что любая альтернатива и рядом не стояла, и тогда буду силы дальше делать nonsense работу в ущерб своему спокойствию. Главные не срываться на семью и детей, когда на работе все полыхает, а мы вымещаем эмоции на семью. Интересно узнать что матерые манагеры думают? На западе я заметил, что инженеры как дети, захотели свалили, а менеджеру разгребать. Но я не менеджер и могу свалить😼
Показать полностью ...
7 354
40
Что такое VCS и как с помощью неё уменьшить косты бизнеса? Version Control System (VCS) — это система управления версиями, которая позволяет отслеживать изменения в коде софта или других файлах проекта. С VCS вы можете вернуться к любой предыдущей версии софта, просмотреть историю изменений, а также работать над проектом в команде, избегая конфликтов. Эта система позволяет разработчикам эффективно управлять проектами, независимо от их размера и сложности, экономя время и деньги. Таким образом, это повышение эффективности в управлении ресурсами дает компании возможность уменьшить косты. Плюсы использования: 1️⃣История изменений — можно легко отследить, кто и когда вносил изменения, и откатиться на любую предыдущую версию; 2️⃣Параллельная работа — разработчики могут работать над разными частями проекта одновременно, не мешая друг другу; 3️⃣Резервное копирование — ваш код всегда будет безопасен, так как его копии хранятся на удаленном сервере; 4️⃣Простота коллаборации — легко делиться кодом с другими участниками команды; Минусы использования: 1️⃣Кривая обучения — для новичков VCS может показаться сложным; 2️⃣Конфликты слияния — при работе над одними и теми же файлами могут возникать конфликты, которые нужно вручную разрешать; Основные поставщики: 1️⃣GitHub — крупнейший репозиторий кода, предоставляющий как платные, так и бесплатные тарифы; 2️⃣GitLab — аналог GitHub с расширенными функциями DevOps; 3️⃣Bitbucket — поддерживает работу с приватными репозиториями бесплатно для небольших команд; 4️⃣Azure Repos — часть экосистемы Microsoft Azure, интегрируется с другими сервисами Microsoft; Использование VCS — это ключ к эффективному управлению проектами и командной работе. Внедряя VCS в свои процессы, вы значительно упростите разработку и повысите её качество.
Показать полностью ...
6 910
17
История из жизни. Говорю директору у нас тут полный треш (tech debt, open source, операционка, все падает каждый день и вообще какая-то сухо…чка) и вообще нет никакого инцентива продолжать все это, и типа я сваливаю, давай до свидание. А он говорит, реально треш, надо валить, и спрашивает нет ли у меня вариантов для него🤣
6 290
48
Я решил под конец дня выполнить недельный план и вместе со стажером и ChatGPT запушить код, но к сожалению GitHub умер на самом финише. Я думаю у многих проблемы, ну можно закрывать ноут и гулять, еще лето! И надо переходить на импортозамещение Статус
6 914
4
И как раз Smart Data опубликовала мой доклад про архитектуры решений, которые я строил и вообще про срез знаний моей бурной data engineering деятельности. Я выступал у них 3 раза уже, но в этот раз без меня 😔. Вообще изначально главная идея телеграмм канала была именно писать контент на русском и летать в Москву/Питер выступать на конференциях. Очень надеюсь в будущем так и будет и выступлю на конференции в Москве и чего-нибудь расскажу, чему-нибудь научу📊
Показать полностью ...
Дмитрий Аношин — Примеры реальных аналитических решений и дата-команд в западных компаниях
Ближайшая конференция — SmartData 2024, 4 сентября (online), 8–9 сентября, (Москва + трансляция). Подробности и билеты: https://jrg.su/KFFBS7 — — Скачать презентацию с сайта SmartData — https://jrg.su/lwPwvf Дмитрий работает кем-то вроде консультанта по внедрению современных аналитических решений как open source, так и коммерческих — Databricks, Snowflake. Кроме создания аналитических решений и архитектур для обработки сотен терабайт данных в различных индустриях, он также уделяет внимание аналитическим командам. В докладе Дмитрий не учит вас, что правильно, а что нет, или как лучше создать аналитическое решение — в облаке AWS или Azure. Он делится рабочим опытом и наблюдениями их разных проектов. Для каждого проекта он рассказывает про типовую архитектуру, взаимоотношение с бизнес-пользователями и размер аналитической команды, а также про соотношение инженеров\аналитиков\менеджеров. А еще говорит про косяки и другие забавные вещи.
7 614
71
Программа SmartData 2024 полностью готова! Конференция по инженерии данных пройдёт 4 сентября онлайн и 8–9 сентября в Москве с возможностью подключиться дистанционно. Участников ждут 42 выступления от опытных разработчиков и инженеров, дискуссии, BoF-сессии, Lightning Talks, а также игры и конкурсы от партнеров и афтерпати. Темы докладов: ✔ Database Internals ✔ Use Cases ✔ Data Management ✔ Data Tools ✔ DataOps ✔ Streaming ✔ Architecture of Data Platforms ✔ Data Management ✔ Cosmos Уже сейчас можно оценить, , и принять решение о . По промокоду
ROCKYOURDATA
вы получите скидку 15% на билеты «Для частных лиц». Но выгоднее будет поучаствовать в конференции за счет компании. В есть аргументы, почему это будет выгодно не только вам, но и работодателю. До встречи на SmartData! Реклама. ООО «Джуг Ру Груп». ИНН 7801341446
Показать полностью ...

IMG_8217.MP4

7 261
39
Начал активно нанимать в BP в Куала- Лумпуре, столице Малайзии. Визу делаем. Нужны дата-аналитики (мидлы-синьоры-стафы), Дата Инженеры (мидлы-синьоры-стафы-принципал), МЛ Инженеры (мидлы-синьоры-стафы-принципал) Если есть желание, резюме можно прислать на
7 159
52
По моему мнению, сейчас для всех людей кто начинает работать с данными в контексте аналитики важно с первого дня обучения или работы по профессии знать следующие вещи: - Командная строка (CLI), та самая, которая у вас могла быть в школе на информатик в CMD. Сейчас если у вас MacOS, то
Zsh
с приятными плагинами Oh My Zsh, если Windows, то сразу ставьте Ubuntu WSL. - Среда разработки (IDE), самый лучший вариант это VSCode. Бесплатно и есть плагины для всего. Отлично подойдет, чтоб редактировать файлы, писать код и запускать окошко с командной строкой. - Git система. Самая популярная и бесплатная это GitHub. Создайте себе аккаунт и каждый день делайте туда commit, через branch, чтобы потом сделать Pull Request. А еще вы можете бесплатно запостить свой сайт про себя, использую GitHub Pages. - Markdown - очень просто текстовый язык. Используйте его, чтобы создавать в каждой папке в вашем репозитории GitHub файлик
readme.md
и там описывайте шаги, храните код. Намного полезней, чем Google Doc. Конечно не так удобно как Notion, но пользы лучше. И в конце-концов ваш GitHub профайл, это ваш актив. - Контейнеры, используйте Docker File, потренируйтесь создавать к `DockerFile и потом к нему подключаться. Как правило все эти навыки не обязательны для аналитиков и BI разработчиков. Но это будет ваше преимущество и откроет вам много возможностей в будущем. А так же вы сможете быстро “въехать” в существующие проекты и понять, что где хранится и для чего делает, но и разговаривать на одном языке с инженерами. Да и быстрей станете сами инженером, ведь им платят больше! PS Обо всем этом я рассказывал в Surfalytics (на английском) с упражнениями и примерами. В я рассказывал про роли и roadmap. А сейчас уже записываю и во 2м уроке мы использовали SQLite, Postgres на локальной машине, а потом тоже самое но в Docker контейнере. Возможно вам будет сложно на английском, но мой английский с русским акцентом вам должен быть понятен, и сам навык английского очень важен, я еще в 2010 году читал Kimbal на английском и различные блоги и документацию. Поэтому Surfalytics для вас как бесплатный сериальчик на английском с субтитрами. А если прям хотите каждый день практиковаться, приходите в Surfalytics сообщество. PPS еще есть замечательная книга которая на пальцах рассказывает, что зачем для junior software engineer. Подписывайтесь на YouTube, это мне поможет, я верю, что материал хороший, но сложно сейчас пробиться с 0, поэтому like, follow очень помогает!
Показать полностью ...
Surfalytics-Module0
Share your videos with friends, family, and the world
8 985
220
Ребята из впервые проводят большое исследование специалистов, работающих в направлениях DS/ML/AI: - что входит в обязанности той или иной профессии - какие навыки наиболее важны и каких знаний не хватает - сколько зарабатывать специалисты в зависимости от опыта и грейда - а так же полезные для развития каналы, курсы и книги Проходите опрос, рассказывайте про ваш опыт и помогите сделать исследование максимально охватным. Его результаты появятся в открытом доступе в конце сентября, и помогут вам сравнить свои ожидания с рыночными, построить план своего развития, и просто понять, что происходит с индустрией! 👉 PS не реклама, просто дружеский пост.
Показать полностью ...
Недушные рисерчи российского IT от Егора Толстого и Анны Симоновой, которые опросили уже 10000 айтишников
7 979
14
Если ты системный аналитик с глубокой технической экспертизой, ждём тебя в команду SberDevices! 🖥 Мы занимаемся разработкой умных устройств, виртуальных персонажей и продуктов на основе голосовых и речевых технологий. В твой скоуп задач будут входить ⤵️ ▪️ Анализ, разработка и согласование требований к новому функционалу, доработка существующих модулей системы, описание API и протоколов, реализация задач по интеграции со сторонними сервисами. ▪️ Участие в разборе инцидентов, анализ причин и последствий. ▪️ Описание сценариев приёмочных испытаний реализованного продукта. Читай подробности и 👌
Показать полностью ...
7 522
20
Приходите на ML-тренировку Data Dojo Яндекса, которая пройдёт 14 августа в Петербурге! На событии для начинающих в ML- и DS-сферах сможете послушать доклады победителей соревнований, узнать их лучшие решения и разобрать пару задач на офлайн-зарешке. Среди спикеров: 🔹 Эдуард Мартынов, ВМК МГУ. Расскажет про обучение трансформеров для дискриминативных задач. 🔹 Александр Перевалов, HTWK Leipzig. Объяснит, как решать задачу извлечения данных, понимания и ответов на вопросы на основе таблиц из отчётности организаций. 🔹 Никита Синчинов, ML разработчик Яндекс. Поделится, как выиграть серебро, используя лик предоставленных в данных. Перед стартом докладов разберёте несколько задач с руководителем группы разработки Лаборатории машинного интеллекта Яндекса Радославом Нейчевым. А после — нетворкинг. Для тех, кто не сможет прийти лично, будет трансляция. Зарегистрироваться можно уже сейчас.
Показать полностью ...
8 850
24
Вот такие будут футблоки детские и взрослые. Дети уже себе выбрали картинки, осталось все этого загрузить в Shopify и интегрировать с print-on-demand сервисом.

TShirts.mp4

10 077
5
Для Surfalytics я уже закончил модуль 1 (он по счету 2й). В нем постарался понятным языком изложить всю суть аналитики и инжиниринга данных, чтобы было понятно вообще всем. Я рассказал, что такое аналитика и какие у нее цели, рассмотрел пример бизнеса и конвертировал его в аналитическое решение с несколькими слоями, зачем рассказал какая роль за что отвечает. Нарисовал Mindmap в котором указал все что важно/полезно знать, если в работаете с данными. Детально разобрал road map для позиций Data Analyst, Analytics Engineer, Data Engineer и несколько бонус ролей - Support Engineer, Sales Engineer, Data Advocate/Evangelist. Так же рассказал про виды дата команд и как они работаю в Agile, типичный пример про спринт из 2х недель. Рассмотрел самые популярные типы файлов (JSON, CSV, PARQUET и тп) и вообще разные файлы которые можно встретить в репозитории, такие как
.pre-commit.yaml
,
makefile
,
.gitignor
и тп. Рассмотрел аж 30 лет истории аналитических решений и ключевые инновации. В качестве проекта по классике мы начинаем с дашборда в spreadsheet (Microsoft Excel). Ссылка на playlist: Осталось еще 11 модулей🙃
Показать полностью ...

module1intro.mp4

10 554
98
Выше я просил скинуть ссылки для релокации и поиска работы за границей, вот результат: Телеграмм Каналы образование за рубежом - Вакансии от 200+ зарубежных компаний с русскоговорящими фаундерами или командами. Наши читатели уже получили 100+ офферов в InDrive, Revolut, Wheely, Finom и другие компании💙 - Рассказываем, консультируем и помогаем в получении ВНЖ Испании на 3 года. Связаться с нами и задать вопросы можно тут: . Наш сайт: []() Сообщество номадов, фрилансеров, IT да и просто хороших людей, в процессе эмиграции =) Задаем вопросы, делимся опытом и поддерживаем друг друга! O1 виза, EB1 EB2 NIW гринкарта Чат создан чтоб помогать участникам в подготовки и получения визы для релокации в том числе в США, Великобританию, Францию, Канаду и Австралию. Свежие новости: как и куда уехать, где получить ВНЖ и как забрать котика с собой. ✈️Канал по эмиграции/релокации Канал “Nomad” IT jobs with relocation assistance, international job search tips, relocation stories, and more. Official website: [](). Сайты - форум про Канаду и программы иммиграции - форум про Австралию Есть еще целый раздел как иммигрировать в Россию. Недавно мои знакомые в Канаде получили Российское гражданство. Мы их знаем лет 7 и все это время они хотели получить гражданство и это очень сложный процесс, но этим летом все получилось. Но к сожалению на концерт Агутина они опоздали☺️ В целом для каждой страны в каждый отдельный момент времени есть свои программы. Например в Канаду раньше были провинциальные программы, а вот сейчас все кого я знаю переехали через учебную программу. В Европе многие находят хорошие варианты по Digital Nomad визам в Португалии и Испании.
Показать полностью ...
8 843
240
Mindbox ищет Senior Data Engineer-ов, чтобы усилить команду внутренней платформы данных. Локация: можно полностью удаленно или из офисов в Москве/Ереване Деньги: до 500net Строим DeltaLake на Spark и подход DataMesh, чтобы доменные команды могли быстро и без посредников использовать данные друг друга для развития своих продуктов. Ожидаем: - Опыт решения сложных задач простым в поддержке и понимании кодом (ООП, SOLID, автотесты) - Знание Python как родного, опыт промышленной разработки на статически типизированных языках C#/Java/Scala/Kotlin/C++ У нас: - Современный Big Data стек - Выделяем существенный ресурс (>30% времени) на уменьшение техдолга и поддержки - Особенная культура: открытые зарплаты, право принять любое решение у каждого. Прямая обратная связь, возможность выбирать технологии и влиять на бэклог - Well-being-программы: 300 000 ₽ в год на софинансирование образования, медицины, спорта, путешествий. Ссылка на вакансию: Резюме присылать Кате
Показать полностью ...
Вакансия Senior Data Engineer в Москве, работа в компании Mindbox
Зарплата: до 500000 ₽. Москва. Требуемый опыт: 3–6 лет. Полная занятость. Дата публикации: 23.07.2024.
7 094
74
💫 Яндекс устраивает технологический Код-хоппинг 8 августа! Встретимся в Петербурге, чтобы потусить и послушать короткие лайтнинги от коллег. Переключимся с работы на живое общение — так мы сможем не только подзарядиться, но и поймать новые идеи! В программе — прогулка по трём барам, настойки и коктейли, codebattle, задушевные разговоры и крутая вечеринка! ✉️ Заполняйте форму и А если хотите рассказать о проекте или увлечении, приложите к форме тему и тезисы. До встречи на Код-хоппинге! 🎉
Показать полностью ...

IMG_8052.MP4

7 774
16
Всем привет! Поделитесь пожалуйста ресурсами (телеграмм каналами, сайтами, форумами, агентствами) которые помогают с переездом в Европу, США, Канаду, Южную Америку или может быть поделится своими историями. Будет полезно для всех подписчиков! Или можете мне в личку скинуть, я потом опубликую список а то бот трет ссылки; Спасибо!
8 677
18
И на всякий случай! Как казаться умным - Спрашивайте "А будет ли это масштабироваться?" независимо от темы разговора - Просите вернуться на один слайд назад без всякой причины - Побуждайте всех "сделать шаг назад" - Повторяйте последнюю фразу инженера, но очень медленно - Спрашивайте, задаем ли мы правильные вопросы - Ходите по комнате - Выйдите и сделайте вид, что получили важный телефонный звонок - Спрашивайте, не смешиваем ли мы несколько вопросов - Перебивайте чье-то обновление, а затем дайте им закончить - В онлайн звонке отправить emoji или reaction, и похвалить спикера - Спросить про следующие шаги и action plan - Уточнить сроки (dead line) - Спросить есть ли у нас OKR и как мы будем их измерить? - На всякие случай спросить, а результат точно имеет tangible output? Дополните список!
Показать полностью ...
12 249
285
Ну что тут говорить…. Все так🤱 Другой вопрос если с деньгами все порядке, можно себе позволить быть loyal или просто пилить стартапчик для души🍟
8 879
33
Сегодня я узнал новый термин - Data Clean room. Вообще никогда не слышал. Оказывается популярная штука: Databricks: Snowflaek: Big Query: Возможно опять buzz words и hype, и вендоры как обычно пользуются непониманием 😒 По факту это возможность предоставить данные в безопасной среде, где можно применить data masking, раздать права и производить мониторинг/аудит. Все 3 вендора выше имеют функциональность Data Sharing. Но из статей вообще не понятно о чем они… Кто нибудь строил clean room? Именно задача была сделать clean room (то есть термин использовался)
Показать полностью ...
What Is a Data Clean Room? | Databricks
Discover how Databricks' Clean Room enables secure data collaboration and analysis while maintaining privacy and compliance.
7 846
36
в 20:00 начинаем
7 007
1
Продолжаем нашу тему про Lakehouse. Самое важное это формат таблицы (table format). Формат таблиц — это метод структурирования файлов набора данных, чтобы представить их как единую "таблицу". Основная цель формата таблиц — предоставить абстракцию, которая позволяет пользователям и инструментам легко и эффективно взаимодействовать с данными. Форматы таблиц существуют с момента появления реляционных СУБД, таких как System R, Multics и Oracle. Эти системы позволяли пользователям обращаться к набору данных как к таблице, абстрагируя сложные детали хранения данных на диске. В современных системах большие объемы данных хранятся как файлы в хранилищах данных (например, Amazon S3, Azure Data Lake Storage, Google Cloud Storage). Использование SQL или кода для работы с этими файлами может быть неудобным и приводить к несогласованности данных. Изначально изобрели Hive и он стал стандартом формата таблиц. Hive был разработан Facebook в 2009 году для упрощения аналитики в Hadoop, предоставляя возможность писать SQL-запросы вместо сложных задач MapReduce. (MapReduce писался на Java🫣) Формат таблиц Hive определяет таблицу как все файлы в указанной директории и использует Hive Metastore для отслеживания этих таблиц. Простой пример: Если вы запустите Apache Spark локально и создать с помощью Spark SQL таблицу или вью, то метанные сможете найти в Hive Metastore. В Databricks Hive тоже по умолчанию, но там лучше подключить Unity Catalog. В AWS Glue, лучше использовать Glue Catalog и тд. А так все это про метанные и их управление. Преимущества Hive: - Поддержка более эффективных запросов благодаря техникам, таким как разделение и хеширование. - Независимость от формата файлов, что позволяет использовать такие форматы, как Apache Parquet. - Возможность атомарных изменений на уровне разделов таблицы. Недостатки Hive: - Неэффективность изменений на уровне файлов. - Отсутствие механизма для атомарного обновления нескольких разделов. - Проблемы с одновременными обновлениями. - Замедление запросов из-за необходимости чтения и списка файлов и директорий. - Ограниченные статистические данные для оптимизации запросов. - Проблемы с производительностью при большом количестве файлов в одном разделе. Современные форматы таблиц, такие как Apache Iceberg, Apache Hudi и Delta Lake, решают проблемы Hive, определяя таблицы как канонический список файлов, а не директорий. Это позволяет реализовать функции, такие как транзакции ACID и "путешествие во времени". (Прям как у Snowflake😏) - Apache Iceberg: Разработан в 2018 году в Netflix для обеспечения ACID-транзакций и улучшения производительности при работе с большими данными в озерах данных. - Apache Hudi: Создан в 2016 году в Uber для поддержки инкрементных обновлений и предоставления ACID-гарантий в больших наборах данных. (Наиболее устаревший) - Delta Lake: Создан Databricks в 2019 году для обеспечения надежных транзакций и управления данными в озерах данных, улучшая их производительность и надежность. Преимущества современных форматов таблиц: - Поддержка транзакций ACID. - Безопасность транзакции при одновременной записи в файл - Сбор статистики и метаданных для более эффективного планирования запросов. Поэтому работая с данными сегодня, вы будете работать либо с аналитическим хранилищем данных (не важно, что у них внутри) BigQuery, Redshift, Snowflake и тп, либо использовать Lakehouse решения и один из 3х популярных открытых форматов данных. Таким образом scope инженера данных и не такой-то уж и большой. Лучший вариант понять все это - сделать pet проекты. Взять один сценарий и реализовать его разными способами, даже если на входе всего 100 мб JSON файлов. Мне кажется 30-40% типичного собеседования на дата инженера проходи за обсуждение плюсов и минусов того или иного решения.
Показать полностью ...
7 973
90
Увидел вакансию VP data на зарплату до 217к CAD. При этом иногда Sr Data Engineer 180к-200к, чтобы несколько часов в день код пописать, баги пофиксить и дальше своими делами заниматься и митингов 4 штуки в неделю. Вы точно хотите быть VP в Канаде?!🫣
7 085
32
Теперь про Data Lakehouse Архитектура data lakehouse объединяет преимущества хранилищ данных и озер данных, предоставляя высокую производительность и простоту использования, а также низкие затраты и гибкость. Основные преимущества Data Lakehouse: Сочетание хранилищ и озер данных: Data lakehouse использует механизмы, которые позволяют реализовать функции, характерные для хранилищ данных (гарантии ACID, лучшая производительность, консистентность), на основе инфраструктуры озер данных. Единое хранилище данных: Данные хранятся в тех же местах и форматах, что и в озере данных, но за счет нового формата таблиц улучшаются производительность и гарантии ACID. Уменьшение копий данных: Благодаря ACID-гарантиям и улучшенной производительности можно выполнять обновления и другие манипуляции с данными в lakehouse, снижая количество копий данных и, соответственно, затраты на хранение и вычисления. Быстрые запросы: Оптимизации на уровне движка запросов, формата таблиц и формата файлов позволяют получать инсайты быстрее. Исторические снимки данных (snapshots): Форматы таблиц lakehouse позволяют сохранять исторические снимки данных, что облегчает восстановление и проверку данных. Экономичность: Data lakehouse помогает снизить затраты на хранение и вычисления по сравнению с традиционными хранилищами данных. Открытая архитектура: Использование открытых форматов, таких как Apache Iceberg и Apache Parquet, предотвращает зависимость от поставщиков и позволяет использовать различные инструменты для работы с данными. Если по простому, то Lakehouse это взять лучшие свойства Data Warehouse и лучшие свойства Data Lake и смешать их. Lakehouse = DW + DL. Самый яркий пример Lakehouse это Databricks. Что такое Databricks? Это просто визуальные машины со Spark, которые читают данных из облачного сториджа (AWS S3, Azure Storage, GCP bucket). Если данные у нас в формате Parquet, ORC, CSV, JSON, то это просто обычное озеро данных. А вот если мы будем использовать специальный формат таблицы (table format) Delta, Iceberg, Hudi, то уже Lakehouse. Другой пример такой архитектуры это Snowflake. Мы привыкли, что Snowflake это хранилище данных, хотя по факту это такой же decouple между Storage (sharing everything) и Compute (sharing nothing). Единственный минус (он же и плюс) - данные хранятся в свое собственном формате, чтобы клиенты из-за высоких расходов кредитов не убежали к Databricks🤱 Еще пример Lakehouse: - AWS Athena + Iceberg - Trino + Iceberg - Synapse Serverless + Delta Выбор как это хостить: - ( Managed Service) ( Пример Athena, Synapse Serverless, GCP Dataproc Spark, EMR Servrless, AWS Glue) - (Managed) Kubernetes (Пример Trino, Clickhouse, DuckDB) - PaaS (Пример Databricks, AWS, EMR, Azure HDInsights, Synapse Spark) - On-premise (Hadoop + HDFS) Когда что использовать? Ну здесь сами понимаете, зависит от команды и бюджета. Можно просто и дорого, можно сложно и дорого (возможно подешевле за инфу, но команда будет больше и дороже). Мне как простому инженеру вообще все-равно, главное чтобы ЗП капнула вовремя😊 А так прикольно понимать разница и уметь работать с этим зоопарком🥂
Показать полностью ...
8 018
99
Недавно посетила мысль, что телеграмм каналы делятся на 2 типа: 1) Телеграмм канал, который ведет автор, и делится своими идеями, мнениями, да хоть предпочтениями во вкусах мороженного. Но сам факт того, что телеграмм канал имеет живое “лицо” как-то располагает и его интересно читать. 2) Телеграмм канал, который посвящен какой-то теме, но он обезличенный, “бездушный”. Набор ссылок, новостей, мемов, часто бесполезных и противоречивых. Почему-то с недавних пор 2ой типа каналов совсем стали неинтересны, а вот 1й тип, наоборот. Мне горазде интересной узнать как дела у автора, чем живет, что думает, куда двигается и тп. Это как сериал с любимыми актерами, но только в реальной жизни. А как у вас?
Показать полностью ...
6 425
10
📢 Друзья! 📢 В среду на канале DataLearn вебинар! Тема: "Использование RAG и AI-агентов для поддержки клиентов" 🤖💬 🗓 Дата: 24 июля 🕗 Время: 20:00 по МСК 👨‍💻Спикер - CTO Wikibot Роман Чуприков! Ребята уже приходили к нам и рассказывали про LLM модели🌟 Что обсудим: 🔸 Введение в Retrieval Augmented Generation (RAG) — торт или провал? 🍰❌ 🔸 Парсинг данных — скучно, но важно! 📊 🔸 Разбиение документов на фрагменты и семантический поиск. 📚 🔸 Идеальный промпт существует? Как сделать так, чтобы бот отвечал «Я не знаю». 🤔 🔸 Первая линия поддержки — корректные ответы на важные вопросы. 🛡 🔸 От ответов к действиям — как обучить бота задавать уточняющие вопросы и работать с тикетами. 🔸 Бортовой журнал — интерфейс для постоянного дообучения бота. Не пропустите! 🌟 👉 Ссылка на вебинар: Будем рады видеть вас! 😃👋
Показать полностью ...
ИСПОЛЬЗОВАНИЕ RAG и AI АГЕНТОВ ДЛЯ ПОДДЕРЖКИ КЛИЕНТОВ / РОМАН ЧУПРИКОВ / DATALEARN
🎙 Спикер Роман Чуприков - CTO Wikibot. 🔗https://wikibot.pro 🔍 Что мы обсудим на вебинаре: Использование RAG для поддержки клиентов на основе существующей базы знаний — торт или провал? 🔸Краткое введение в Retrieval Augmented Generation — подход к созданию приложений, в котором большая языковая модель без дополнительного обучения отвечает на вопросы с использованием информации из внутренней базы знаний или документов компании. 🔸Парсинг данных — скучно, но крайне важно для улучшения качества ответов. 🔸 Особенности разбиения документов на фрагменты и зачем нужны векторные базы. Семантический поиск по базе знаний. 🔸 Идеальный промпт существует? Как заставить бота отвечать «Я не знаю», а не придумывать ответ. 🔸 Первая линия — как гарантировать корректные ответы на самые важные вопросы. 🔸 От ответов к действиям — как научить бота не только отвечать пользователям, но и задавать уточняющие вопросы, открывать и закрывать тикеты и узнавать информацию из других систем. 🔸 Бортовой журнал — главный интерфейс для постоянного дообучения бота. 🔸 AI-агенты — уже настоящие. Ведение диалога, поддержка контекста, вызов функции. 🔸Openai Assistant vs Свой агент 🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки! 📕 Записывайтесь и проходите курс Инженера Данных. ⚠️ КУРС БЕСПЛАТНЫЙ! 🔗 Записаться вы можете на нашем портале https://datalearn.ru/ 👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса. 🔥 Самые актуальные новости про аналитику в Telegram канале: https://t.me/rockyourdata 🔥 Телеграм канал DataLearn: https://t.me/data_learn 🔥 Чат DataLearn: https://t.me/datalearn_chat
7 073
54
Ежегодная вечеринка с bbq и танцами в центре Ванкувера Surfalytics&Friends
6 782
3
17 августа в Москве будет . Это мероприятие для профессионалов IT-сферы, и на этот раз вход на пикник будет по пожертвованию в один из десяти благотворительных фондов. 💡💻 В программе IT-пикника: 📚 Лекции от топовых спикеров 🛠 Воркшопы для взрослых и детей 🔬 Научпоп-программа 🎮 Интерактивные зоны 🎵 Музыкальная программа Ребята из , который помогает пациентам с лейкозом найти совместимого донора стволовых клеток, попросили рассказать про мероприятие и упомянуть их фонд, так как участники it-пикника сами выбирают, в какой из благотворительных фондов будет перечислен их взнос. Все фонды с хорошей репутацией и заслуживают доверия. Каждый из них решает проблемы в определенной сфере: помогает онкопациентам, бездомным животным и так далее. Для многих таких пациентов донорство – это последний шанс на выздоровление💖 Так ваше пожертвование в этот фонд поможет оплатить обследование новых доноров, каждый из которых может спасти жизнь. IT-пикник – это замечательная возможность объединить приятное с полезным: посетить интересное мероприятие и помочь в спасении жизней. 🙌 Спасибо за вашу поддержку! ❤️
Показать полностью ...
ИТ-пикник в Москве 17 августа 2024 года
ИТ-фестиваль в парке Коломенское в Москве 17 августа 2024 года. Программа мероприятий в Москве для опытных ИТ-специалистов. Стать спикером на ИТ конференции в 2024 году. Посмотреть презентации и лекции с ИТ-фестиваля. Семейный фестиваль в Москве. Стать партнером ИТ мероприятия
6 644
34
Что пишут про главный сбой Microsoft? Перевод от поста Gergely Orosz, автора Progmatic Engineer. Ух ты: мы находимся в середине, вероятно, крупнейшего глобального программного сбоя: аэропорты, больницы, аптеки, авиакомпании, железнодорожные службы, телекомпании, супермаркеты и многое другое не работает. Вот что мы знаем: (Ниже фото из аэропорта Сиднея, где большинство экранов показывают синий экран смерти Windows, а планы путешествий нарушены из-за этого сбоя.) Сбой затронул машины на Windows, которые используют Crowdstrike для защиты конечных точек (антивирус, файрвол, обнаружение вторжений, шифрование и контроль приложений). Crowdstrike - это компания по кибербезопасности, оцененная в $80 миллиардов, и лидер рынка в области защиты конечных точек Windows с долей рынка около 22%. Таким образом, 1 из 5 компаний, использующих Windows, пользуется их услугами. По-видимому, Crowdstrike выпустила достаточно невинное обновление программного обеспечения... на все машины Windows, по всему миру, практически одновременно. Программное обеспечение Crowdstrike работает на уровне ядра: и это обновление вызывает сбой Windows. Обычно, когда баг в коде попадает в продакшн: вы просто отменяете это изменение и выпускаете предыдущую версию (или код, который работает корректно), и когда клиенты получают этот патч, их системы восстанавливаются. Но не в этом случае: потому что эти машины не функционируют. Решение - как советует Crowdstrike - ручное и трудоемкое, и его нужно повторить для каждой машины на Windows, которую затронул сбой. Машину нужно загрузить в безопасном режиме, удалить файл, затем перезагрузить. Что непонятно в этом сбое, так это как (и почему?) Crowdstrike выпустила глобальное обновление программного обеспечения без постепенного развертывания (так называемого развертывания с канарейками)? Это не имеет смысла, и ни один поставщик кибербезопасности с разумными практиками развертывания никогда бы не сделал этого. Насколько нам известно, это "глобальное развертывание" больше похоже на "YOLO развертывание" (мы рассматривали подходы к развертыванию в продакшн в The Pragmatic Engineer, включая YOLO развертывания на https://lnkd.in/dsQzhQ7). YOLO развертывания подходят, когда неважно, если развертывание пойдет не так, и достаточно просто вернуть все назад. Развертывание, которое может вывести из строя большинство ваших клиентов, не должно экспериментировать с этим подходом. Для меня непостижимо, как можно было обойти постепенное развертывание: как это не стало обязательным процессом для всех развертываний, больших или маленьких. Последствия этого сбоя, несомненно, будут заметны на глобальном уровне ВВП - и это будет очень плохая новость для бизнеса Crowdstrike в будущем (кто захочет работать с поставщиком безопасности, который вызывает сбой 100% машин на Windows, на которых установлено их ПО, когда оно должно их защищать?) Мой главный вывод заключается в том, что постепенные развертывания/canaries никогда не должны пропускаться, когда ваше ПО используется для работы важной или критической инфраструктуры. PS кто-нибудь заметил сбой?
Показать полностью ...
7 721
93
Все так - white male - это самый главный minority на западе🫣
6 443
50
Обучаем IT-специалистов и берём в команду ⚡️ Лучших выпускников пригласим на интервью и предложим карьерный фаст-трек до мидла в Т1. 🎓 Открытые школы Т1 — это месяц онлайн-интенсива с возможностью попасть в штат Холдинга Т1 — крупнейшей ИТ-компании в России по версии RAEX 2023, в портфеле которой 800+ масштабных проектов и 70+ продуктов и услуг. Зачем участвовать? ⚙️ Уникальный рыночный опыт. Одними из первых на рынке внедряем технологии для управления данными. В ближайшем будущем ими будут пользоваться большинство крупных предприятий страны. ⚙️ Попасть в число лучших. Проекты Т1 ежегодно получают лучшие награды на ИТ-конкурсах: Global CIO, Национальная банковская премия и др. ⚙️ Поддержка. Нам удалось собрать команду опытных профессионалов в области разработки хранилищ данных и аналитических систем, которые помогут расти и развиваться. Выбирай: Для участия нужен опыт работы от 1 года в выбранном направлении. ⏰ Быстрое обучение: 1 месяц 📱 Гибкий формат: онлайн по вечерам (от 8 часов в неделю на вебинары и практику) Старт интенсива: 29 июля. Реклама.
Показать полностью ...

Видео_ОШ.mp4

6 568
58
6 544
3
Мы рассмотрели компоненты хранилища данных, теперь озеро данных. К нему можно применить термин decoupled. Изначально использовался Hadoop — открытая распределенная вычислительная платформа и компонент файловой системы HDFS для хранения и обработки больших объемов структурированных и неструктурированных данных на кластерах недорогих компьютеров. Для аналитики использовался MapReduce, но написание задач было сложным, поэтому был создан Hive для преобразования SQL-запросов в задачи MapReduce. Со временем перешли от кластеров Hadoop к облачным объектным хранилищам (Amazon S3, Minio, Azure Blob Storage) из-за удобства и дешевизны. MapReduce заменили другие распределенные движки, такие как Apache Spark, Presto и Dremio. Однако формат таблиц Hive остался стандартом для распознавания файлов как таблиц для аналитики. Ключевое отличие озера данных от хранилища данных — возможность использования разных вычислительных движков для различных задач. В озере данных нет службы, выполняющей функции движка хранения; обычно движок вычислений решает, как записывать данные, которые редко оптимизируются и совершенствуется. Преимущества: - Низкая стоимость: Хранение данных и выполнение запросов дешевле, чем в хранилище данных. - Открытые форматы хранения: Можно использовать любые форматы файлов. - Обработка неструктурированных данных: Озера данных могут обрабатывать данные, такие как данные сенсоров, вложения электронной почты и журналы. Недостатки: - Производительность: Отсутствие встроенных оптимизаций, таких как индексы и гарантии ACID, приводит к необходимости значительных усилий для достижения производительности, сравнимой с хранилищем данных. - Сложная конфигурация: Необходимость значительных инженерных усилий для настройки и оптимизации компонентов. - Отсутствие гарантий ACID: Нет встроенных транзакционных гарантий, что усложняет задачи, требующие строгой целостности данных. Хранилище данных или озеро данных? Озера данных хорошо подходят для хранения структурированных и неструктурированных данных, но имеют свои недостатки. Для высокоприоритетной аналитики данные часто копируются в хранилище данных, что приводит к дополнительным затратам и созданию множества копий данных, что не очень удобно и очевидно дороже. Для выполнения запросов на озере данных можно использовать движки, такие как Dremio, Presto/Trino, Apache Spark и другие, но они сталкиваются с трудностями при обновлении данных из-за ограничений формата таблиц Hive. Таким образом, озера данных и хранилища данных имеют свои уникальные преимущества и недостатки, что привело к появлению новой архитектуры, сочетающей их плюсы и минимизирующей минусы, — Data Lakehouse. Как я первый раз познакомился с Lakehouse? Был 2021 год, я был в Amazon Alexa, у нас было много данных и централизованный Redshift на 128 нод (максимальное кол-во нод) использовался для BI use cases. Redshift (хранилище данных) был единственный вариант для BI (отчетность), так как подключаться к озеру данных через Athena, Hive, Spark было не очень удобно из-за объема и особенности BI. Тем не менее у Alexa было и озеро данных (upstream) на S3 и EMR (managed Hadoop). И там не было проблем с производительностью или хранением большого объема данных. Главная проблема была подружить это с BI и поэтому приходилось выгружать из озера и грузить в хранилище, а потом еще раз выгружать из хранилища обратно в S3 для ML. Как раз в это время вступил в силу закон про data privacy (GDPR), для нас это простая задача - удалить CUSTOMER_ID(s) по запросу клиента раз в неделю. Это очень просто в реляционном хранилище данных, но очень сложно в озере данных (так как у вас просто куча файлов) Поэтому мы стали смотреть в сторону Lakehouse, и первый open source был Delta для Spark. Я как разу перешел в Xbox, и у меня была идея построить Delta Lake на Databricks, что я и сделал. Тогда Delta Lake был топ формат таблицы (теперь то мы знаем, что это не формат файлов). А вот сейчас походу надо уже строить на Iceberg. Хотя в Databricks все еще по умолчанию используется Delta. А как было у вас?
Показать полностью ...
7 176
75
А вот и книжка!
6 735
5
Сегодня посмотрим на компоненты хранилища данных. Хранилище данных это у нас просто большая база данных, часто это может быть распределенная (кластер из нескольких машин, чтобы они вместе все параллельно обрабатывали данные, ведь так быстрей и можно больше данных обработать - ну или просто Massive Parallel Processing) Хранилище данных объединяет все технические компоненты в одной системе. Все данные хранятся в собственных форматах файлов и таблиц на его собственном хранилище. Эти данные управляются исключительно движком хранения хранилища данных, регистрируются в его каталоге и могут быть доступны только пользователю или аналитическим движкам через его вычислительный движок. До примерно 2015 года большинство хранилищ данных имели компоненты хранения и вычислений, жестко связанные на тех же узлах, так как они были разработаны и использовались в основном на местах. Это приводило к множеству проблем. Масштабирование становилось большой проблемой, так как объемы данных быстро росли, а количество и интенсивность нагрузок росло. Не было возможности независимо увеличивать ресурсы хранения и вычислений в зависимости от задач. Если ваши потребности в хранении данных росли быстрее, чем потребности в вычислительных ресурсах, вам все равно приходилось платить за дополнительные вычислительные мощности, даже если они вам не были нужны. Это привело к созданию следующего поколения хранилищ данных с акцентом на облачные технологии. Эти хранилища данных начали набирать популярность примерно в 2015 году, когда облачные вычисления стали более распространенными, позволяя разделять компоненты хранения и вычислений и масштабировать эти ресурсы в соответствии с задачами. Они даже позволяли отключать вычислительные ресурсы, когда они не использовались, и не терять при этом данные. Хранилище данных до сих пор является отличным решением для построения аналитического решения. Минису все известны: - Поддержка только SQL - Вы платите за compute и storage вместе (Snowflake и тп это lakehouse и о нем будет позже) - Сложно использовать для ML, так как данные нужно выгружать - У вас schema on write (то есть у вас таблица создана и вы в нее уже пишите как есть) - Не очень удобно для streaming/real time аналитики, обычно это batch - раз в час, раз в сутки - Это Vendor Lock В след посте рассмотрим озеро данных. Источник: PS Судя по прошлым комментариям, я рад что ребята в Авито Тех тоже прочитали книгу и поделились знаниями со своей аудиторией🙃 В Surfalytics я попросил всех прочитать 1ю главу и понять, так как очень важно понимать разницу между DW/Data Lake/Lake House и знать их особенности.
Показать полностью ...
6 583
74
Авито запускает менторскую программу, доступную для каждого, кто стремится к развитию и росту 🚀 Наставники из компании прошли тот же путь, что и вы. Они знают, как это — искать работу, стремиться к повышению, создавать крутые продукты и справляться с вызовами. И готовы делиться своими знаниями и опытом! 🔍С чем поможет ментор: • разобраться в новых технологиях и смежных областях • подготовиться к сложному собеседованию • прокачать хард-скиллы Найти ментора из Авито можно на Getmentor Solvery. Есть разные форматы работы: платные встречи или сессии за взнос на благотворительность 💚
Показать полностью ...
6 431
79
Основных компоненты системы для аналитики (System Designed for OLAP Workloads) В данном контексте OLAP подразумевает аналитические запросы (сложные запросы на исторических данных). Хранилище (Storage) Для анализа исторических данных из различных источников необходимо иметь систему, позволяющую хранить большие объемы данных. Хранилище — это первый компонент системы, способной обрабатывать аналитические запросы к большим наборам данных. Варианты хранилища включают локальную файловую систему (DAS), распределенную файловую систему (HDFS) и объектное хранилище от облачных провайдеров (Amazon S3). Типы хранилищ могут быть строковыми (row) или поколоночными (columnar) базами данных, или их комбинацией. Columnar уже является стандартом. Формат файлов (File format) Для хранения, данные должны быть организованы в определенном формате файла. Выбор формата файла влияет на сжатие данных, их структуру и производительность работы. Форматы файлов делятся на три категории: структурированные (CSV), полуструктурированные (JSON) и неструктурированные (текстовые файлы). В структурированных и полуструктурированных форматах данные могут быть организованы построчно или поколоночно. Примеры построчных форматов — CSV и Apache Avro, поколоночных — Apache Parquet и Apache ORC. Формат таблицы (Table Format) Важный компонент для системы, поддерживающей аналитические запросы к большим объемам данных. Формат таблицы действует как слой метанных над форматом файла и отвечает за расположение данных в хранилище. Цель формата таблицы — упростить структуру данных и обеспечить возможности для операций с данными (вставка, обновление, удаление) и изменения схемы таблицы. Современные форматы таблиц также обеспечивают атомарность и согласованность операций. Движок хранения (Storage engine) Отвечает за размещение данных в заданном формате таблицы и поддержание всех файлов и структур данных в актуальном состоянии. Движок хранения выполняет такие задачи, как оптимизация данных, поддержание индексов и удаление старых данных. Каталог (Catalog) При работе с данными из разных источников важно быстро находить нужные данные. Каталог решает эту задачу, используя метаданные для идентификации наборов данных. Каталог — это центральное место, где можно найти информацию о таблицах, их схеме и расположении данных. Некоторые каталоги являются внутренними для системы (например, Postgres и Snowflake), другие, такие как Hive и Project Nessie, могут использоваться любыми системами. Вычислительный движок (Compute Engine) Последний компонент, необходимый для обработки больших объемов данных, выполняет пользовательские запросы по обработке данных. В зависимости от объема данных и типа нагрузки можно использовать один или несколько вычислительных движков. Для работы с большими объемами данных часто требуется распределенный вычислительный движок (MPP), такие как Apache Spark, Snowflake и Dremio. PS надеюсь теперь вы поймете разницу между Parquet (file format) и Iceberg/Delta (table format)
Показать полностью ...
6 669
119
Так хорошо отдохнул, что забыл ноутбук за 500км, забыл его в пятницу, а вспомнил в понедельник вечером! Повезло, что он отмечен в Find My Device.
7 058
9
Мой самый популярный пост в Linkedin оказался не про айти и аналитики…. Ведь реально получается: 1) Лучшая инвестиция это в семью и детей 2) Пословица про свой самовар самая правильная 3) Там еще добавил бы ликбез про ипотеку 4) Подход я работаю, жена тратит деньги работает отлично, чем больше жена потратила, тем больше я заработал, или наоборот
7 081
44
Возможна ли 4х дневная рабочая неделя? Легко, если ваши дети уже могут уже работать с компьютером. У нас в пятницу поплану большой трип и чтобы не терять время, я передал ноутбук детям, они там угорали с имен коллега, читали сообщения, отвечали и выбирали веселые эмоджи. Сын даже заапрувил 3 PR в прод и написал “if anything break, rinse and repeat, happy to approve!” В общем все при деле👨‍💻 Забирайте идею! Заодно дети познают взрослый корпоративный мир, slack, GitHub, code reviews и тп. Мне кажется я так могу путешествовать 5 дней в неделю🚗
Показать полностью ...
9 240
91
7 676
3
Конференция для IT-архитекторов от МТС 20 июля | 12:00 Офлайн в Москве | Онлайн Присоединяйся True tech Arch#5, которая пройдет 20 июля в парке искусств "Музеон". Тебя ждут доклады от ведущих экспертов МТС и приглашенных экспертов. Обсудим осмысление архитектурных артефактов, расскажем о голосовых роботах на платформе Exolve, поделимся кейсами, как создать "виртуального" сотрудника. Событие пройдет на открытом воздухе и ждет всех неравнодушных к IT-архитектуре.
Показать полностью ...
8 423
38
Классная история про Clickhouse -
The Fast and the Furious: How ClickHouse, the World’s Fastest Open-Source Database, is Creating the First Real-Time Data Warehouse | Index Ventures
Developing a database is a lot like building a company. At its core, a database is only as good as the way it’s built, the data people put into it, and the use cases built on top of it. Similarly, a company’s success boils down to its foundational principles, the people in charge, and the strategies put in place to meet market needs and adapt to changing environments.
7 169
71
Я решил поэкспериментировать с Surfaytics, и поискать дополнительную ценность. Выявил пока 2 новых направления. 1) я записал своё успешеное собеседование на Sr Data Engineer в Канаде на 200к CAD и скинул видео и вопросы для подписчиков. Планирую дальше записывать и надеюсь студенты тоже будут. Идея в том, что я записываю только себя и свой звук, а вопросу будут текстом на экране. 2) я продолжаю думать про варианты эффективного прохождения собеседования, чтобы максимально эффективно пройти его, на картинке мы экспериментирует с реальным собеседованием и технологиями записи собеседования, аудио в текст и тп. Получить возможность собеседование очень сложно, большой конкурс, а вот провалить его из-за глупых ошибок легко. Один из вариантов это воспользоваться помощью товарища 🤹
Показать полностью ...
7 285
27
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
7 126
110
Как отличить хорошего продакта от плохого? Плохой продакт зациклен на процессах, дейликах, митингах и бумажной волоките. Он игнорирует риски и фокусируется на метриках тщеславия типа MAU, DAU и новых зарегистрированных пользователей. Хороший продакт фокусируется на реальных результатах. Он понимает, как его работа влияет на весь бизнес, и делает так, чтобы продукты и проекты «выстреливали» и зарабатывали. Лучший пример — OnlyFans. Основатели не раздували венчурную шарагу, а зарабатывали деньги. Поэтому выручка сервиса за прошлый год составила $2.5 млрд, а прибыль — $1.25 млрд. Хотите грамотно вести проекты и приносить бизнесу максимальную пользу? Подписывайтесь на канал сооснователя careerspace Узнайте, как работать с продуктом, метриками и людьми, чтобы зарабатывать больше и расти по карьерной лестнице. Топ постов: — — слабая концепция и прошлый век? — чем в B2C? — — фактически пошаговый гайд, как зарабатывать больше и расти быстрее. Это отличный продуктовый канал от настоящего практика. Подпишитесь, чтобы ваша карьера летела вверх:
Показать полностью ...
Первый Продуктовый
Первый нормальный канал по аналитике. Автор — Ярослав Хромов, сооснователь careerspace (51M+ руб выручка 2023, рост х3 YoY, есть чистая прибыль). Пишу про жизнь тут: https://t.me/yarkhromov По рекламе: @aakhro_adss
8 294
33
Leading Effective Engineering Teams - новая книжка по управлению инженерными командами! The essential traits for engineering effectiveness and the pitfalls to avoid How to cultivate trust, commitment, and accountability within your team Strategies to minimize friction, optimize career growth, and deliver maximum value The dynamics of highly successful engineering teams and how to replicate their achievements How to implement a systems thinking approach for everyday problem-solving and decision-making Self-advocacy techniques to enhance your team's visibility and recognition within the organization Судя по отзывам в Linkedin, отлчная книга, у автора свой большой блог и он уже успел написать много книг.
Показать полностью ...
Addy Osmani is a Software Engineer at Google working on the Chrome web browser. He is the author of books like Image Optimization and Learning JavaScript Design Patterns. He has also written a number of open-source projects like Yeoman, TodoMVC, Quicklink and Material Design Lite.
8 348
111
Мы привыкли, что нужно всегда с рюкзаком ходить, куда складывать ноутбук, наушники и тп. Атрибут Айтишника можно сказать. Помню, как в 2011 заказал себе рюкзак синий из Америки, ведь в Москве не оригинал 🍞, и тогда я почувствовал, что вот я настоящий IT. По пятницам я хожу в офис, и сегодня решил, что хватит таскать тяжелый рюкзак с несколькими 16’’ маками, формой и другим барахлом, и пора на легке катить чемодан. Реально, game changer!
7 649
21
Ответил еще на два вопроса: 1) заменит ли нас AI? 🤖 2) Что делать с опытом IBM DataStage 🦖

IMG_7612.MOV

7 803
27
Я же вам говорил, что CLI знать надо, чтобы вот такие вот шутки понимать😅
7 984
16
Небольшая история про консалтинг, типичный бутик по внедрению современных аналитических решений в Северной Америке. Недавно наблюдал результат работы такой компании. Компания специализируется на создании хранилища данных, интеграции данных, построении дашбордов. Условно у вас есть своя компания/стартап и вы слышали про data driven культуру, принятие решений на основе данных и тп, и решили воспользоваться услугами, чтоб наконец получить долгожданные insights и как говорит Гребенюк - “добавить ноль справа” к вашей выручке. Далее расскажу пример реализации. В данном контексте, я лишь унаследовал, то, чтобы внедрено в течение прошлого года и больше как на позиции adviser по data engineering, чтобы понять как все масштабировать, найти bottle necks, да и просто сделать reverse engineering. Цена удовольствия такой компании 60k US$ в месяц за 1,5-2 консультанта в месяц (расценки в США, наверно такие жирные). Консультанты не простые, ребята укомплектованы best practices и сертификатами по dbt, snowflake, fivetran, sigma, looker и тп. Я их не застал, но застал все решение и изучил его сверху вниз (от BI дашбордов, до источников данных) Если кратко суммировать, то было создано много дашбордов, dbt моделей, таблиц, слоев, схем. Сами дашборды похожи на новогодние огоньки, где каждую метрику визуализируют несколько раз (line chart, bar chart, kpi, и тп), сами дашборды как простыня, которую можно долго скролить. То есть по факту, ребята реально наклепали всего на всю катушку, проблема лишь в том, что кол-во никак не коррелирует с качеством. Такое впечатление, что им платили за “output”, то есть вроде все крутится вертится, но по факту бесполезно. Чем больше я погружался, тем больше было заметно, что все дашборды и показатели совсем не помогают бизнесу. Про всякие вещи, типа синхронизации time zones (UTC) такого вообще нет. Поэтому выводы: 1) Самый лучший способ быстро вкатиться в проект, это его задокументировать сверху вниз (reverse engineering) 2) Самый лучший способ показать бурную деятельность это клипать дашбордики, модели и таблицы, чем больше, тем лучше (особенно если вам плевать на результат) 3) Fivetran вообще топик для интеграции данных, но вы платите за кол-во строк! Например, в нашем случае, цена Fivetran была выше в 10 раз, чем сам Snowflake. 4) dbt labs после dbt core кажется бесполезным, но помогает экономить силы на расписании (с dbt core, нужно Airflow или типа того) 5) Sigma - прикольный light weight BI инструмент в браузере, но если вам достались дашборды с простынями из графиков, то удачи, а так позволяет очень быстро наклепать дашбордиков и отличная интеграция со Slack или Email. PS картинка просто с похожим стеком, современней уже быть не может!
Показать полностью ...
7 330
73
Не могу не поделиться пример “холодного звонка” или лучше сказать сообщения. Чувак хочет мне продать услуги и вот, что он сделал - Мне кажется, можно вам так вместо Cover Letter делать, вы просто представьте себе, когда recruiter/hiring manager за бокальчиком Апероль Шприц будет слушать ваше сообщение - шах и мат, как говорят! PS Ну как такому добряку я могу отказать промахать несколько тысяч долларов теперь🍿
For Dmitry Anoshin
7 080
53
The Trimodal Nature of Tech Compensation Revisited - статья про уровни зарплат. Любая зарплата (total compensation) складывается из 3х частей: Base salary + cash bonus + Stocks (“акции” или типа того) Акции компании бывают разные, если компания публичная как Amazon, вы получаете акции RSU и каждый квартал вам их выдают, вы можете их продать. Так же если компания публичная, вы можете покупать акции на 15% процентов свой зарплаты со скидкой 10% (Например Microsoft и другие). В статье уже более детально все описано. Я лишь подумал о другом. Условно когда мы ищем работу, нам бы лучше выбрать компанию, где есть все и сразу. В FAANG, это разумеется есть, но таких компаний мало, а желающих много. (Tier 1) Поэтому надо смотреть Tier 2 компании, которые так же вам могут предложить что-то кроме зарплаты. Ведь базовая зарплата у всех +/- будет одинаковая, а все, что выше это бонусы, стоки и тп. Часто бывает опцион в стартапах, где вам обещают буквально миллионы, если компания станет публичной. Я вам тоже могу обещать миллионы, если вы будете играть в лотерею😅 Ну смысле не будьте наивными. Поэтому, не забывайте при поиске работы взвешивать все возможные варианты, и если есть выбор, где работать, попробуйте отсортировать компании по их возможности вам платить (вне зависимости от базовой зарплаты). И все это к чему? А к тому, что лучше искать работу, когда у вас все хорошо, и есть возможность подойти к вопросу отбора без спешки, чем когда у вас все горит….
Показать полностью ...
6 661
33
У моего телеграмм канала есть кредитная карта🍞
7 119
5
Последнее обновление: 11.07.23
Политика конфиденциальности Telemetrio