@rockyourdata - все посты телеграмм канала Инжиниринг Данных

Знаете какой самый популярный SQL запрос у крутого дата инженера?
SELECT * FROM 

А крутого дата инженера, но с реальным опытом, будет немного другой:

SELECT * FROM 


LIMIT 10



Даже chatGPT понял, что к чему:

- does it make sense?

- Да, это шутка, и она передает смысл! Первое выражение показывает запрос новичка или “крутого” дата инженера, который хочет увидеть все данные, а второе - опытного инженера, который понимает, что часто достаточно увидеть лишь часть данных, чтобы оценить содержимое таблицы и сэкономить ресурсы.

Эта шутка подчёркивает, что опытные инженеры более прагматичны и ценят эффективность в работе с данными. Отличная шутка для тех, кто знаком с SQL и повседневными задачами дата инженеров!


Реально мой день начинается и заканчивается с этих запросов🙌Показать полностью ...
7 435
50
Инжиниринг Данных09 сент., 14:5920.9k5.9k33.36%
Скопировано!
Визуализация дня.

Согласно нему брак заключается реже по многим причинам — высоким уровням личной задолженности (кредиты/ипотеки), снижению общественного давления и другим факторам, — но одним из главных, похоже, является равенство заработной платы. 

Согласно исследованию Калифорнийского университета, каждое увеличение средней зарплаты женщин на 10% приводит к снижению числа заключаемых браков на 7%.

Как все успели жениться, замуж выйти?)
6 702
119
Инжиниринг Данных08 сент., 15:0820.9k5.9k33.36%
Скопировано!
Что ещё почитать?

Удивительно, что до сих пор не постил в канал свой список любимых книг. Они действительно хорошие. 

Лейл Лаундес "Как говорить с кем угодно и о чем угодно"
Джим Кэмп “Сначала скажите нет”
Брайан Трейси "Переговоры"
Stephanie Palmer “Good in a Room”
Карен Прайор «Не рычите на собаку! Книга о дрессировке людей, животных и самого себя»

Пять учебников по переговорам и общению с другими людьми. Они очень разные между собой и по формату, и по целевой аудитории, и по рекомендациям, но каждый из пяти этих взглядов на коммуникацию был мне очень полезен и каждым я активно пользуюсь.

"Думай медленно... Решай быстро", Дэниел Канеман
“The Willpower Instinct: How Self-Control Works, Why It Matters, and What You Can Do to Get More of It”, Kelly McGonigal
"The Shallows", Николас Карр

Три отличные книги о том, как люди думают и как на это можно влиять. В первую очередь интересно понимать и влиять на самого себя, конечно. И выключите, наконец, уведомления на телефоне!

“Remote. Office not required”, David Heinemeier Hansson, Jason Fried

Книга об удаленке, написанная задолго до COVID. Очень много конкретных мыслей и предложений о том, как организовать её эффективнее.

Аллен Карр "Легкий способ сбросить вес"
Алексей Филатов "Теория и практика жиросжигания"

Две лучшие книги по борьбе с лишним весом из тех, что я читал, а читал я много. По их рецептам я реально худел с минимальными усилиями. Та самая “волшебная таблетка”. 

"Ценностное управление для бизнеса", Константин Харский

Культура ест стратегию на завтрак, как известно. А чтобы ценности вашей компании использовались как-то иначе, чем просто висеть на холодильнике – прочтите книгу Харского. 

"Школа продаж. Что делать, если клиент не хочет покупать?" Александр Деревицкий
«Метод тыквы. Как стать лидером в своей нише без бюджета», Майк Микаловиц
“No B.S. Ruthless Management of People and Profits” Dan S. Kennedy

Учебники бизнеса. Из каждого есть что взять и с чем поспорить, но даже то, “с чем поспорить”, читается с огромным интересом.

"Разумное распределение активов", Уильям Дж. Бернстайн

Лучшая книга об инвестициях. Вы не потеряете много денег, если будете инвестировать, опираясь на её идеи.

“Onward: How Starbucks Fought for Its Life without Losing Its Soul”, Howard Schultz
“Anything You Want: 40 Lessons for a New Kind of Entrepreneur”, Derek Sivers

Две вдохновляющие истории двух совершенно разных бизнесов. 

Патрик Ленсиони «Пять пороков команды. Притчи о лидерстве»
“Кто, решите вашу проблему номер один”, Джефф Смарт, Рэнди Стрит

Две лучшие книги о найме и работе с людьми. А люди – это же самое главное в бизнесе?

Мою с соавторами книгу в этот список вставлять нескромно, так что я её просто рядом поставлю. Список закончился выше.
“50 бизнес-моделей новой экономики. Уроки компаний-единорогов”, Алексей Черняк, Михаил Иванов, Александр Горный

https://50i.ru/

P.S.: меньше книг, но с более подробным комментарием о каждой – в весеннем ролике на YouTube. 

https://youtu.be/fzjRJwnFWC4

#личныйопыт
Показать полностью ...
6 262
283
Инжиниринг Данных07 сент., 08:0220.9k5.9k33.36%
Скопировано!
Еще одна свежая книга, которая покрывает важный термин - Data Contracts. 

Poor data quality can cause major problems for data teams, from breaking revenue-generating data pipelines to losing the trust of data consumers. Despite the importance of data quality, many data teams still struggle to avoid these issues—especially when their data is sourced from upstream workflows outside of their control. The solution: data contracts. Data contracts enable high-quality, well-governed data assets by documenting expectations of the data, establishing ownership of data assets, and then automatically enforcing these constraints within the CI/CD workflow.

This practical book introduces data contract architecture with a clear definition of data contracts, explains why the data industry needs them, and shares real-world use cases of data contracts in production. In addition, you'll learn how to implement components of the data contract architecture and understand how they're used in the data lifecycle. Finally, you'll build a case for implementing data contracts in your organization.

Authors Chad Sanderson and Mark Freeman will help you:

- Explore real-world applications of data contracts within the industry
- Understand how to apply each component of this architecture, such as CI/CD, monitoring, version control data, and more
- Learn how to implement data contracts using open source tools
- Examine ways to resolve data quality issues using data contract architecture
- Measure the impact of implementing a data contract in your organization
- Develop a strategy to determine how data contracts will be used in your organization

Компания Chad ищет инвестиции и я смотрел их pitch deck, пока у них как-то тухло по paying customers.

Если попростому, то data contracts это договоренность между 2мя командами о схеме и типе данных.

Например, вы забираете данные из backend OLTP. Инженеры решили поменять табличку, переименовали поле в таблицу и у вас упал ETL pipeline, ведь хранилище данных это Schema on Write. Вы его конечно почините, но так происходит часто и это влияете на качество дашбордов и в целом BI users experience. 

Поэтому data contract позволяет нам проактивно мониторить этот процесс. Инженеры в backend знаю как их изменения повлияют на хранилище данных. Можно это внедрить и обычным способом, например в git кто-то из дата команды должен делать code review, чтобы знать об изменениях, но это подходит для маленьких компаний.
Показать полностью ...
6 428
136
Инжиниринг Данных06 сент., 22:3020.9k5.9k33.36%
Скопировано!
Свежая книжка по DE

Data projects are an intrinsic part of an organization's technical ecosystem, but data engineers in many companies are still trying to solve problems that others have already solved. This hands-on guide shows you how to provide valuable data by focusing on various aspects of data engineering, including data ingestion, data quality, idempotency, and more.

Author Bartosz Konieczny guides you through the process of building reliable end-to-end data engineering projects, from data ingestion to data observability, focusing on data engineering design patterns that solve common business problems in a secure and storage-optimized manner. 

Each pattern includes a user-facing description of the problem, solutions, and consequences that place the pattern into the context of real-life scenarios.

Throughout this journey, you'll use open source data tools and public cloud services to see how to put each pattern into practice. You'll learn:

- Challenges data engineers face and their impact on data systems
- How these challenges relate to data system components
What data engineering patterns are for
- How to identify and fix issues with your current data components
- Technology-agnostic solutions to new and existing data projects
- How to implement patterns with Apache Airflow, Apache Spark, Apache Flink, and Delta Lake

URL: https://www.oreilly.com/library/view/data-engineering-design/9781098165826/ (по подписке доступна ранняя версия)
Показать полностью ...
5 883
159
Инжиниринг Данных06 сент., 15:0720.9k5.9k33.36%
Скопировано!
Arch.Meetup by Sber: современное управление архитектурой данных – регистрация открыта ✅

Уже 11 сентября в офисе Сбера и онлайн вместе с ИТ-архитекторами, data-инженерами и спикерами из трех IT-компаний поговорим об архитектуре данных и ее роли в управлении данными.
 
В программе – сразу 3 доклада, нетворкинг с большим архитектурным сообществом, выставка новых продуктов и технологий Сбера и фуршет.

О чем поговорим?
 
▪️Есть ли Архитектура данных за пределами хранилищ?
▪️Как моделировать данные на Enterprise-уровне?
▪️Как архитектура помогает в вопросах инвентаризации данных?
▪️Что такое Data API и почему мы часто говорим об интегрируемости данных?
 
 👉🏻 Подробная программа и регистрация – по этой ссылке. Успей пройти регистрацию – количество очных мест ограничено.
Показать полностью ...
6 919
85
Инжиниринг Данных04 сент., 21:5020.9k5.9k33.36%
Скопировано!
Хорошая визуализация как работает giveaway в Телеграмме. Как обычно был хороший intention у product managers но по факту вреда от него больше. Жалко, что реальные люди могут и не выиграть. По источнику трафика все приходят по URL, где то есть агрегатор каналов с призами наверно. 😑
7 778
4
Инжиниринг Данных04 сент., 02:4020.9k5.9k33.36%
Скопировано!
Решили завтра сгонять в Seattle на пару деньков пока у детей не сильная загрузка. В среду в 6 вечера буду на Lake Union с сидром и семьей, подходите пообщаемся про рынок Seattle/US.
7 875
2
Инжиниринг Данных03 сент., 21:1620.9k5.9k33.36%
Скопировано!
Отвечаю очень развернуто на вопрос как стать дата инженером. В конце бонусом рассказываю про пользу сертификации, то есть бесполезность сертификатов при поиске работы.
IMG_8548.MP4
7 762
210
Инжиниринг Данных03 сент., 19:0020.9k5.9k33.36%
Скопировано!
7 149
0
Инжиниринг Данных02 сент., 19:1920.9k5.9k33.36%
Скопировано!
Вот и прошел наш 6ти дневный Surfalytics meetup в красивом Тофино на острове Ванкувер на берегу открытого Тихого океана.

6 дней пролетело незаметно, было 10 семей и каждый нашел свое, все попробовали серф и влюбились в это место как мы 9 лет назад. 

Мы были рады разделить эти дни с замечательной компанией и надеюсь в след году будет еще больше людей и еще больше дней. 

Instagram: https://www.instagram.com/surfalytics/

🌊🌊🌊
camp 2024.mp4
7 555
7
Инжиниринг Данных01 сент., 18:3620.9k5.9k33.36%
Скопировано!
В итоге за три дня я смог полностью пересобрать модель безопасности для Snowflake, понять, как работает Permifrost, и разблокировать все задачи, связанные с добавлением новых объектов в хранилище данных.

Заодно появился готовый проект для Surfalytics по использованию Permifrost, который мы будем изучать.

—-
PS: В чём ценность Permifrost и такого знания? Как мне видится, это отличная галочка в резюме для Analytics/Data Engineer. Очень полезная вещь для любого проекта в Snowflake и легко описывается в формате STAR (Situation, Task, Action, Result). Этому мы тоже будем учиться в Surfalytics.

А так интересно услышать от экспертов про:
1) Использовании Permiftost или альтернатив, как например Terraform, где можно создавать все объекта и давать права в одном месте
2) В целом про best practices RBAC
3) Как это делается в BigQuery, Databricks, Redshift и тп
Показать полностью ...
7 087
13
Инжиниринг Данных01 сент., 18:3620.9k5.9k33.36%
Скопировано!
Я часто слышал и видел Permifrost — утилиту для настройки прав доступа в Snowflake.

Permifrost — это Python-инструмент для управления правами доступа в Snowflake. Основная документация по его использованию доступна в проекте и на PyPI. Разработан в GitLab.

Одна из ключевых особенностей Snowflake — это удобное управление доступом с помощью Access Control Framework.

Внутри Snowflake у нас есть:
- база данных;
- внутри базы данных есть схемы;
- внутри схемы есть объекты: таблицы, вьюхи, процедуры.

Чтобы написать запрос, пользователь или сервисный пользователь должен иметь привилегии на объекты, например, на SELECT. Привилегий много, но для нас важно разделить их на категории READ, MODIFY и ADMIN — этого будет достаточно.

Все привилегии назначаются не конкретному пользователю, а роли, и уже потом мы назначаем роль пользователю.

Кроме DATABASE, ROLE, и USER есть ещё один важный элемент — это WAREHOUSE (вычислительный кластер). Часто для каждого сервиса можно выбрать свой compute, и таким образом легче отслеживать его стоимость.

Для меня все эти DBA-штучки в Snowflake довольно запутанные, и, если сильно углубляться, можно потратить много времени на планирование модели безопасности.

Безусловно, есть классные вещи, такие как IP Policy для пользователя — мы указываем список IP-адресов для сервисного пользователя, откуда могут приходить запросы. Dynamic Masking позволяет скрывать PII-данные для пользователей, у которых нет прав доступа к "красным" данным.

Обычно всё это настраивается с помощью команд GRANT, но легко потеряться в деталях. Поэтому Permifrost очень удобен: мы просто создаём YAML-файл, в котором описываем уже существующие объекты:
- ROLES (можно группировать по App, Base, Functional и т.д.; каждая роль может быть _admin
, _modify, `_view`);
- DATABASES;
- USERS;
- WAREHOUSES.

После этого мы выполняем команду, и все GRANT/REVOKE обновляются.

Обычно Permifrost разворачивается через Dockerfile и настраивается на запуск в GitHub Actions раз в сутки (на всякий случай, но если изменения редкие, то и расписание не нужно).

Таким образом, все изменения прав происходят через YAML-файл и Pull Request, что делает их полностью прозрачными для всех.

Пример статьи по теме: Snowflake RBAC Implementation with Permifrost  
Пример реализации от Meltano: [GitHub link](https://github.com/meltano/squared/blob/main/data/utilities/permifrost/roles.yml)

Теперь расскажу, как мне пришлось разбираться с этой штукой.

В проекте, который мне нужно было просмотреть и подправить, где до меня консультанты внедряли Snowflake и dbt, необходимо было создавать новые таблицы и давать права на чтение. Но почему-то на следующий день все мои GRANTы пропадали.

Потом я создал нового пользователя для BI и дал ему права на чтение всех баз данных, но на следующий день всё снова пропало.

В документации и репозитории была информация о Permifrost, но не было самого YAML-файла с конфигурацией, и вообще было непонятно, как изначально создавалась структура в Snowflake. Но по названиям было очевидно, что использовался какой-то шаблон.

Я написал консультантам, они ответили в духе «мы ничего не знаем, лошадь не моя». Мне всё равно нужно было создать модель безопасности и взять ситуацию под контроль. Очевидное решение — использовать Permifrost.

Проблема была в том, что если я начну менять права, то мой Permifrost может забрать права у сервисных пользователей, баз данных и т.д. А я тогда ещё не до конца понимал, как всё взаимосвязано.

Следуя любимым Amazon Leadership Principles — Bias for Action, Ownership, Deliver Results — я сразу начал менять продакшн в 10 вечера. Сначала отвалился Fivetran, затем оказалось, что у меня нет даже пароля от сервисного пользователя Fivetran. Методом научного тыка я разобрался, как выстроить взаимосвязь между YAML-спеком и Snowflake, сбросил пароль пользователя, и вроде бы Fivetran заработал. На следующий день я сломал dbt, но потом всё пошло быстрее.
Показать полностью ...
6 541
15
Инжиниринг Данных31 авг., 18:2620.9k5.9k33.36%
Скопировано!
7 095
2
Инжиниринг Данных31 авг., 18:0120.9k5.9k33.36%
Скопировано!
7 310
1
Инжиниринг Данных29 авг., 20:1820.9k5.9k33.36%
Скопировано!
Увидел пост в Linkedin и перевел его в chatgpt:

Я прочитал прогноз, что к 2030 году 80% разработчиков программного обеспечения будут заменены ИИ (или, что в противном случае, зарплаты сильно снизятся).

Я также посмотрел видео на YouTube, где один парень заказал приложение у разработчиков, работающих с no-code решениями, которые оказались быстрее, дешевле и лучше, чем обычные разработчики.

Я использую и Copilot, и ChatGPT в своей работе, но все же считаю себя разработчиком программного обеспечения, и хотя я нахожу эти инструменты потрясающими, мне сложно представить, как подобные прогнозы и утверждения могут стать реальностью, особенно в такие короткие сроки.

Буду благодарен за советы, чего я не замечаю! Какие-то конкретные прорывы или разработки помимо Copilot и ChatGPT, рабочие процессы или интеграции?

Вопрос понятный и актуальный. Мне понравился коммент от Gergely Orosz (автор The Pragmatic Engineer): 

Обратите внимание на то, кто делает такие прогнозы. Я вижу подобные предсказания почти исключительно от людей, работающих в компаниях с венчурным финансированием, создающих такие инструменты (их успех зависит от этого прогноза), от венчурных инвесторов, вкладывающих средства в те же компании, и от людей, которые не занимаются разработкой день за днем с использованием этих инструментов.

Я спросил разработчиков, которые используют эти инструменты каждый день, и почувствовал суровую реальность по сравнению со всем этим хайпом: ссылка.


От себя добавлю, что мне сложно предсказать, что будет с индустрией через пять лет. Возможно, такие опытные специалисты, как я, с пятнадцатилетним стажем выполнения примерно одних и тех же задач, будут востребованы в каком-то объеме. Однако начинать карьеру в качестве junior analyst в 2030 году, скорее всего, станет сложнее. Возможно, не столько из-за AI, сколько из-за количества кандидатов на рынке, которые прошли (и заплатили большие деньги) курсы и получили сертификат, подтверждающий, что они готовы "грызть" данные.

Сейчас я на собственном опыте вижу, что ChatGPT и Copilot иногда помогают мне выполнять работу быстрее, но явно не лучше. Качество работы зависит от опыта и навыков.

Например, у меня на велосипеде почти год не работал гидравлический тормоз. Я пытался его починить в мастерской, но мне говорили, что придется ждать неделю, чтобы просто прокачать масло. В итоге, времени все не хватало. И тут я зашел в небольшой магазин, и мастер за 5 минут и 10 долларов устранил проблему. Оказалось, что на моем gravel bike можно регулировать ручку тормоза под длину пальцев, и у меня она была неправильно настроена, из-за чего тормоз не работал.

То есть, у него многолетний опыт, и он видит всю картину целиком. Я бы заплатил ему и 50 долларов за 10 минут работы, потому что он действительно профессионал в своем деле.

Возвращаясь к AI, по моему скромному мнению, эти инструменты пока еще плохо воспринимают (бизнес-) контекст и общую картину. Они решают точечные задачи и автоматизируют узкие бизнес-процессы (например, поддержку).

В аналитике, как правило, очень широкий и уникальный контекст. AI может создать pipeline, дашборд, собрать метрики, но пока это еще далеко от реальности, и крупные компании не скоро смогут это внедрить. До сих пор многие компании используют Teradata/Oracle с 90-х годов. У них огромные бюджеты на AI, которые раньше тратились на ML, Big Data, Cloud и т.д.

В целом, нам не стоит беспокоиться по этому поводу, ведь мы не можем контролировать этот процесс. Но мы можем контролировать свою гибкость и всегда быть открытыми к новому (гибкое мышление), чтобы учиться и развиваться, о чем я часто пишу в этом канале.

Нашим детям будет сложнее, и все, что мы можем сделать для них — это создать комфортные условия для учебы и спорта. Математика, чтение, языки и спорт — и все будет отлично!

Ладно, а как вы себе представляете AI-апокалипсис?

Лично я больше боюсь землетрясения, которое уж точно лишит всех работы в IT, как это уже бывало раньше - The M9 Cascadia Megathrust Earthquake of January 26, 1700
Показать полностью ...
7 907
64
Инжиниринг Данных29 авг., 15:1020.9k5.9k33.36%
Скопировано!
Пора узнать аудиторию получше

Исследования аудитории необходимы, если бизнес не хочет тратить рекламный бюджет впустую. Когда проводить исследования, как они устроены и чем полезны — разберём 5 сентября на бесплатном вебинаре.
 
Вы узнаете:
 
✅ Как на основе данных об аудитории оптимизировать рекламные кампании
✅ Как строится аналитика на данных Big Data МТС
✅ Как находить тех, кто мог увидеть наружную рекламу и стал клиентом компании
✅ Какую информацию о пользователях анализировать в зависимости от задач бизнеса

Спикер — руководитель проектов исследований МТС Ads. Расскажет, как применять результаты исследований на практике, покажет кейсы и ответит на вопросы слушателей.
 
📅 5 сентября в 12:00 МСК
📌Онлайн
 
Участие бесплатное, но нужна регистрация.
 
Зарегистрироваться

Реклама. ПАО «МТС» ИНН 7740000076
Показать полностью ...
~06 сент., 15:05
5 955
13
Инжиниринг Данных28 авг., 17:1820.9k5.9k33.36%
Скопировано!
7 321
4
Инжиниринг Данных28 авг., 04:1620.9k5.9k33.36%
Скопировано!
Последние несколько лет ежедневные стендапы по 20-30 минут стали для меня невыносимы.

Они бывают разными:

• Каждый день можно выходить к доске и переклеивать sticky notes, если вы работаете в офисе.
• Online-встречи с коллегами, где каждый делает вид, что рассказывает, что он сделал вчера и что будет делать сегодня.
• Иногда проходят встречи для cross-команд, и тогда эта канитель занимает не 15-20 минут, а 30-40 минут. У нас было так: нужно было назвать следующего человека, вести учет из 20-25 людей, кто уже говорил, а кто — нет… Для меня это был настоящий челлендж.
• Когда я работал на ГКНПЦ им. Хруничева в должности мастера участка механообработки, каждое утро я обходил токарей, фрезеровщиков и слесарей, жал им руку и спрашивал про прогресс. К сожалению, они не собирались у доски, и мне приходилось искать их по цеху. Это тоже был своеобразный, но бесполезный стендап.

В общем, за последние два года я осознал, насколько круто проводить полностью асинхронные стендапы, где каждый пишет в thread в Slack о своём прогрессе. Это сразу освобождает больше времени на работу.

Кстати, такой метод внедрил один из моих бывших менеджеров, который много лет проработал в Meta, а до этого вышел на IPO вместе с Lyft и смог купить домик в Сиэтле за 4 миллиона долларов. Он был противником бесполезных встреч и сделал все нудные процессы полностью асинхронными. Это оказалось очень эффективно.

Очевидно, что это хорошо работает с опытными специалистами. А как быть с новичками и стажерами? Здесь лучше иметь onboard-бадди или ментора, который будет работать с ними над задачами.

Теперь у меня всё просто: если на митинге больше четырёх человек, включая меня, на 99% он бесполезен, и можно не ходить. Точнее, присутствовать надо, но мыслями и делами быть в другом месте, то есть заниматься работой.

А как у вас обстоят дела с ежедневными стендапами и другими церемониями?
Показать полностью ...
7 923
97
Инжиниринг Данных27 авг., 20:0720.9k5.9k33.36%
Скопировано!
10 лет назад все бежали в public cloud, а теперь повернулись на 180 градусов и бегут из public cloud. Интересный тренд. Думаю мы еще увидим много интересного как тренды меняются. 

Может оно и хорошо, что в РФ Яндекс и ВК облака еще не так сильно популярны, так сказать проскочили тренд и теперь снова в тренде на on-premise:)
7 900
75
Инжиниринг Данных27 авг., 06:2220.9k5.9k33.36%
Скопировано!
Несмотря на то, что Snowflake хороший продукт, у него много проблем с экономикой, которая не сходится. Изначально продукт был очень сильно раздут и мы видим как цена акций падает. А следовательно мотивация многих людей тоже может падать, ведь их total comp зависит как раз от цены компании.

Перевод поста:

Непопулярное мнение о #snowflake.

Уоррен Баффет известен тем, что никогда не инвестирует в программное обеспечение, но сделал исключение для Snowflake. Вероятно, он больше никогда не будет инвестировать в ПО, учитывая текущие результаты (цена ниже уровня IPO, отрицательная доходность за 4 года).

На мой взгляд, у Snowflake есть две большие проблемы:

1) Структурная: Snowflake должен был следовать тому же пути, что и Марк Бениофф в Salesforce. Марк обещал, что весь рынок CRM на базе локальных решений перейдет в облако, но через 25 лет только около 50% рынка находится в облаке. Марк быстро расширялся, приобретая крупные смежные бизнесы, такие как ExactTarget (автоматизация маркетинга), Mulesoft (API, обработка данных), Tableau (BI), ClickSoftware (и чуть было не LinkedIN).

Фрэнк Слутман отлично справился с задачей, заработав более $3 млрд на начальном кейсе использования облачного хранилища, но упустил возможность создания платформы. Кроме того, доходы компании полностью включают затраты на облако, так что это не чистый доход от ПО. Множитель должен быть больше похож на облачного провайдера, а не на SaaS/инфраструктуру.

Возможно, он неправильно оценил Snowflake, исходя из своего опыта в ServiceNow, которая является действительно устойчивой платформой. Snowflake следовало бы приобрести Confluent, Alation (каталог), Grafana Labs (BI + наблюдаемость), чтобы упомянуть лишь некоторых. Или сделать ставку на стартапы баз данных ClickHouse или PG. Также стоило бы агрессивно консолидировать MDS (современный стек данных), чтобы вытеснить Databricks. Более дешевые альтернативы Fivetran, DBT, Monte Carlo и т.д. Боюсь, что сейчас уже слишком поздно.

2) Тактическая: Databricks конкурирует с более дешевым озером данных и множеством вариантов запросных движков. Кроме того, в настоящее время клиенты хотят решения на основе "GenAI", и с учетом наследия структурированных данных, Snowflake не является первым местом, куда клиенты обращаются за AI.

И мы наблюдаем как Snowflake превращается в Enterprise компанию.

Мне нравится коммент от CEO Databricks:

All these years they kept saying that Snowflake's sales team is formidable. But the truth is that you need a technical sales team. Our CRO literally has a graduate degree in engineering from Stanford and can code. This makes all the difference in the world...

Все эти годы говорили, что у Snowflake мощная команда продаж. Но на самом деле вам нужна техническая команда продаж. Наш CRO имеет диплом инженера из Стэнфорда и умеет программировать. Это меняет все…

А как вам видеться противостояние 2х компаний?
Показать полностью ...
7 384
39
Инжиниринг Данных26 авг., 19:2020.9k5.9k33.36%
Скопировано!
У Microsoft утекли зарплаты в США. В принципе зарплаты похожи на реальность, в Канаде все тоже самое но в Канадских долларах, и на 15-20% меньше. 

Источник https://www.businessinsider.com/microsoft-spreadsheet-shows-pay-engineers-2024-8

Чтобы было понятно:
61, 62 - middle
63, 64 - senior
65, 66 - principal (staff нет позиции)

Более детально по уровням можно смотреть на levels fyi сайте, там можно сравнить другие тех компании и их роли.

Еще в Microsoft нет позиции Data Engineer, это Software Engineer. В описании позиции сложно понять, что будет делать человек, и только по стеку можно догадаться, что это про “хранилище данных”. Но как правило будет C# и Windows ноутбук. Навыки сложно конвертировать за пределами Microsoft.

Внутри Microsoft ужасный refer, если в Amazon можно было прыгать из команды в команду легко, то в Microsoft это практически не возможно, менеджеры ничего не могут сделать и просто вам не отвечают.
Показать полностью ...
8 358
238
Инжиниринг Данных19 авг., 20:5220.9k5.9k33.36%
Скопировано!
На этой неделе у нас будет потрясающий 5-дневный лагерь Surfalytics Surfing + Data в Тофино, Британская Колумбия. 

Это одно из самых красивых мест в Северной Америке с особой атмосферой 💕.

Что мы будем делать?
✅ серфинг для взрослых и бодисерфинг для детей
✅ рыбалка со скал на ужин
✅ походы
✅ велопрогулки
✅ сапсерфинг
✅ сауна
✅ ежедневный книжный клуб на 60 минут
✅ вечерние обсуждения данных
✅ обмен знаниями
✅ некоторые участники запланировали интервью на эти дни и могут воспользоваться коллективной помощью ;)

PS Когда то я просто мечтал, как было бы круто так сделать, а сегодня я это делаю! Не стесняйтесь в своих хотелках🏄‍♂️
Показать полностью ...
9 807
13
Инжиниринг Данных19 авг., 17:4720.9k5.9k33.36%
Скопировано!
Это значит что в эту неделю не будет тикетов
~19 авг., 18:06
566
3
Инжиниринг Данных19 авг., 15:4820.9k5.9k33.36%
Скопировано!
В субботу мы с Ромой Буниным очень классно посидели онлайн, 2,5 часа пролетело не заметно. 

За это время он меня пособеседовал на позицию BI разработчика/Аналитика и рассказал про зарплаты в Амстердаме.

Рома очень классно проводит собеседование и у него высокие ожидания по разработке дашбордов, качеству визуализации, и главное коммуникации с бизнес пользователями, чтобы докопаться до сути бизнес проблемы. И вообще у него высокий emotional intelligence и сильные soft skills, что делает его классным лидером для своей команды и компании.

На интервью:
- работал в Tableau
- писал SQL
- рассказывал на пример дашборда о его проблемах и возможностях улучшений
- пострарался решить бизнес кейс и сам увидел на своем опыте как сложно быть аналитиком

Ссылка на пост и видео https://t.me/revealthedata/1279

UPD: ссылка на dzen https://dzen.ru/video/watch/66c2ec9068b5661787f78482
Показать полностью ...
Reveal the Data
😎 Мокап: Инжиниринг Данных edition
В комментариях к предыдущему видео с интервью Дима Аношин предложил провести такое же с ним. Встречайте!

Получилось очень интересно и полезно. Специализация Димы — дата-инженер, но он справился с интервью лучше, чем многие BI-аналитики. Потому что опыт не пропьешь — Дима когда-то работал BI-аналитиком, да и инженеры данных работают рядом с BI. А ещё он спец как ввести себя на интервью и использовал много классных приёмов (их разберу в посте завтра). 

🍿Запасайтесь поп-корном или кофе и поехали!

👉 Видео на Ютубе 👈
0:00 — План и small talk
2:00 — BI-инструмент и SQL
38:52 — Основы дизайна
54:50 — Бизнес-кейс
1:17:55— Обратная связь, обсуждение работы за рубежом

По просьбам залил ещё на дзен.
@revealthedata @rockyourdata
8 328
84
Инжиниринг Данных17 авг., 15:0420.9k5.9k33.36%
Скопировано!
Вебинар «От сырых данных до готового AI-сервиса за 10 минут» 

30 августа в 17:00 будем разбирать и выполнять тестовое задание ML-инженера в BigTech. 

На собеседованиях в ИТ часто встречаются задания в стиле «описать путь от модели в локальном Jupyter-ноутбуке до готового сервиса, к которому можно обращаться по API».  

На вебинаре поговорим о способах решения подобных задач и о том, как сделать из любой ML-модели готовый сервис. Дополнительно разберем основные принципы и инструменты MLOps.

Вебинар будет полезен ML и MLOps-инженерам, Data Scientists, DevOps- и Data-инженерам, менеджерам технических продуктов.
 
Программа
 
🔹 Создаем готовый ML API в Jupyter-ноутбуке. 

🔹 Проводим версионирование модели, разбираем возможности и функции MLflow. 

🔹 Налаживаем жизненный цикл модели. 

🔹 Организовываем хранение ML-артефактов и пространство для командной работы над библиотекой моделей для разных задач. 

Регистрируйтесь на вебинар — мы пришлем ссылку на трансляцию в день мероприятия, а после вышлем запись.  

Зарегистрироваться бесплатно
Показать полностью ...
8 810
62
Инжиниринг Данных16 авг., 05:4720.9k5.9k33.36%
Скопировано!
Так, минутка инноваций в области управления, чтобы не было косяков как выше и и все дружно плодотворно хорошо работали, желательно за маленькие деньги (деньги портят людей🫣)

Встречайте, Trauma-Informed 

Если что Trauma-Informed Analytics & Data Engineering я уже занял. Но для вас есть опции:

->Trauma-Informed Excel Analytics
->Trauma-Informed burnout
->Trauma-Informed 1С разработка


Из ЖПТ:

Trauma-Informed — это подход, который учитывает воздействие травмы на человека и ориентирован на создание безопасной, поддерживающей среды, способствующей восстановлению и благополучию. Этот подход особенно важен в таких сферах, как образование, здравоохранение, социальная работа и психотерапия. Он включает понимание того, как травматические события могут влиять на поведение, эмоции и когнитивные процессы человека, и адаптирует методы взаимодействия с учетом этих факторов.

Основные принципы Trauma-Informed подхода включают:

 1. Безопасность: Создание физически и эмоционально безопасной среды для всех участников.
 2. Доверие и Прозрачность: Поддержание доверительных и честных отношений, открытая коммуникация и уважение к личным границам.
 3. Поддержка: Обеспечение эмоциональной поддержки и оказание помощи в восстановлении после травмы.
 4. Сотрудничество: Включение человека в процесс принятия решений, уважение его выбора и предпочтений.
 5. Учет культурных, гендерных и исторических факторов: Признание и уважение различий, связанных с культурным, гендерным или историческим контекстом.
 6. Предотвращение повторной травматизации: Избегание ситуаций, которые могут напомнить о травме и вызвать повторное переживание травматического опыта.

Этот подход способствует не только улучшению эмоционального состояния и качества жизни человека, но и более эффективному взаимодействию и предоставлению услуг.
Показать полностью ...
8 425
18
Инжиниринг Данных15 авг., 17:5120.9k5.9k33.36%
Скопировано!
Недавно в LinkedIn увидел реплику, что лучший data лидер, тот кто умеет говорить НЕТ. 

Очень легко говорить на все ДА, over promising, так сказать, но нагрузка ложится на команду, и часто это может быть операционка, которая вообще не вперлась для дата команды.

Как результат, если всегда говорить ДА всем, то создаются нереалистичные ожидания и начинает страдать work life balance (что видет к проблемам с mental health, или по нашему вы просто за…етесь работать в таком режиме и не успеваете отдыхать), а дальше вариантов несколько для инженеров:
1) продолжать работать в таком режиме от безвыходности 
2) свалить нафиг в никуда, если финансы позволяют
3) пытаться найти новую работу и желательно чтобы ЗПшка была +20% как минимум (кстати рабочий вариант)

Как результат long term будет большой fail ну или по простому бабки сжигаются на дату команду и value (КПД) низкое.

Чтобы фигачить в таком режиме должен быть очень высокий инцентив, например если это ваша компания или у вас компенсация в год такая, что любая альтернатива и рядом не стояла, и тогда буду силы дальше делать nonsense работу в ущерб своему спокойствию. Главные не срываться на семью и детей, когда на работе все полыхает, а мы вымещаем эмоции на семью. 

Интересно узнать что матерые манагеры думают? На западе я заметил, что инженеры как дети, захотели свалили, а менеджеру разгребать. Но я не менеджер и могу свалить😼
Показать полностью ...
7 354
40
Инжиниринг Данных15 авг., 03:4920.9k5.9k33.36%
Скопировано!
Что такое VCS и как с помощью неё уменьшить косты бизнеса?

Version Control System (VCS) — это система управления версиями, которая позволяет отслеживать изменения в коде софта или других файлах проекта.

С VCS вы можете вернуться к любой предыдущей версии софта, просмотреть историю изменений, а также работать над проектом в команде, избегая конфликтов.

Эта система позволяет разработчикам эффективно управлять проектами, независимо от их размера и сложности, экономя время и деньги. Таким образом, это повышение эффективности в управлении ресурсами дает компании возможность уменьшить косты.

Плюсы использования:
1️⃣История изменений — можно легко отследить, кто и когда вносил изменения, и откатиться на любую предыдущую версию;
2️⃣Параллельная работа — разработчики могут работать над разными частями проекта одновременно, не мешая друг другу;
3️⃣Резервное копирование — ваш код всегда будет безопасен, так как его копии хранятся на удаленном сервере;
4️⃣Простота коллаборации — легко делиться кодом с другими участниками команды;

Минусы использования:
1️⃣Кривая обучения — для новичков VCS может показаться сложным;
2️⃣Конфликты слияния — при работе над одними и теми же файлами могут возникать конфликты, которые нужно вручную разрешать;

Основные поставщики:
1️⃣GitHub — крупнейший репозиторий кода, предоставляющий как платные, так и бесплатные тарифы;
2️⃣GitLab — аналог GitHub с расширенными функциями DevOps;
3️⃣Bitbucket — поддерживает работу с приватными репозиториями бесплатно для небольших команд;
4️⃣Azure Repos — часть экосистемы Microsoft Azure, интегрируется с другими сервисами Microsoft;

Использование VCS — это ключ к эффективному управлению проектами и командной работе. Внедряя VCS в свои процессы, вы значительно упростите разработку и повысите её качество.

Присоединяйтесь к Data Verse

#технологии
Показать полностью ...
6 910
17
Инжиниринг Данных15 авг., 03:1620.9k5.9k33.36%
Скопировано!
История из жизни. 

Говорю директору у нас тут полный треш (tech debt, open source, операционка, все падает каждый день и вообще какая-то сухо…чка) и вообще нет никакого инцентива продолжать все это, и типа я сваливаю, давай до свидание. 

А он говорит, реально треш, надо валить, и спрашивает нет ли у меня вариантов для него🤣
6 290
48
Инжиниринг Данных14 авг., 23:2320.9k5.9k33.36%
Скопировано!
Я решил под конец дня выполнить недельный план и вместе со стажером и ChatGPT запушить код, но к сожалению GitHub умер на самом финише.

Я думаю у многих проблемы, ну можно закрывать ноут и гулять, еще лето! И надо переходить на импортозамещение

Статус https://www.githubstatus.com/
6 914
4
Инжиниринг Данных13 авг., 20:2720.9k5.9k33.36%
Скопировано!
И как раз Smart Data опубликовала мой доклад про архитектуры решений, которые я строил и вообще про срез знаний моей бурной data engineering деятельности. 

Дмитрий Аношин — Примеры реальных аналитических решений и дата-команд в западных компаниях

Я выступал у них 3 раза уже, но в этот раз без меня 😔.

Вообще изначально главная идея телеграмм канала была именно  писать контент на русском и летать в Москву/Питер выступать на конференциях. Очень надеюсь в будущем так и будет и выступлю на конференции в Москве и чего-нибудь расскажу, чему-нибудь научу📊
Показать полностью ...
Дмитрий Аношин — Примеры реальных аналитических решений и дата-команд в западных компаниях
Ближайшая конференция — SmartData 2024, 4 сентября (online), 8–9 сентября, (Москва + трансляция).
Подробности и билеты: https://jrg.su/KFFBS7
— —
Скачать презентацию с сайта SmartData — https://jrg.su/lwPwvf

Дмитрий работает кем-то вроде консультанта по внедрению современных аналитических решений как open source, так и коммерческих — Databricks, Snowflake. Кроме создания аналитических решений и архитектур для обработки сотен терабайт данных в различных индустриях, он также уделяет внимание аналитическим командам.

В докладе Дмитрий не учит вас, что правильно, а что нет, или как лучше создать аналитическое решение — в облаке AWS или Azure. Он делится рабочим опытом и наблюдениями их разных проектов. Для каждого проекта он рассказывает про типовую архитектуру, взаимоотношение с бизнес-пользователями и размер аналитической команды, а также про соотношение инженеров\аналитиков\менеджеров. А еще говорит про косяки и другие забавные вещи.
7 614
71
Инжиниринг Данных13 авг., 14:3720.9k5.9k33.36%
Скопировано!
Программа SmartData 2024 полностью готова! 

Конференция по инженерии данных пройдёт 4 сентября онлайн и 8–9 сентября в Москве с возможностью подключиться дистанционно. 

Участников ждут 42 выступления от опытных разработчиков и инженеров, дискуссии, BoF-сессии, Lightning Talks, а также игры и конкурсы от партнеров и афтерпати. 

Темы докладов:
✔ Database Internals
✔ Use Cases
✔ Data Management
✔ Data Tools
✔ DataOps
✔ Streaming
✔ Architecture of Data Platforms
✔ Data Management
✔ Cosmos

Уже сейчас можно оценить, какие доклады вам будут интересны, и принять решение о покупке билетов.

По промокоду ROCKYOURDATA
 вы получите скидку 15% на билеты «Для частных лиц».
Но выгоднее будет поучаствовать в конференции за счет компании. В этой статье на VC есть аргументы, почему это будет выгодно не только вам, но и работодателю. 

До встречи на SmartData!

Реклама. ООО «Джуг Ру Груп». ИНН 7801341446
Показать полностью ...
IMG_8217.MP4
~20 сент., 14:30
7 261
39
Инжиниринг Данных13 авг., 05:4020.9k5.9k33.36%
Скопировано!
Начал активно нанимать в BP в Куала- Лумпуре, столице Малайзии. Визу делаем. Нужны дата-аналитики (мидлы-синьоры-стафы),
Дата Инженеры (мидлы-синьоры-стафы-принципал), МЛ Инженеры (мидлы-синьоры-стафы-принципал)

Если есть желание, резюме можно прислать на maiia.malenko@bp.com
7 159
52
Инжиниринг Данных10 авг., 22:5420.9k5.9k33.36%
Скопировано!
По моему мнению, сейчас для всех людей кто начинает работать с данными в контексте аналитики важно с первого дня обучения или работы по профессии знать следующие вещи:

- Командная строка (CLI), та самая, которая у вас могла быть в школе на информатик в CMD. Сейчас если у вас MacOS, то Zsh с приятными плагинами Oh My Zsh, если Windows, то сразу ставьте Ubuntu WSL.

- Среда разработки (IDE), самый лучший вариант это VSCode. Бесплатно и есть плагины для всего. Отлично подойдет, чтоб редактировать файлы, писать код и запускать окошко с командной строкой.

- Git система. Самая популярная и бесплатная это GitHub. Создайте себе аккаунт и каждый день делайте туда commit,  через branch, чтобы потом сделать Pull Request. А еще вы можете бесплатно запостить свой сайт про себя, использую GitHub Pages. 

- Markdown - очень просто текстовый язык. Используйте его, чтобы создавать в каждой папке в вашем репозитории GitHub файлик readme.md и там описывайте шаги, храните код. Намного полезней, чем Google Doc. Конечно не так удобно как Notion, но пользы лучше. И в конце-концов ваш GitHub профайл, это ваш актив. 

- Контейнеры, используйте Docker File, потренируйтесь создавать к `DockerFile и потом к нему подключаться. 

Как правило все эти навыки не обязательны для аналитиков и BI разработчиков. Но это будет ваше преимущество и откроет вам много возможностей в будущем. А так же вы сможете быстро “въехать” в существующие проекты и понять, что где хранится и для чего делает, но и разговаривать на одном языке с инженерами. Да и быстрей станете сами инженером, ведь им платят больше!

PS Обо всем этом я рассказывал в 0м модуле Surfalytics (на английском) с упражнениями и примерами. В 1м модуле я рассказывал про роли и roadmap. А сейчас уже записываю 2й модуль и во 2м уроке мы использовали SQLite, Postgres на локальной машине, а потом тоже самое но в Docker контейнере. 

Возможно вам будет сложно на английском, но мой английский с русским акцентом вам должен быть понятен, и сам навык английского очень важен, я еще в 2010 году читал Kimbal на английском и различные блоги и документацию. Поэтому Surfalytics для вас как бесплатный сериальчик на английском с субтитрами. А если прям хотите каждый день практиковаться, приходите в Surfalytics сообщество.

PPS еще есть замечательная книга Missing Readme, которая на пальцах рассказывает, что зачем для junior software engineer. 

Подписывайтесь на YouTube, это мне поможет, я верю, что материал хороший, но сложно сейчас пробиться с 0, поэтому like, follow очень помогает!
Показать полностью ...
Surfalytics-Module0
Share your videos with friends, family, and the world
8 985
220
Инжиниринг Данных09 авг., 06:5020.9k5.9k33.36%
Скопировано!
Ребята из DevCrowd впервые проводят большое исследование специалистов, работающих в направлениях DS/ML/AI:

- что входит в обязанности той или иной профессии
- какие навыки наиболее важны и каких знаний не хватает
- сколько зарабатывать специалисты в зависимости от опыта и грейда
- а так же полезные для развития каналы, курсы и книги

Проходите опрос, рассказывайте про ваш опыт и помогите сделать исследование максимально охватным. Его результаты появятся в открытом доступе в конце сентября, и помогут вам сравнить свои ожидания с рыночными, построить план своего развития, и просто понять, что происходит с индустрией!

👉Пройти опрос

Посмотреть другие исследования проекта

PS не реклама, просто дружеский пост.
Показать полностью ...
Недушные рисерчи российского IT от Егора Толстого и Анны Симоновой, которые опросили уже 10000 айтишников
7 979
14
Инжиниринг Данных08 авг., 14:0320.9k5.9k33.36%
Скопировано!
Если ты системный аналитик с глубокой технической экспертизой, ждём тебя в команду SberDevices! 🖥 
 
Мы занимаемся разработкой умных устройств, виртуальных персонажей и продуктов на основе голосовых и речевых технологий. 
 
В твой скоуп задач будут входить ⤵️ 
 
▪️ Анализ, разработка и согласование требований к новому функционалу, доработка существующих модулей системы, описание API и протоколов, реализация задач по интеграции со сторонними сервисами. 
▪️ Участие в разборе инцидентов, анализ причин и последствий. 
▪️ Описание сценариев приёмочных испытаний реализованного продукта. 
 
Читай подробности и откликайся по ссылке 👌
Показать полностью ...
7 522
20
Инжиниринг Данных07 авг., 16:3420.9k5.9k33.36%
Скопировано!
Приходите на ML-тренировку Data Dojo Яндекса, которая пройдёт 14 августа в Петербурге!

На событии для начинающих в ML- и DS-сферах сможете послушать доклады победителей соревнований, узнать их лучшие решения и разобрать пару задач на офлайн-зарешке.

Среди спикеров:

🔹 Эдуард Мартынов, ВМК МГУ. Расскажет про обучение трансформеров для дискриминативных задач.

🔹 Александр Перевалов, HTWK Leipzig. Объяснит, как решать задачу извлечения данных, понимания и ответов на вопросы на основе таблиц из отчётности организаций.

🔹 Никита Синчинов, ML разработчик Яндекс. Поделится, как выиграть  серебро, используя лик предоставленных в данных.

Перед стартом докладов разберёте несколько задач с руководителем группы разработки Лаборатории машинного интеллекта Яндекса Радославом Нейчевым. А после — нетворкинг.

Для тех, кто не сможет прийти лично, будет трансляция.

Зарегистрироваться по ссылке можно уже сейчас.
Показать полностью ...
8 850
24
Инжиниринг Данных02 авг., 21:1720.9k5.9k33.36%
Скопировано!
Вот такие будут футблоки детские и взрослые.  Дети уже себе выбрали картинки, осталось все этого загрузить в Shopify и интегрировать с print-on-demand сервисом.
TShirts.mp4
10 077
5
Инжиниринг Данных31 июл., 17:2320.9k5.9k33.36%
Скопировано!
Для Surfalytics я уже закончил модуль 1 (он по счету 2й). В нем постарался понятным языком изложить всю суть аналитики и инжиниринга данных, чтобы было понятно вообще всем.

Я рассказал, что такое аналитика и какие у нее цели, рассмотрел пример бизнеса и конвертировал его в аналитическое решение с несколькими слоями, зачем рассказал какая роль за что отвечает.

Нарисовал Mindmap в котором указал все что важно/полезно знать, если в работаете с данными.

Детально разобрал road map для позиций Data Analyst, Analytics Engineer, Data Engineer и несколько бонус ролей - Support Engineer, Sales Engineer, Data Advocate/Evangelist.

Так же рассказал про виды дата команд и как они работаю в Agile, типичный пример про спринт из 2х недель.

Рассмотрел самые популярные типы файлов (JSON, CSV, PARQUET и тп) и вообще разные файлы которые можно встретить в репозитории, такие как .pre-commit.yaml
, makefile
, .gitignor и тп.

Рассмотрел аж 30 лет истории аналитических решений и ключевые инновации.

В качестве проекта по классике мы начинаем с дашборда в spreadsheet (Microsoft Excel). 

Ссылка на playlist: https://www.youtube.com/playlist?list=PLNCDg7zJiXhMMCNkqLZ568Twc_wkxpb6c

Осталось еще 11 модулей🙃
Показать полностью ...
module1intro.mp4
10 554
98
Инжиниринг Данных30 июл., 19:1720.9k5.9k33.36%
Скопировано!
Выше я просил скинуть ссылки для релокации и поиска работы за границей, вот результат:

Телеграмм Каналы

https://t.me/unipage_study_abroad/1676 образование за рубежом

https://t.me/zarubezhom_jobs - Вакансии от 200+ зарубежных компаний с русскоговорящими фаундерами или командами. Наши читатели уже получили 100+ офферов в InDrive, Revolut, Wheely,  Finom и другие компании💙

https://t.me/relohub_dn - Рассказываем, консультируем и помогаем в получении ВНЖ Испании на 3 года. Связаться с нами и задать вопросы можно тут: @relohub_spain. Наш сайт: [relohub.ru](http://relohub.ru/)

@portugal_migrun Сообщество номадов, фрилансеров, IT да и просто хороших людей, в процессе эмиграции =) Задаем вопросы, делимся опытом и поддерживаем друг друга! https://app.migrun.tech/ru/portugal

@o1eb1eb2 O1 виза, EB1 EB2 NIW гринкарта

@visatalents Чат создан чтоб помогать участникам в подготовки и получения визы для релокации в том числе в США, Великобританию, Францию, Канаду и Австралию.

@relocationdev Свежие новости: как и куда уехать, где получить ВНЖ и как забрать котика с собой.

@relocate_easy ✈️Канал по эмиграции/релокации

@astonspassport Канал “Nomad”

@relocateme IT jobs with relocation assistance, international job search tips, relocation stories, and more. Official website: [https://relocate.me](https://relocate.me/).

Сайты

http://rusforum.ca/ - форум про Канаду и программы иммиграции

https://www.gday.ru/forum/ - форум про Австралию

Есть еще целый раздел как иммигрировать в Россию. Недавно мои знакомые в Канаде получили Российское гражданство. Мы их знаем лет 7 и все это время они хотели получить гражданство и это очень сложный процесс, но этим летом все получилось. Но к сожалению на концерт Агутина они опоздали☺️

В целом для каждой страны в каждый отдельный момент времени есть свои программы. 

Например в Канаду раньше были провинциальные программы, а вот сейчас все кого я знаю переехали через учебную программу. 

В Европе многие находят хорошие варианты по Digital Nomad визам в Португалии и Испании.
Показать полностью ...
8 843
240
Инжиниринг Данных30 июл., 06:5920.9k5.9k33.36%
Скопировано!
Mindbox ищет Senior Data Engineer-ов, чтобы усилить команду внутренней платформы данных.

Локация: можно полностью удаленно или из офисов в Москве/Ереване
Деньги: до 500net 

Строим DeltaLake на Spark и подход DataMesh, чтобы доменные команды могли быстро и без посредников использовать данные друг друга для развития своих продуктов.

Ожидаем: 
- Опыт решения сложных задач простым в поддержке и понимании кодом (ООП, SOLID, автотесты)
- Знание Python как родного, опыт промышленной разработки на статически типизированных языках C#/Java/Scala/Kotlin/C++

У нас: 
- Современный Big Data стек
- Выделяем существенный ресурс (>30% времени) на уменьшение техдолга и поддержки
- Особенная культура: открытые зарплаты, право принять любое решение у каждого. Прямая обратная связь, возможность выбирать технологии и влиять на бэклог
- Well-being-программы: 300 000 ₽ в год на софинансирование образования, медицины, спорта, путешествий.

Ссылка на вакансию: https://hh.ru/vacancy/92849363?hhtmFrom=employer_vacancies
Резюме присылать Кате @ktitovaa
Показать полностью ...
Вакансия Senior Data Engineer в Москве, работа в компании Mindbox
Зарплата: до 500000 ₽. Москва. Требуемый опыт: 3–6 лет. Полная занятость. Дата публикации: 23.07.2024.
7 094
74
Инжиниринг Данных29 июл., 06:5920.9k5.9k33.36%
Скопировано!
💫 Яндекс устраивает технологический Код-хоппинг 8 августа!

Встретимся в Петербурге, чтобы потусить и послушать короткие лайтнинги от коллег. Переключимся с работы на живое общение — так мы сможем не только подзарядиться, но и поймать новые идеи! В программе — прогулка по трём барам, настойки и коктейли, codebattle, задушевные разговоры и крутая вечеринка!

✉️ Заполняйте форму и регистрируйтесь уже сейчас! А если хотите рассказать о проекте или увлечении, приложите к форме тему и тезисы.

До встречи на Код-хоппинге! 🎉
Показать полностью ...
IMG_8052.MP4
7 774
16
Инжиниринг Данных26 июл., 17:0320.9k5.9k33.36%
Скопировано!
Всем привет! Поделитесь пожалуйста ресурсами (телеграмм каналами, сайтами, форумами, агентствами) которые помогают с переездом в Европу, США, Канаду, Южную Америку или может быть поделится своими историями.

Будет полезно для всех подписчиков! 

Или можете мне в личку скинуть, я потом опубликую список а то бот трет ссылки;

Спасибо!
8 677
18
Инжиниринг Данных26 июл., 06:2820.9k5.9k33.36%
Скопировано!
И на всякий случай!

Как казаться умным
- Спрашивайте "А будет ли это масштабироваться?" независимо от темы разговора
- Просите вернуться на один слайд назад без всякой причины
- Побуждайте всех "сделать шаг назад"
- Повторяйте последнюю фразу инженера, но очень медленно
- Спрашивайте, задаем ли мы правильные вопросы
- Ходите по комнате
- Выйдите и сделайте вид, что получили важный телефонный звонок
- Спрашивайте, не смешиваем ли мы несколько вопросов
- Перебивайте чье-то обновление, а затем дайте им закончить
- В онлайн звонке отправить emoji или reaction, и похвалить спикера
- Спросить про следующие шаги и action plan
- Уточнить сроки (dead line)
- Спросить есть ли у нас OKR и как мы будем их измерить?
- На всякие случай спросить, а результат точно имеет tangible output? 


Дополните список!
Показать полностью ...
12 249
285
Инжиниринг Данных25 июл., 19:4820.9k5.9k33.36%
Скопировано!
Ну что тут говорить…. Все так🤱

Другой вопрос если с деньгами все порядке, можно себе позволить быть loyal или просто пилить стартапчик для души🍟
8 879
33
Инжиниринг Данных25 июл., 17:2120.9k5.9k33.36%
Скопировано!
Сегодня я узнал новый термин - Data Clean room. Вообще никогда не слышал. Оказывается популярная штука:

Databricks: https://www.databricks.com/discover/enterprise-data-platform/clean-room
Snowflaek: https://www.snowflake.com/trending/data-clean-room-for-business-growth/
Big Query: https://cloud.google.com/bigquery/docs/data-clean-rooms

Возможно опять buzz words и hype, и вендоры как обычно пользуются непониманием 😒

По факту это возможность предоставить данные в безопасной среде, где можно применить data masking, раздать права и производить мониторинг/аудит.

Все 3 вендора выше имеют функциональность Data Sharing. Но из статей вообще не понятно о чем они…

Кто нибудь строил clean room? Именно задача была сделать clean room (то есть термин использовался)
Показать полностью ...
What Is a Data Clean Room? | Databricks
Discover how Databricks' Clean Room enables secure data collaboration and analysis while maintaining privacy and compliance.
7 846
36
Инжиниринг Данных24 июл., 16:3520.9k5.9k33.36%
Скопировано!
в 20:00 начинаем
7 007
1
Инжиниринг Данных23 июл., 20:1620.9k5.9k33.36%
Скопировано!
Продолжаем нашу тему про Lakehouse. Самое важное это формат таблицы (table format).

Формат таблиц — это метод структурирования файлов набора данных, чтобы представить их как единую "таблицу". 

Основная цель формата таблиц — предоставить абстракцию, которая позволяет пользователям и инструментам легко и эффективно взаимодействовать с данными.

Форматы таблиц существуют с момента появления реляционных СУБД, таких как System R, Multics и Oracle. Эти системы позволяли пользователям обращаться к набору данных как к таблице, абстрагируя сложные детали хранения данных на диске.

В современных системах большие объемы данных хранятся как файлы в хранилищах данных (например, Amazon S3, Azure Data Lake Storage, Google Cloud Storage). Использование SQL или кода для работы с этими файлами может быть неудобным и приводить к несогласованности данных.

Изначально изобрели Hive и он стал стандартом формата таблиц. Hive был разработан Facebook в 2009 году для упрощения аналитики в Hadoop, предоставляя возможность писать SQL-запросы вместо сложных задач MapReduce. (MapReduce писался на Java🫣)

Формат таблиц Hive определяет таблицу как все файлы в указанной директории и использует Hive Metastore для отслеживания этих таблиц. 

Простой пример:
Если вы запустите Apache Spark локально и создать с помощью Spark SQL таблицу или вью, то метанные сможете найти в Hive Metastore. В Databricks Hive тоже по умолчанию, но там лучше подключить Unity Catalog. В AWS Glue, лучше использовать Glue Catalog и тд. А так все это про метанные и их управление.

Преимущества Hive:
- Поддержка более эффективных запросов благодаря техникам, таким как разделение и хеширование.
- Независимость от формата файлов, что позволяет использовать такие форматы, как Apache Parquet.
- Возможность атомарных изменений на уровне разделов таблицы.

Недостатки Hive:
- Неэффективность изменений на уровне файлов.
- Отсутствие механизма для атомарного обновления нескольких разделов.
- Проблемы с одновременными обновлениями.
- Замедление запросов из-за необходимости чтения и списка файлов и директорий.
- Ограниченные статистические данные для оптимизации запросов.
- Проблемы с производительностью при большом количестве файлов в одном разделе.

Современные форматы таблиц, такие как Apache Iceberg, Apache Hudi и Delta Lake, решают проблемы Hive, определяя таблицы как канонический список файлов, а не директорий. Это позволяет реализовать функции, такие как транзакции ACID и "путешествие во времени". (Прям как у Snowflake😏)

- Apache Iceberg: Разработан в 2018 году в Netflix для обеспечения ACID-транзакций и улучшения производительности при работе с большими данными в озерах данных.

- Apache Hudi: Создан в 2016 году в Uber для поддержки инкрементных обновлений и предоставления ACID-гарантий в больших наборах данных. (Наиболее устаревший)

- Delta Lake: Создан Databricks в 2019 году для обеспечения надежных транзакций и управления данными в озерах данных, улучшая их производительность и надежность.

Преимущества современных форматов таблиц:
- Поддержка транзакций ACID.
- Безопасность транзакции при одновременной записи в файл
- Сбор статистики и метаданных для более эффективного планирования запросов.

Поэтому работая с данными сегодня, вы будете работать либо с аналитическим хранилищем данных (не важно, что у них внутри) BigQuery, Redshift, Snowflake и тп, либо использовать Lakehouse решения и один из 3х популярных открытых форматов данных. Таким образом scope инженера данных и не такой-то уж и большой.  

Лучший вариант понять все это - сделать pet проекты. Взять один сценарий и реализовать его разными способами, даже если на входе всего 100 мб JSON файлов. 

Мне кажется 30-40% типичного собеседования на дата инженера проходи за обсуждение плюсов и минусов того или иного решения.
Показать полностью ...
7 973
90
Инжиниринг Данных23 июл., 10:3420.9k5.9k33.36%
Скопировано!
Увидел вакансию VP data на зарплату до 217к CAD. При этом иногда Sr Data Engineer 180к-200к, чтобы несколько часов в день код пописать, баги пофиксить и дальше своими делами заниматься и митингов 4 штуки в неделю. Вы точно хотите быть VP в Канаде?!🫣
7 085
32
Инжиниринг Данных23 июл., 05:2220.9k5.9k33.36%
Скопировано!
Теперь про Data Lakehouse

Архитектура data lakehouse объединяет преимущества хранилищ данных и озер данных, предоставляя высокую производительность и простоту использования, а также низкие затраты и гибкость.

Основные преимущества Data Lakehouse:

Сочетание хранилищ и озер данных: Data lakehouse использует механизмы, которые позволяют реализовать функции, характерные для хранилищ данных (гарантии ACID, лучшая производительность, консистентность), на основе инфраструктуры озер данных.
Единое хранилище данных: Данные хранятся в тех же местах и форматах, что и в озере данных, но за счет нового формата таблиц улучшаются производительность и гарантии ACID.

Уменьшение копий данных: Благодаря ACID-гарантиям и улучшенной производительности можно выполнять обновления и другие манипуляции с данными в lakehouse, снижая количество копий данных и, соответственно, затраты на хранение и вычисления.
Быстрые запросы: Оптимизации на уровне движка запросов, формата таблиц и формата файлов позволяют получать инсайты быстрее.

Исторические снимки данных (snapshots): Форматы таблиц lakehouse позволяют сохранять исторические снимки данных, что облегчает восстановление и проверку данных.

Экономичность: Data lakehouse помогает снизить затраты на хранение и вычисления по сравнению с традиционными хранилищами данных.

Открытая архитектура: Использование открытых форматов, таких как Apache Iceberg и Apache Parquet, предотвращает зависимость от поставщиков и позволяет использовать различные инструменты для работы с данными.


Если по простому, то Lakehouse это взять лучшие свойства Data Warehouse и лучшие свойства Data Lake и смешать их.

Lakehouse = DW + DL.

Самый яркий пример Lakehouse это Databricks. 

Что такое Databricks? Это просто визуальные машины со Spark, которые читают данных из облачного сториджа (AWS S3, Azure Storage, GCP bucket). Если данные у нас в формате Parquet, ORC, CSV, JSON, то это просто обычное озеро данных. А вот если мы будем использовать специальный формат таблицы (table format) Delta, Iceberg, Hudi, то уже Lakehouse.

Другой пример такой архитектуры это Snowflake. Мы привыкли, что Snowflake это хранилище данных, хотя по факту это такой же decouple между Storage (sharing everything) и Compute (sharing nothing). Единственный минус (он же и плюс) - данные хранятся в свое собственном формате, чтобы клиенты из-за высоких расходов кредитов не убежали к Databricks🤱

Еще пример Lakehouse:
- AWS Athena + Iceberg
- Trino + Iceberg
- Synapse Serverless + Delta

Выбор как это хостить:
- ( Managed Service) ( Пример Athena, Synapse Serverless, GCP Dataproc Spark, EMR Servrless, AWS Glue)
- (Managed) Kubernetes (Пример Trino, Clickhouse, DuckDB)
- PaaS (Пример Databricks, AWS, EMR, Azure HDInsights, Synapse Spark)
- On-premise (Hadoop + HDFS)

Когда что использовать? Ну здесь сами понимаете, зависит от команды и бюджета. Можно просто и дорого, можно сложно и дорого (возможно подешевле за инфу, но команда будет больше и дороже). 

Мне как простому инженеру вообще все-равно, главное чтобы ЗП капнула вовремя😊 

А так прикольно понимать разница и уметь работать с этим зоопарком🥂
Показать полностью ...
8 018
99
Инжиниринг Данных22 июл., 23:1920.9k5.9k33.36%
Скопировано!
Недавно посетила мысль, что телеграмм каналы делятся на 2 типа:

1) Телеграмм канал, который ведет автор, и делится своими идеями, мнениями, да хоть предпочтениями во вкусах мороженного. Но сам факт того, что телеграмм канал имеет живое “лицо” как-то располагает и его интересно читать.

2) Телеграмм канал, который посвящен какой-то теме, но он обезличенный, “бездушный”. Набор ссылок, новостей, мемов, часто бесполезных и противоречивых.

Почему-то с недавних пор 2ой типа каналов совсем стали неинтересны, а вот 1й тип, наоборот. Мне горазде интересной узнать как дела у автора, чем живет, что думает, куда двигается и тп. Это как сериал с любимыми актерами, но только в реальной жизни.

А как у вас?
Показать полностью ...
6 425
10
Инжиниринг Данных22 июл., 18:1820.9k5.9k33.36%
Скопировано!
📢 Друзья! 📢

В среду на канале DataLearn вебинар! 
Тема: "Использование RAG и AI-агентов для поддержки клиентов" 🤖💬

🗓 Дата: 24 июля
🕗 Время: 20:00 по МСК

👨‍💻Спикер - CTO Wikibot Роман Чуприков! 
Ребята уже приходили к нам и рассказывали про LLM модели🌟

Что обсудим:
🔸 Введение в Retrieval Augmented Generation (RAG) — торт или провал? 🍰❌
🔸 Парсинг данных — скучно, но важно! 📊
🔸 Разбиение документов на фрагменты и семантический поиск. 📚
🔸 Идеальный промпт существует? Как сделать так, чтобы бот отвечал «Я не знаю». 🤔
🔸 Первая линия поддержки — корректные ответы на важные вопросы. 🛡
🔸 От ответов к действиям — как обучить бота задавать уточняющие вопросы и работать с тикетами.
🔸 Бортовой журнал — интерфейс для постоянного дообучения бота.

Не пропустите! 🌟

👉 Ссылка на вебинар: https://youtube.com/live/IQjmR6jIlV0

Будем рады видеть вас! 😃👋
#datalearn #вебинар
Показать полностью ...
ИСПОЛЬЗОВАНИЕ RAG и AI АГЕНТОВ ДЛЯ ПОДДЕРЖКИ КЛИЕНТОВ / РОМАН ЧУПРИКОВ / DATALEARN
🎙 Спикер Роман Чуприков - CTO Wikibot. 
🔗https://wikibot.pro

🔍 Что мы обсудим на вебинаре:
Использование RAG для поддержки клиентов на основе существующей базы знаний — торт или провал?

🔸Краткое введение в Retrieval Augmented Generation — подход к созданию приложений, в котором большая языковая модель без дополнительного обучения отвечает на вопросы с использованием информации из внутренней базы знаний или документов компании.
🔸Парсинг данных — скучно, но крайне важно для улучшения качества ответов.
🔸 Особенности разбиения документов на фрагменты и зачем нужны векторные базы. Семантический поиск по базе знаний.
🔸 Идеальный промпт существует? Как заставить бота отвечать «Я не знаю», а не придумывать ответ.
🔸 Первая линия — как гарантировать корректные ответы на самые важные вопросы.
🔸 От ответов к действиям — как научить бота не только отвечать пользователям, но и задавать уточняющие вопросы, открывать и закрывать тикеты и узнавать информацию из других систем.
🔸 Бортовой журнал — главный интерфейс для постоянного дообучения бота.
🔸 AI-агенты  — уже настоящие. Ведение диалога, поддержка контекста, вызов функции. 
🔸Openai Assistant vs Свой агент

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.

🔥 Самые актуальные новости про аналитику в Telegram канале:  https://t.me/rockyourdata
🔥 Телеграм канал DataLearn: https://t.me/data_learn
🔥 Чат DataLearn: https://t.me/datalearn_chat
7 073
54
Инжиниринг Данных21 июл., 22:3620.9k5.9k33.36%
Скопировано!
Ежегодная вечеринка с bbq и танцами в центре Ванкувера Surfalytics&Friends
6 782
3
Инжиниринг Данных21 июл., 19:4020.9k5.9k33.36%
Скопировано!
17 августа в Москве будет IT-пикник. 
Это мероприятие для профессионалов IT-сферы, и на этот раз вход на пикник будет по пожертвованию в один из десяти благотворительных фондов. 💡💻

В программе IT-пикника:
📚 Лекции от топовых спикеров
🛠 Воркшопы для взрослых и детей
🔬 Научпоп-программа
🎮 Интерактивные зоны
🎵 Музыкальная программа

Ребята из Карельского регистра доноров костного мозга, который помогает пациентам с лейкозом найти совместимого донора стволовых клеток, попросили рассказать про мероприятие и упомянуть их фонд, так как участники it-пикника сами выбирают, в какой из благотворительных фондов будет перечислен их взнос. Все фонды с хорошей репутацией и заслуживают доверия. Каждый из них решает проблемы в определенной сфере: помогает онкопациентам, бездомным животным и так далее.

Для многих таких пациентов донорство – это последний шанс на выздоровление💖
Так ваше пожертвование в этот фонд поможет оплатить обследование новых доноров, каждый из которых может спасти жизнь. 

IT-пикник – это замечательная возможность объединить приятное с полезным: посетить интересное мероприятие и помочь в спасении жизней. 🙌

Спасибо за вашу поддержку! ❤️
Показать полностью ...
ИТ-пикник в Москве 17 августа 2024 года
ИТ-фестиваль в парке Коломенское в Москве 17 августа 2024 года. Программа мероприятий в Москве для опытных ИТ-специалистов. Стать спикером на ИТ конференции в 2024 году. Посмотреть презентации и лекции с ИТ-фестиваля. Семейный фестиваль в Москве. Стать партнером ИТ мероприятия
6 644
34
Инжиниринг Данных19 июл., 16:4720.9k5.9k33.36%
Скопировано!
Что пишут про главный сбой Microsoft?

Перевод от поста Gergely Orosz, автора Progmatic Engineer.

Ух ты: мы находимся в середине, вероятно, крупнейшего глобального программного сбоя: аэропорты, больницы, аптеки, авиакомпании, железнодорожные службы, телекомпании, супермаркеты и многое другое не работает. Вот что мы знаем:

(Ниже фото из аэропорта Сиднея, где большинство экранов показывают синий экран смерти Windows, а планы путешествий нарушены из-за этого сбоя.)

Сбой затронул машины на Windows, которые используют Crowdstrike для защиты конечных точек (антивирус, файрвол, обнаружение вторжений, шифрование и контроль приложений).

Crowdstrike - это компания по кибербезопасности, оцененная в $80 миллиардов, и лидер рынка в области защиты конечных точек Windows с долей рынка около 22%. Таким образом, 1 из 5 компаний, использующих Windows, пользуется их услугами.

По-видимому, Crowdstrike выпустила достаточно невинное обновление программного обеспечения... на все машины Windows, по всему миру, практически одновременно. Программное обеспечение Crowdstrike работает на уровне ядра: и это обновление вызывает сбой Windows.

Обычно, когда баг в коде попадает в продакшн: вы просто отменяете это изменение и выпускаете предыдущую версию (или код, который работает корректно), и когда клиенты получают этот патч, их системы восстанавливаются. Но не в этом случае: потому что эти машины не функционируют.

Решение - как советует Crowdstrike - ручное и трудоемкое, и его нужно повторить для каждой машины на Windows, которую затронул сбой. Машину нужно загрузить в безопасном режиме, удалить файл, затем перезагрузить.

Что непонятно в этом сбое, так это как (и почему?) Crowdstrike выпустила глобальное обновление программного обеспечения без постепенного развертывания (так называемого развертывания с канарейками)? Это не имеет смысла, и ни один поставщик кибербезопасности с разумными практиками развертывания никогда бы не сделал этого. Насколько нам известно, это "глобальное развертывание" больше похоже на "YOLO развертывание" (мы рассматривали подходы к развертыванию в продакшн в The Pragmatic Engineer, включая YOLO развертывания на https://lnkd.in/dsQzhQ7). YOLO развертывания подходят, когда неважно, если развертывание пойдет не так, и достаточно просто вернуть все назад. Развертывание, которое может вывести из строя большинство ваших клиентов, не должно экспериментировать с этим подходом.

Для меня непостижимо, как можно было обойти постепенное развертывание: как это не стало обязательным процессом для всех развертываний, больших или маленьких. Последствия этого сбоя, несомненно, будут заметны на глобальном уровне ВВП - и это будет очень плохая новость для бизнеса Crowdstrike в будущем (кто захочет работать с поставщиком безопасности, который вызывает сбой 100% машин на Windows, на которых установлено их ПО, когда оно должно их защищать?)

Мой главный вывод заключается в том, что постепенные развертывания/canaries никогда не должны пропускаться, когда ваше ПО используется для работы важной или критической инфраструктуры.


PS кто-нибудь заметил сбой?
Показать полностью ...
7 721
93
Инжиниринг Данных19 июл., 16:3820.9k5.9k33.36%
Скопировано!
Все так - white male - это самый главный minority на западе🫣
6 443
50
Инжиниринг Данных19 июл., 06:5920.9k5.9k33.36%
Скопировано!
Обучаем IT-специалистов и берём в команду ⚡️

Лучших выпускников пригласим на интервью и предложим карьерный фаст-трек до мидла в Т1.

🎓 Открытые школы Т1 — это месяц онлайн-интенсива с возможностью попасть в штат Холдинга Т1 — крупнейшей ИТ-компании в России по версии RAEX 2023, в портфеле которой 800+ масштабных проектов и 70+ продуктов и услуг.

Зачем участвовать?

⚙️ Уникальный рыночный опыт. Одними из первых на рынке внедряем технологии для управления данными. В ближайшем будущем ими будут пользоваться большинство крупных предприятий страны.

⚙️ Попасть в число лучших. Проекты Т1 ежегодно получают лучшие награды на ИТ-конкурсах: Global CIO, Национальная банковская премия и др.

⚙️ Поддержка. Нам удалось собрать команду опытных профессионалов в области разработки хранилищ данных и аналитических систем, которые помогут расти и развиваться.

Выбирай:

📁 аналитик DWH
🖥 разработчик DWH 
📊 системный аналитик

Для участия нужен опыт работы от 1 года в выбранном направлении.

⏰ Быстрое обучение: 1 месяц
📱 Гибкий формат: онлайн по вечерам (от 8 часов в неделю на вебинары и практику)

Подавай заявку до 24 июля! 
Старт интенсива: 29 июля.

Реклама. Информация о рекламодателе
Показать полностью ...
Видео_ОШ.mp4
6 568
58
Инжиниринг Данных18 июл., 20:3820.9k5.9k33.36%
Скопировано!
6 544
3
Инжиниринг Данных18 июл., 17:5620.9k5.9k33.36%
Скопировано!
Мы рассмотрели компоненты хранилища данных, теперь озеро данных. К нему можно применить термин decoupled.

Изначально использовался Hadoop — открытая распределенная вычислительная платформа и компонент файловой системы HDFS для хранения и обработки больших объемов структурированных и неструктурированных данных на кластерах недорогих компьютеров. Для аналитики использовался MapReduce, но написание задач было сложным, поэтому был создан Hive для преобразования SQL-запросов в задачи MapReduce.

Со временем перешли от кластеров Hadoop к облачным объектным хранилищам (Amazon S3, Minio, Azure Blob Storage) из-за удобства и дешевизны. MapReduce заменили другие распределенные движки, такие как Apache Spark, Presto и Dremio. Однако формат таблиц Hive остался стандартом для распознавания файлов как таблиц для аналитики.

Ключевое отличие озера данных от хранилища данных — возможность использования разных вычислительных движков для различных задач. В озере данных нет службы, выполняющей функции движка хранения; обычно движок вычислений решает, как записывать данные, которые редко оптимизируются и совершенствуется.

Преимущества:
- Низкая стоимость: Хранение данных и выполнение запросов дешевле, чем в хранилище данных.
- Открытые форматы хранения: Можно использовать любые форматы файлов.
- Обработка неструктурированных данных: Озера данных могут обрабатывать данные, такие как данные сенсоров, вложения электронной почты и журналы.

Недостатки:
- Производительность: Отсутствие встроенных оптимизаций, таких как индексы и гарантии ACID, приводит к необходимости значительных усилий для достижения производительности, сравнимой с хранилищем данных.
- Сложная конфигурация: Необходимость значительных инженерных усилий для настройки и оптимизации компонентов.
- Отсутствие гарантий ACID: Нет встроенных транзакционных гарантий, что усложняет задачи, требующие строгой целостности данных.

Хранилище данных или озеро данных?
Озера данных хорошо подходят для хранения структурированных и неструктурированных данных, но имеют свои недостатки. Для высокоприоритетной аналитики данные часто копируются в хранилище данных, что приводит к дополнительным затратам и созданию множества копий данных, что не очень удобно и очевидно дороже.

Для выполнения запросов на озере данных можно использовать движки, такие как Dremio, Presto/Trino, Apache Spark и другие, но они сталкиваются с трудностями при обновлении данных из-за ограничений формата таблиц Hive.

Таким образом, озера данных и хранилища данных имеют свои уникальные преимущества и недостатки, что привело к появлению новой архитектуры, сочетающей их плюсы и минимизирующей минусы, — Data Lakehouse.


Как я первый раз познакомился с Lakehouse?
Был 2021 год, я был в Amazon Alexa, у нас было много данных и централизованный Redshift на 128 нод (максимальное кол-во нод) использовался для BI use cases. Redshift (хранилище данных) был единственный вариант для BI (отчетность), так как подключаться к озеру данных через Athena, Hive, Spark было не очень удобно из-за объема и особенности BI.

Тем не менее у Alexa было и озеро данных (upstream) на S3 и EMR (managed Hadoop). И там не было проблем с производительностью или хранением большого объема данных. Главная проблема была подружить это с BI и поэтому приходилось выгружать из озера и грузить в хранилище, а потом еще раз выгружать из хранилища обратно в S3 для ML. 

Как раз в это время вступил в силу закон про data privacy (GDPR), для нас это простая задача - удалить CUSTOMER_ID(s) по запросу клиента раз в неделю. Это очень просто в реляционном хранилище данных, но очень сложно в озере данных (так как у вас просто куча файлов)

Поэтому мы стали смотреть в сторону Lakehouse, и первый open source был Delta для Spark. 

Я как разу перешел в Xbox, и у меня была идея построить Delta Lake на Databricks, что я и сделал. Тогда Delta Lake был топ формат таблицы (теперь то мы знаем, что это не формат файлов). А вот сейчас походу надо уже строить на Iceberg.  Хотя в Databricks все еще по умолчанию используется Delta. 

А как было у вас?
Показать полностью ...
7 176
75
Инжиниринг Данных18 июл., 01:3720.9k5.9k33.36%
Скопировано!
А вот и книжка!
6 735
5
Инжиниринг Данных17 июл., 18:3520.9k5.9k33.36%
Скопировано!
Сегодня посмотрим на компоненты хранилища данных.

Хранилище данных это у нас просто большая база данных, часто это может быть распределенная (кластер из нескольких машин, чтобы они вместе все параллельно обрабатывали данные, ведь так быстрей и можно больше данных обработать - ну или просто Massive Parallel Processing)

Хранилище данных объединяет все технические компоненты в одной системе. 

Все данные хранятся в собственных форматах файлов и таблиц на его собственном хранилище. Эти данные управляются исключительно движком хранения хранилища данных, регистрируются в его каталоге и могут быть доступны только пользователю или аналитическим движкам через его вычислительный движок.


До примерно 2015 года большинство хранилищ данных имели компоненты хранения и вычислений, жестко связанные на тех же узлах, так как они были разработаны и использовались в основном на местах. 

Это приводило к множеству проблем. Масштабирование становилось большой проблемой, так как объемы данных быстро росли, а количество и интенсивность нагрузок росло. 

Не было возможности независимо увеличивать ресурсы хранения и вычислений в зависимости от задач. Если ваши потребности в хранении данных росли быстрее, чем потребности в вычислительных ресурсах, вам все равно приходилось платить за дополнительные вычислительные мощности, даже если они вам не были нужны.

Это привело к созданию следующего поколения хранилищ данных с акцентом на облачные технологии. Эти хранилища данных начали набирать популярность примерно в 2015 году, когда облачные вычисления стали более распространенными, позволяя разделять компоненты хранения и вычислений и масштабировать эти ресурсы в соответствии с задачами. Они даже позволяли отключать вычислительные ресурсы, когда они не использовались, и не терять при этом данные.

Хранилище данных до сих пор является отличным решением для построения аналитического решения. 

Минису все известны:
- Поддержка только SQL
- Вы платите за compute и storage вместе (Snowflake и тп это lakehouse и о нем будет позже)
- Сложно использовать для ML, так как данные нужно выгружать
- У вас schema on write (то есть у вас таблица создана и вы в нее уже пишите как есть)
- Не очень удобно для streaming/real time аналитики, обычно это batch - раз в час, раз в сутки
- Это Vendor Lock

В след посте рассмотрим озеро данных.

Источник: https://www.oreilly.com/library/view/apache-iceberg-the/9781098148614/ch01.html

PS Судя по прошлым комментариям, я рад что ребята в Авито Тех тоже прочитали книгу и поделились знаниями со своей аудиторией🙃 

В Surfalytics я попросил всех прочитать 1ю главу и понять, так как очень важно понимать разницу между DW/Data Lake/Lake House и знать их особенности.
Показать полностью ...
6 583
74
Инжиниринг Данных17 июл., 06:5920.9k5.9k33.36%
Скопировано!
Авито запускает менторскую программу, доступную для каждого, кто стремится к развитию и росту 🚀

Наставники из компании прошли тот же путь, что и вы. Они знают, как это — искать работу, стремиться к повышению, создавать крутые продукты и справляться с вызовами. И готовы делиться своими знаниями и опытом!

🔍С чем поможет ментор:
• разобраться в новых технологиях и смежных областях
• подготовиться к сложному собеседованию
• прокачать хард-скиллы

Найти ментора из Авито можно на Getmentor и Solvery. 

Есть разные форматы работы: платные встречи или сессии за взнос на благотворительность 💚
Показать полностью ...
~29 июл., 15:12
6 431
79
Инжиниринг Данных16 июл., 15:2320.9k5.9k33.36%
Скопировано!
Основных компоненты системы для аналитики (System Designed for OLAP Workloads)

В данном контексте OLAP подразумевает аналитические запросы (сложные запросы на исторических данных).

Хранилище (Storage) 
Для анализа исторических данных из различных источников необходимо иметь систему, позволяющую хранить большие объемы данных. Хранилище — это первый компонент системы, способной обрабатывать аналитические запросы к большим наборам данных. Варианты хранилища включают локальную файловую систему (DAS), распределенную файловую систему (HDFS) и объектное хранилище от облачных провайдеров (Amazon S3).

Типы хранилищ могут быть строковыми (row) или поколоночными (columnar) базами данных, или их комбинацией. Columnar уже является стандартом.

Формат файлов (File format) Для хранения, данные должны быть организованы в определенном формате файла. Выбор формата файла влияет на сжатие данных, их структуру и производительность работы.

Форматы файлов делятся на три категории: структурированные (CSV), полуструктурированные (JSON) и неструктурированные (текстовые файлы). В структурированных и полуструктурированных форматах данные могут быть организованы построчно или поколоночно. Примеры построчных форматов — CSV и Apache Avro, поколоночных — Apache Parquet и Apache ORC.

Формат таблицы (Table Format) 
Важный компонент для системы, поддерживающей аналитические запросы к большим объемам данных. Формат таблицы действует как слой метанных над форматом файла и отвечает за расположение данных в хранилище.

Цель формата таблицы — упростить структуру данных и обеспечить возможности для операций с данными (вставка, обновление, удаление) и изменения схемы таблицы. Современные форматы таблиц также обеспечивают атомарность и согласованность операций.


Движок хранения (Storage engine)
Отвечает за размещение данных в заданном формате таблицы и поддержание всех файлов и структур данных в актуальном состоянии. 

Движок хранения выполняет такие задачи, как оптимизация данных, поддержание индексов и удаление старых данных.

Каталог (Catalog)
При работе с данными из разных источников важно быстро находить нужные данные. Каталог решает эту задачу, используя метаданные для идентификации наборов данных. 

Каталог — это центральное место, где можно найти информацию о таблицах, их схеме и расположении данных. Некоторые каталоги являются внутренними для системы (например, Postgres и Snowflake), другие, такие как Hive и Project Nessie, могут использоваться любыми системами.

Вычислительный движок (Compute Engine)
Последний компонент, необходимый для обработки больших объемов данных,  выполняет пользовательские запросы по обработке данных. В зависимости от объема данных и типа нагрузки можно использовать один или несколько вычислительных движков. Для работы с большими объемами данных часто требуется распределенный вычислительный движок (MPP), такие как Apache Spark, Snowflake и Dremio.

PS надеюсь теперь вы поймете разницу между Parquet (file format) и Iceberg/Delta (table format)
Показать полностью ...
6 669
119
Инжиниринг Данных16 июл., 05:1420.9k5.9k33.36%
Скопировано!
Так хорошо отдохнул, что забыл ноутбук за 500км, забыл его в пятницу, а вспомнил в понедельник вечером! Повезло, что он отмечен в Find My Device.
7 058
9
Инжиниринг Данных15 июл., 03:4020.9k5.9k33.36%
Скопировано!
Мой самый популярный пост в Linkedin оказался не про айти и аналитики….


Ведь реально получается:
1) Лучшая инвестиция это в семью и детей
2) Пословица про свой самовар самая правильная
3) Там еще добавил бы ликбез про ипотеку 
4) Подход я работаю, жена тратит деньги работает отлично, чем больше жена потратила, тем больше я заработал, или наоборот
7 081
44
Инжиниринг Данных12 июл., 23:4720.9k5.9k33.36%
Скопировано!
Возможна ли 4х дневная рабочая неделя? Легко, если ваши дети уже могут уже работать с компьютером.

У нас в пятницу поплану большой трип и чтобы не терять время, я передал ноутбук детям, они там угорали с имен коллега, читали сообщения, отвечали и выбирали веселые эмоджи. Сын даже заапрувил 3 PR в прод и написал “if anything break, rinse and repeat, happy to approve!” 

В общем все при деле👨‍💻

Забирайте идею! Заодно дети познают взрослый корпоративный мир, slack, GitHub, code reviews и тп. Мне кажется я так могу путешествовать 5 дней в неделю🚗
Показать полностью ...
9 240
91
Инжиниринг Данных12 июл., 16:1720.9k5.9k33.36%
Скопировано!
7 676
3
Инжиниринг Данных12 июл., 10:0120.9k5.9k33.36%
Скопировано!
Конференция для IT-архитекторов от МТС

20 июля | 12:00 
Офлайн в Москве | Онлайн

Присоединяйся к конференции для IT-архитекторов True tech Arch#5, которая пройдет 20 июля в парке искусств "Музеон". Тебя ждут доклады от ведущих экспертов МТС и приглашенных экспертов. 

Обсудим осмысление архитектурных артефактов, расскажем о голосовых роботах на платформе Exolve, поделимся кейсами, как создать "виртуального" сотрудника.

Событие пройдет на открытом воздухе и ждет всех неравнодушных к IT-архитектуре.

Регистрируйся на конференцию.
Показать полностью ...
~26 авг., 15:26
8 423
38
Инжиниринг Данных12 июл., 05:0520.9k5.9k33.36%
Скопировано!
Классная история про Clickhouse - The Fast and the Furious: How ClickHouse, the World’s Fastest Open-Source Database, is Creating the First Real-Time Data Warehouse
The Fast and the Furious: How ClickHouse, the World’s Fastest Open-Source Database, is Creating the First Real-Time Data Warehouse | Index Ventures
Developing a database is a lot like building a company. At its core, a database is only as good as the way it’s built, the data people put into it, and the use cases built on top of it. Similarly, a company’s success boils down to its foundational principles, the people in charge, and the strategies put in place to meet market needs and adapt to changing environments.
7 169
71
Инжиниринг Данных11 июл., 15:3420.9k5.9k33.36%
Скопировано!
Я решил поэкспериментировать с Surfaytics, и поискать дополнительную ценность. 

Выявил пока 2 новых направления. 

1) я записал своё успешеное собеседование на Sr Data Engineer в Канаде на 200к CAD и скинул видео и вопросы для подписчиков. Планирую дальше записывать и надеюсь студенты тоже будут. Идея в том, что я записываю только себя и свой звук, а вопросу будут текстом на экране.

2) я продолжаю думать про варианты эффективного прохождения собеседования, чтобы максимально эффективно пройти его, на картинке мы экспериментирует с реальным собеседованием и технологиями записи собеседования, аудио в текст и тп. 

Получить возможность собеседование очень сложно, большой конкурс, а вот провалить его из-за глупых ошибок легко. Один из вариантов это воспользоваться помощью товарища 🤹
Показать полностью ...
7 285
27
Инжиниринг Данных09 июл., 22:5220.9k5.9k33.36%
Скопировано!
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением

Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
7 126
110
Инжиниринг Данных08 июл., 06:5920.9k5.9k33.36%
Скопировано!
Как отличить хорошего продакта от плохого?

Плохой продакт зациклен на процессах, дейликах, митингах и бумажной волоките. Он игнорирует риски и фокусируется на метриках тщеславия типа MAU, DAU и новых зарегистрированных пользователей.

Хороший продакт фокусируется на реальных результатах. Он понимает, как его работа влияет на весь бизнес, и делает так, чтобы продукты и проекты «выстреливали» и зарабатывали.

Лучший пример — OnlyFans. Основатели не раздували венчурную шарагу, а зарабатывали деньги. Поэтому выручка сервиса за прошлый год составила $2.5 млрд, а прибыль — $1.25 млрд.

Хотите грамотно вести проекты и приносить бизнесу максимальную пользу? Подписывайтесь на канал сооснователя careerspace Ярослава Хромова. Узнайте, как работать с продуктом, метриками и людьми, чтобы зарабатывать больше и расти по карьерной лестнице.
 
Топ постов:
— Почему «дерево метрик» — слабая концепция и прошлый век?
— Почему в B2B продукты более отсталые, чем в B2C?
— Подборка лучших постов про карьерный рост и бизнес — фактически пошаговый гайд, как зарабатывать больше и расти быстрее.

Это отличный продуктовый канал от настоящего практика. Подпишитесь, чтобы ваша карьера летела вверх: @firstanalyticsguide.

#промо
Показать полностью ...
Первый Продуктовый
Первый нормальный канал по аналитике. Автор — Ярослав Хромов, сооснователь careerspace (51M+ руб выручка 2023, рост х3 YoY, есть чистая прибыль). Пишу про жизнь тут: https://t.me/yarkhromov

По рекламе: @aakhro_adss
8 294
33
Инжиниринг Данных05 июл., 22:0620.9k5.9k33.36%
Скопировано!
Leading Effective Engineering Teams - новая книжка по управлению инженерными командами! 

The essential traits for engineering effectiveness and the pitfalls to avoid
How to cultivate trust, commitment, and accountability within your team
Strategies to minimize friction, optimize career growth, and deliver maximum value
The dynamics of highly successful engineering teams and how to replicate their achievements
How to implement a systems thinking approach for everyday problem-solving and decision-making
Self-advocacy techniques to enhance your team's visibility and recognition within the organization

Судя по отзывам в Linkedin, отлчная книга, у автора свой большой блог https://addyosmani.com/ и он уже успел написать много книг.
Показать полностью ...
Addy Osmani is a Software Engineer at Google working on the Chrome web browser. He is the author of books like Image Optimization and Learning JavaScript Design Patterns. He has also written a number of open-source projects like Yeoman, TodoMVC, Quicklink and Material Design Lite.
8 348
111
Инжиниринг Данных05 июл., 16:3720.9k5.9k33.36%
Скопировано!
Мы привыкли, что нужно всегда с рюкзаком ходить, куда складывать ноутбук, наушники и тп. Атрибут Айтишника можно сказать. Помню, как в 2011 заказал себе рюкзак синий Jan sport из Америки, ведь в Москве не оригинал 🍞, и тогда я почувствовал, что вот я настоящий IT. 

По пятницам я хожу в офис, и сегодня решил, что хватит таскать тяжелый рюкзак с несколькими 16’’ маками, формой и другим барахлом, и пора на легке катить чемодан. 

Реально, game changer!
7 649
21
Инжиниринг Данных05 июл., 00:5020.9k5.9k33.36%
Скопировано!
Ответил еще на два вопроса:

1) заменит ли нас AI? 🤖 
2) Что делать с опытом IBM DataStage 🦖
IMG_7612.MOV
7 803
27
Инжиниринг Данных03 июл., 20:4320.9k5.9k33.36%
Скопировано!
Я же вам говорил, что CLI знать надо, чтобы вот такие вот шутки понимать😅
7 984
16
Инжиниринг Данных03 июл., 18:4020.9k5.9k33.36%
Скопировано!
Небольшая история про консалтинг, типичный бутик по внедрению современных аналитических решений в Северной Америке. Недавно наблюдал результат работы такой компании.

Компания специализируется на создании хранилища данных, интеграции данных, построении дашбордов. Условно у вас есть своя компания/стартап и вы слышали про data driven культуру, принятие решений на основе данных и тп, и решили воспользоваться услугами, чтоб наконец получить долгожданные insights и как говорит Гребенюк - “добавить ноль справа” к вашей выручке.

Далее расскажу пример реализации. В данном контексте, я лишь унаследовал, то, чтобы внедрено в течение прошлого года и больше как на позиции adviser по data engineering, чтобы понять как все масштабировать, найти bottle necks, да и просто сделать reverse engineering. 

Цена удовольствия такой компании 60k US$ в месяц за 1,5-2 консультанта в месяц (расценки в США, наверно такие жирные). Консультанты не простые, ребята укомплектованы best practices и сертификатами по dbt, snowflake, fivetran, sigma, looker и тп. Я их не застал, но застал все решение и изучил его сверху вниз (от BI дашбордов, до источников данных)

Если кратко суммировать, то было создано много дашбордов, dbt моделей, таблиц, слоев, схем. Сами дашборды похожи на новогодние огоньки, где каждую метрику визуализируют несколько раз (line chart, bar chart, kpi, и тп), сами дашборды как простыня, которую можно долго скролить. 

То есть по факту, ребята реально наклепали всего на всю катушку, проблема лишь в том, что кол-во никак не коррелирует с качеством. 

Такое впечатление, что им платили за “output”, то есть вроде все крутится вертится, но по факту бесполезно. Чем больше я погружался, тем больше было заметно, что все дашборды и показатели совсем не помогают бизнесу. 

Про всякие вещи, типа синхронизации time zones (UTC) такого вообще нет. 

Поэтому выводы:
1) Самый лучший способ быстро вкатиться в проект, это его задокументировать сверху вниз (reverse engineering)
2) Самый лучший способ показать бурную деятельность это клипать дашбордики, модели и таблицы, чем больше, тем лучше (особенно если вам плевать на результат)
3) Fivetran вообще топик для интеграции данных, но вы платите за кол-во строк! Например, в нашем случае, цена Fivetran была выше в 10 раз, чем сам Snowflake.
4) dbt labs после dbt core кажется бесполезным, но помогает экономить силы на расписании (с dbt core, нужно Airflow или типа того)
5) Sigma - прикольный light weight BI инструмент в браузере, но если вам достались дашборды с простынями из графиков, то удачи, а так позволяет очень быстро наклепать дашбордиков и отличная интеграция со Slack или Email.

PS картинка просто с похожим стеком, современней уже быть не может!
Показать полностью ...
7 330
73
Инжиниринг Данных02 июл., 20:5720.9k5.9k33.36%
Скопировано!
Не могу не поделиться пример “холодного звонка” или лучше сказать сообщения. Чувак хочет мне продать услуги и вот, что он сделал - https://youtu.be/AvJETIwuYY4?si=zrIEzbNZbgI4ijrJ 

Мне кажется, можно вам так вместо Cover Letter делать, вы просто представьте себе, когда recruiter/hiring manager за бокальчиком Апероль Шприц будет слушать ваше сообщение - шах и мат, как говорят! 

PS Ну как такому добряку я могу отказать промахать несколько тысяч долларов теперь🍿
For Dmitry Anoshin
7 080
53
Инжиниринг Данных02 июл., 18:5720.9k5.9k33.36%
Скопировано!
The Trimodal Nature of Tech Compensation Revisited - статья про уровни зарплат. 

Любая зарплата (total compensation) складывается из 3х частей:

Base salary + cash bonus + Stocks (“акции” или типа того)

Акции компании бывают разные, если компания публичная как Amazon, вы получаете акции RSU и каждый квартал вам их выдают, вы можете их продать. 

Так же если компания публичная, вы можете покупать акции на 15% процентов свой зарплаты со скидкой 10% (Например Microsoft и другие).

В статье уже более детально все описано.

Я лишь подумал о другом. 

Условно когда мы ищем работу, нам бы лучше выбрать компанию, где есть все и сразу. В FAANG, это разумеется есть, но таких компаний мало, а желающих много. (Tier 1)

Поэтому надо смотреть Tier 2 компании, которые так же вам могут предложить что-то кроме зарплаты. Ведь базовая зарплата у всех +/- будет одинаковая, а все, что выше это бонусы, стоки и тп.

Часто бывает опцион в стартапах, где вам обещают буквально миллионы, если компания станет публичной. Я вам тоже могу обещать миллионы, если вы будете играть в лотерею😅 Ну смысле не будьте наивными.

Поэтому, не забывайте при поиске работы взвешивать все возможные варианты, и если есть выбор, где работать, попробуйте отсортировать компании по их возможности вам платить (вне зависимости от базовой зарплаты). 

И все это к чему? А к тому, что лучше искать работу, когда у вас все хорошо, и есть возможность подойти к вопросу отбора без спешки, чем когда у вас все горит….
Показать полностью ...
6 661
33
Инжиниринг Данных30 июн., 22:3720.9k5.9k33.36%
Скопировано!
У моего телеграмм канала @rockyourdata есть кредитная карта🍞
7 119
5
Показать ещё
Рейтинги
Каталог Telegram-каналовРейтинг каналов по странамРейтинг каналов по категориям
Коллекции Telegram-каналов
Мои коллекцииОтслеживаемые коллекцииПопулярные коллекции
Инструменты
Подробная аналитика каналовКаналы отслеживанияСравнение каналовПересечения аудитории
Ресурсы
ИнструкцияЧат поддержки на английском языке 🇬🇧Чат поддержки на русском языке 🇷🇺Новости Telemetrio
Наши боты
@telemetr_io_dev_bot
Последнее обновление: 11.07.23
Политика конфиденциальности Telemetrio2024 Telemetr.io  все права защищены
Инжиниринг Данных

Add your telegram channel for

все посты Инжиниринг Данных

IMG_8548.MP4

camp 2024.mp4

IMG_8217.MP4

TShirts.mp4

module1intro.mp4

IMG_8052.MP4

Видео_ОШ.mp4

IMG_7612.MOV

Рейтинги

Коллекции Telegram-каналов

Инструменты

Ресурсы

Наши боты