هذه الخدمة مُتوفّرة أيضًا بلغتك. لتغيير اللغة، اضغطEnglish
Best analytics service

Add your telegram channel for

  • get advanced analytics
  • get more advertisers
  • find out the gender of subscriber

all posts эйай ньюз

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор:  @asanakoy  PR:  @kander426  
عرض المزيد
54 020+98
~18 943
~35
48.82%
تقييم تيليجرام العام
عالميًا
24 920المكان
من 78 777
3 422المكان
من 8 625
في الفئة
509المكان
من 1 396
أرشيف المنشورات
Протестил Kling Motion Brush 50 минут ожидания и о-па! Марик превращается в другого парня. Лица, конечно, знатно корёжатся. Но траектория с большего правильная получилась, кроме ног парня слева. Ради справедливости, я пробовал оживить это фото в Gen-3, и он вообще отказался что-либо делать, просто слегка зазумил фотку. Так что тут победа за Kling!

kling-motion-brush-demo.mp4

0 (1).mp4

8 782
80
Motion brush в Kling 1.5 Я что-то слышал краем уха про то, что у Kling вышла версия 1.5, и вроде бы она даже немного получше, и про то, что у них появился motion brush. Но я не предал этому особого значения, т.к. была у Runway, а качество, ну, не то чтобы прямо сильно выросло. Но. Гляньте на от твиттерских. Работает неожиданно хорошо, и что самое классное — есть возможность указать траекторию движения, да и сегментация кадра работает неплохо. Поэтому решил, что всё-таки это стоит поста. По обновлению: - Разрешение 1080p для pro юзеров - Увеличение динамики движения в кадре - Motion Brush с траекторией движения для 6! элементов сразу - Увеличили скорости генераций, сделали возможность генерить несколько видео параллельно - тут спорно, у меня 2 видоса уже генерятся 30 минут. Хз, где та скорость. - Увеличили макс. длину клипа для img2video до 10 секунд и добавили end frame в стандартной подписке (тоже платная) Ну что, теперь Kling — король арены видеогенерации?
عرض المزيد ...

file

file

file

file

9 180
186
Стрим про карьеру и собеседования через 2 часа, 17:30-18:30 CET (18:30-19:30 мск). С самыми упорными, возможно, задержимся еще на полчаса, вопросов интересных поступило немало. Ссылка на стрим: В начале разогрева ради – хиханьки, если не опоздаете, узнаете, кто ел в одной столовке с Яном ЛеКуном, кто сегодня спал днём, а кто работал ночью.
10 869
51
Вот и результаты Strawberry 🍓 на арену подъехали. И конечно же это новый дилер! Похоже, o1 открывает свой новый тир, результаты (в среднем) на голову выше, чем у предшественников, улычшился перформанс даже на обычных не наукоёмких запрсах. А в хард-промптах и кодинге все остальные даже не близко (4o может немного). Челам с подпиской повезло, им еще и лимиты недавно повысили. А вот стоит ли переплачивать в 30 раз (тк o1 в ~6 раз больше токенов на запрос чем 4o) за API для обычного пользователя – пока непонятно. А как вы планируете использовать новую модель на полную мощь?
عرض المزيد ...
12 999
144
Стартап Fluently (YC W24) ищет Senior ML Engineer - AI спикинг коуч, который слушает ваши онлайн колы и помогает прокачивать английский. Зимой ребята прошли , а также закрыли раунд на $2.5M. Стартап ищет ML инженера, который будет 6-ым членом команды, чтобы строить сервисы c использованием LLM: [Agentic] RAG, LLM/Embeddings Fine-Tuning, Structured Outputs, Custom Llama Serving. Нужно разбираться в последних трендах (что мы и делаем в этом канале). Вилка: от $5k до $10k Опцион: 0.2-1% Формат: ремоут (можно податься на h1-b) 👉🏻 Больше подробностей Юру я знаю, лично – виделся с ним, когда был в Сан-Франциско в Апреле. Так что его вакансию могу смело вам рекомендовать. Еще за успешный реферал можно получить последний айфон.
عرض المزيد ...
12 921
81
Снапчат троллит Эпл. Вчера прошла ежегодная презентация Снапчата. Заанонсили пару прикольных штук. Приложение со смешными масочками решило с двух ног залететь в AR/VR и AI. Казалось бы, ничего не предвещало... Показали AR-очки с прозрачными линзами! Это уже 5-е поколение Spectacles, хотя раньше о них никто особо не слышал. Очки обещают утереть нос Эпл Вижену, как видно на видео выше. Функционал пока непонятен, но анонс многообещающий. Пишут, что заряда хватит на 45 минут, и пока вся эта история выглядит как оверхайп. Девайс стоит 99 долларов в месяц с обязательной оплатой на 12 месяцев. Пока доступен только ограниченному кругу разработчиков, кому повезло попасть в developer-программу. Возможно, потом станет дешевле, если очечки выйдут на массовый рынок. Ещё представили фильтр, который очень точно воспроизводит лицо на сгенерированной картинке (что-то вроде IP-Adapter на стероидах). Подробностей пока нет. И последняя горячая новинка — text и img 2 video foundation модель. Новый конкурент Sora (да, опять хах), но пока почти нет видео для сравнения.
عرض المزيد ...

file

13 944
193
Сегодня хочу поделиться мыслями об опенсорсе в AI/ML. Как человек, который сам тренирует большие модели, могу сказать - опенсорс это очень круто! Радует, что крупные компании это тоже понимают. Открытые решения реально двигают всю сферу вперед, позволяя даже небольшим командам использовать SOTA инструменты и строить на них свои продукты. Например, та же Meta с релизом LLama3.1 и предыдущими версиями серьезно подтолкнула прогресс в области LLM. Ну, и бигтехи в России тоже контрибьютят в опенсорс. Наткнулся на ИТМО, где они посмотрели, кто больше всего выкладывает в открытый доступ штук по AI/ML. В тройке лидеров оказались Яндекс, Сбер и Т-Банк. Вот мой личный топ их репозиториев: • Яндекс: - - мощная библиотека для градиентного бустинга - YaFSDP (я писал о ней ) -  библиотека для ускорения распределенного обучения больших моделей. • Сбер: - - крупная text2image модель на 3B параметров - - одни из первых LLM на русском языке • Т-Банк: - – русскоязычная специализированная LLM на 8B параметров - - (писал о ней ) - улучшенная имплементация линейного трансформера В общем, топим за опенсорс. И не стесняйтесь контрибьютить сами, если есть что предложить - кроме всего прочего, это еще и хорошо выглядит в CV.
عرض المزيد ...
14 733
203
Стрим про карьеру, собеседования и бигтех Заметил, что у вас есть большой запрос на эту тему. Поэтому мы тут организовались с ребатами и будем проводить большой стрим, где поговорим про карьеру и собеседования в FAANG. Choose your fighter. Бигтех-банда для стрима: - Татьяна Шаврина – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала Недавно устроилась, может рассказать про собесы и что именно спрашивают на менеджера; - Сергей Иванов – Senior Applied Scientist в парижском Amazon, соавтор канала . Провел 100+ собесов в Амазон, может рассказать про хардкорные поведенческие вопросы; - Борис Цейтлин – Staff MLE в берлинском eBay, автор канала Недавно отмучился с собесами; - Юрий Кашницкий – Staff GenAI Solutions Architect в амстердамском Google Cloud, автор канала Юра будет скоморошить (то есть модерировать) встречу; - Артем Санакоев – Staff Research Scientist в цюрихской Мете, GenAI, автор (еще раз А вот тут про то, как собеседую на разные синьорные позиции в Мету. --- Вопросы можно задавать заранее тут в комментах, либо во время стрима. Можно адресовать конкретно кому-то из спикеров, например, «Вопрос Борису: доколе?» Время: 20 сентября, Пятница, 17:30-18:30 CET. Streamyard – для просмотра (там же по ссылке можно добавить в календарь). Записи не будет, все вживую. Мест – максимум 1000 😀
عرض المزيد ...
15 061
184
Если вам когда-либо было интересно, как получить мегакластер GPU, то вот вам подробный гайд от Ларри Эллисона, фаундера того самого Оракла. Челу 80, кстати, похоже, он всё-таки нашёл эликсир вечной молодости. Ну так вот, записываем: 1) Приходим на ужин к Дженсену Хуангу. 2) Вместе с Маском умоляем Кожанку взять ваши миллиарды. 3) Поздравляю, если вам повезёт, то партию свеженьких GPU не задержат. Теперь повторяем😂 Кроме шуток, Oracle – одна из немногих компаний, которая контракт на более чем 100.000 видеокарт NVIDIA Blackwell (это , например). Они уже строят огромный кластер, который заработает в первой половине 2025. А сбоку еще планируют пристроить на ~1000 MW, чтобы все это дело запитывать электроэнергией. Короче, если GPU - это новая нефть, то AI – это новый автомобиль.
عرض المزيد ...

file

15 612
339
Нейродайджест за неделю (#35) LLM, гонки и клубника - Грок обогнал Cerebras, выдав >500 токенов/сек на Llama 70B. - . Еще один лидер, о котором раньше никто не слышал. Теперь у ребят самая быстрая лама 405B. - . Мультимодалка от Mistral теперь понимает картинки. - или та самая Strawberry. Скейлить инференс комьют через CoT — похоже, всё, что нам осталось. , конечно, жестокий. Генерация видео - Runway зарелизила . Смотрим , и почему оно работает лучше чем text2video. Гайды - . Все мы визуаллернеры, так что представлять в голове какую-то конкретную картинку очень полезно. - . Оригинальный , но прямо в браузере. Кайфы, всё быстро и просто, идем ботать! Всякое - или почему нужно читать проверенные источники. - . "Главное" нововведение — это то, что в названии после 1 теперь не 5, а 6. Интерактивчик! - . Поговорили про поступление в ЕС, PhD программу в Meta и еще кучу ништяков, кто не успел — тот опоздал. Жмякайте unmute :) >
عرض المزيد ...
15 187
79
Ещё примеры video2video. Мой любимый 5-й: там чуваки вырезали из картона болванки и неплохо так их оживили + за смекалку. Все же реактировать готовое видео – это гораздо более простая задача, чем генерить его по текстовому описанию с нуля. Когда на вход дают видео, то тут уже готовый реалистичный моушен и глобальная геометрия. Нужно только частично поменять, как оно рендерится, либо отредактировать только лишь какую-то часть видео. Думаю, что такие модели гораздо раньше найдут реальное применение в киноиндустрии чем text2video.
عرض المزيد ...

SnapTwitter_wQcJyVz2dhPAkKBS.mp4.mp4

SnapTwitter_YE1c_5_P46dFQwFG.mp4.mp4

SnapTwitter_tU39aeQ8GgWEDOB0.mp4.mp4

SnapTwitter_nacY633h2CkIbT3w.mp4.mp4

SnapTwitter_lEa3O4QXNCbTADRY.mp4.mp4

SnapTwitter_bdSueoJ3qYqQ7Uzu.mp4.mp4

SnapTwitter_rBQlu_bcYFBsAjq4.mp4.mp4

SnapTwitter_TO4wX4nnvSJK0y71.mp4.mp4

SnapTwitter_gV0PruAp6CKBJEhn.mp4.mp4

SnapTwitter_tU39aeQ8GgWEDOB0.mp4.mp4

16 091
345
Смотрите что делают с фортнайтом в новом video to video режиме Runway GEN-3. На обычных десктопах в риалтайме это вряд-ли будет работать в ближайший год-два, но когда доускоряем... В геймдеве станет очень жарко, особенно когда такое будет доступно на консолях. В посте нже накидал еще, там есть пример того, как это реально можно применять в дешёвом продакшене. Соскрапил с твиттера, конечно же : )

fortnite.mp4

16 169
461
WebGPU puzzles Если всегда было интересно, как работать с GPU, но вы не знали с чего начать, то принёс вам занятие на субботний вечер - . Это небольшой курс задачек, вдохновлённый оригинальными , но работает прямо в браузере! Несмотря на браузер, скорость молниеносная - всё компилится и запускается за долю секунды после каждого нажатия клавиши. Из минусов - пока поддерживается только Chrome. Возможным это стало из-за - библиотеки поверх WebGPU, упрощающей работу с компьютом. Answer AI с момента основания только и занимается тем, что создаёт такие мелочи, упрощающие жизнь. Они первыми QLora работать с FSDP, а недавно выпустили - фреймворк для создания небольших веб-приложений на чистом Python, хорошая альтернатива Gradio.
عرض المزيد ...
16 552
683
Наткнулся в Твиттере на шикарную визуализацию LLM. Как выяснилось, ей уже целый год, но для новичков это все ещё полезная штука. Кроме красивой 3D-модельки, здесь еще подробный гайд по работе каждого элемента, как говорит автор, до каждого "сложить и умножить". По архитектурам там есть GPT-2, nanoGPT, GPT-2 XL, ну и GPT-3.

file

23 351
2 228
Не пропустите одно из самых масштабных событий этой осени в области искусственного интеллекта Со 2 по 4 октября в Иннополисе пройдет форум где топовые спикеры страны обсудят кейсы внедрения ИИ в производство. Самые горячие темы по искусственному интеллекту: 🔹 ИИ в промышленности: нефтегаз, фармацевтика, химия, медицина, строительство 🔹 Внедрение Data Driven подхода в управление предприятием, монетизация ИИ-решений, оценка их эффективности 🔹 Генерирование и дополнение программного кода, цифровые двойники, дизайн лекарственных молекул и многое другое А еще Андрей Себрант, директор по стратегическому маркетингу «Яндекса» проведет визионерскую лекцию про генеративный, интерактивный и мультимодальный ИИ и расспросит топов ИТ-отрасли о факапах работы с технологией. ➡️Узнать больше о программе форума и
عرض المزيد ...
11 889
50
А вот и прайсинг API новых моделек, понятно почему не выпускали это практически год - ждали пока упадёт цена инференса. Цены на такое с использованием оригинальной GPT-4 или даже GPT-4 Turbo были бы астрономические.
18 301
160
o1 - новая моделька от OpenAI, та самая 🍓 Основной прорыв - научили модель скейлить инференс компьют через CoT, чем больше компьюта - тем лучше результаты. Инференс выходит дорогущим, но результаты сильно лучше. Доступ дают всем подписчикам ChatGPT и девам 5 тира (те кто потратили больше $1k на API). Подписчикам будут давать по 30 сообщений с o1 и 50 сообщений с o1-mini в неделю.
19 199
346
3 минуты, сейчас настрою камеру и начнем.
16 819
15
Начинаем стрим через 3 минуты! Подключайтесь! Вопросы можно писать под этим постом.
16 894
13
В гонке быстрого инференса новый участник SambaNova запустили Llama 3.1: 405B на подтверждённой скорости в 132 токена в секунду, 70B - на скорости 461 токен в секунду и 8B - на скорости 1066 токенов в секунду. Это всё в bf16, без квантизации. На лидерборде Artificial Analysis у SambaNova точность 405B выше всех других провайдеров, но с моделями поменьше не всё так радужно. Я потестил их инференс, скорость и правда очень высокая - у меня 405B выдавала от 110 до 124 токенов в секунду, что очень близко к заявленным числам. 8B доходила до 1100 токенов в секунду, а вот 70B, хоть и выдавала до 466 в секунду на пике (в твиттере стартап вообще заявлял скорость до 570 в секунду), но у части запросов скорость была аж в два раза меньше. Цена 405B - $5/mt на вход и $10/mt на выход. Есть на рынке провайдеры и подешевле, но они все запускают модель с уменьшенной точностью. API уже доступно разработчикам для теста. Бесплатно, но с очень низкими лимитами. Возможность платить за API добавят позже. Предыдущий пост из серии про быстрый инференс: .
عرض المزيد ...
19 735
117
После предыдущего стрима про карьеру и учебу в AI мне в личку написало очень много людей со своими вопросами. Так как в личке всем развернуто ответить сложно, я решил провести еще один стрим на тему учебы в Европе и того, что нужно для роли AI Scientist / AI Engineer в FAANG. 📌 Стрим будет завтра (12 сентября) с 16:00 до 17:00 CET. На этот раз я пригласил на стрим еще двух ребят ( и ). Мы с ними обсудим учебу в Германии, Франции и Великобритании и наш опыт из первых рук. Настя училась на бакалавриате и в магистратуре в Karlsruhe Institute of Technology (KIT) в Германии. Никита учился в магистратуре École Polytechnique во Франции, и на PhD в Лондоне на совместной программе между Meta и Oxford University. Ну, а вы знаете. Темы стрима: - Поговорим про различные роли в AI: Research Scientist, Research Engineer, ML Engineer, Data Scientist. Чем они отличаются, и что для них нужно знать и уметь. - Про PhD, магистратуру и бакалавриат в разных странах Европы и чем они отличаются. - Про PhD программу внутри Meta в Лондоне и Париже, и как туда попасть студенту. - Про собеседования и поиск работы в AI. Как всегда, пишите в комментах свои вопросы, в конце стрима я отвечу на самые интересные. Сохраняйте дату себе в календарь: . Увидимся завтра!
عرض المزيد ...
17 044
179
Учитесь в универе и давно хотите попробовать свои силы в решении реальных кейсов по машинному обучению и нейросетям? Международные олимпиады — отличный способ проверить свои знания и выйти на новый уровень! Одна из таких олимпиад — AIDAO от Яндекса и НИУ ВШЭ. Участникам предстоит решать IT-задачи в команде из 2-3 человек, а победители получат денежные призы до 600 тысяч рублей! Выполнять задания олимпиады нужно на английском, но разрешено пользоваться переводчиком. Если у вас нет команды, то вам помогут её найти во время регистрации. Чтобы принять участие, надо: - быть студентом бакалавриата или магистратуры в российском или зарубежном вузе; - разбираться в ML, алгоритмах и работе с данными; - до 5 октября. Не упустите шанс применить свои навыки на практике и посоревноваться со студентами со всего мира!
عرض المزيد ...
16 922
95
Pixtral - 12B мультимодальная модель от Mistral Моделька понимает картинки, пока есть только веса, никаких результатов бенчей или тестов нет. Скорее всего, она основана на - параметры конфига совпадают. Вот только ещё добавили энкодер для картинок на 24 слоя. Что модель делает вообще? Эта модель для того чтобы чатиться с картинками и задавать по ним вопросы. Обычный мистраль умеет только текст понимать. Конфиг:
{
  "dim": 5120,
  "n_layers": 40,
  "head_dim": 128,
  "hidden_dim": 14336,
  "n_heads": 32,
  "n_kv_heads": 8,
  "rope_theta": 1000000000.0,
  "norm_eps": 1e-05,
  "vocab_size": 131072,
  "vision_encoder": {
    "hidden_size": 1024,
    "num_channels": 3,
    "image_size": 1024,
    "patch_size": 16,
    "rope_theta": 10000.0,
    "intermediate_size": 4096,
    "num_hidden_layers": 24,
    "num_attention_heads": 16,
    "image_token_id": 10
  }
}
magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910&tr=udp%3A%2F%http://2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%http://2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%http://2Ftracker.ipv6tracker.org%3A80%2Fannounce
عرض المزيد ...
16 964
202
Гонка инференса продолжается - Groq вырывается вперёд! Ускоренный инференс Llama 3.1 70B выдаёт более полутысячи токенов в секунду и скоро будет доступен всем пользователям. Правда, похоже с 8B моделью не получилось обогнать Cerebras - у них вся модель в один чип влезает, конкурировать сложно. Кстати, CS-3 от Cerebras производят на 5нм техпроцессе, а вот чипы Groq произведены по 14нм техпроцессу 14LPP - ему в этом году стукнет 8 лет. Второе поколение чипов будет уже на 4нм и выпустится до конца следующего года. Важный момент, который многие упускают - на картинке указана пропускная способность на одного пользователя, не общая пропускная способность системы. Одна H200 с Llama 2 70B более 4к токенов в секунду, но только при больших батчах, на одного пользователя там скорость сильно меньше сотни токенов в секунду.
عرض المزيد ...
19 635
100
Началась презентация Apple, го смотреть Будут показывать айфоны, часы и новые ИИ фичи к ним. Кучу всего уже на WWDC, но на эту презентацию явно что-то приберегли. ➖ Показали A18 - новый SOC на трёх нанометрах. Neural Engine вплоть до двух раз быстре, добавили 17% пропускной способности памяти. GPU быстрее A16 на 40%. ➖ Apple Intelligence будет досутпен в следующем месяце. Пока только на английском, другие языки будут в следующем году. Пост будет обновляться по ходу презентации
عرض المزيد ...
19 835
67
Ещё одно подтверждение, почему не стоит читать помойки от ноунеймов. В интернете много мусора и хайпующих персон без понимания. Читайте людей у кого есть научные статьи в AI или тех, у кого есть проверенный солидный опыт. А лучше тех, у кого есть и то и то, типа как у вашего покорного слуги, автора этого канала. 🙂
19 799
42
Давно порываюсь вам написать про ТГ-сетки которые про ML-пишут и что им не стоит верить, вот пример ⬆︎ Что на самом деле происходит с этой новой моделью
Reflection-70B
: 1. Пару дней твиттерский показал свою новую языковую 70B-модель которая с рекордами прошла все бенчмарки (по его утверждению это был файнтюн Llama 3.1 70b ) и что такая же 400b будет 2. Модель начала вируситься, ее начали качать и оказалось, что она толком не работает потому что там внутри немного битый конфиг ее запуска (это если простыми словами) 3. Автор перезалил модель, сказал что все починил и все работает — но теперь оказалось что нужно использовать только специальный системный промпт чтобы она работала 4. Сообщество начало тестировать, разобрало модель по кусочкам и , что это файнтюн Llama 70b 3.0, а не 3.1. И причем не файнтюн модели целиком, а просто Lora-адаптер вмерженного в модель (тренируют кусочек модели который замещает часть модели) 5. Автор , я вообще не помню что я там использовал — толи 3.0 толи 3.1, что такое Lora я не знаю, это не важно все — мы тут сейчас все заново поставим тренироваться, уже поставили точнее (зачем перетренивать модель которая по метрикам побила все бенчмарки пару дней назад мы не узнаем) 6. Параллельно с этим, появилась веб-версия этой модели о которой пишет Бекдор — и ее API дали сегодня протестировать сторонней организации, она неплохо справилась и подтвердила что результаты высокие (но модель ) 7. Пару часов назад автор публикует и сразу , что с ней что-то не так: «Веса залились, но мы все еще проверяем, чтобы убедиться, что они правильные, прежде чем мы собираемся закончить день» – зачем заливать модель до тестов? Ответа нет 8. Люди тестирующие , обратили внимание, что она очень на Sonnet 3.5 — буквально отдает ответы такие же ответы
<играет цирковая музыка, вы находитесь здесь> 
Буду держать вас в курсе нашей высокотехнологичной драмы – возможно, чел правда что-то натренил, но пока мы не знаем что. Ну и для нейронок лучше читать проверенные ML-каналы, сейчас такое время, что все экспертами в АИ стали (я даже не про свой, я их часто сюда репощу)
عرض المزيد ...
13 621
102
Нейродайджест за неделю (#34) GPU - . Мегачад Маск уже запустил свой крупнейший кластер GPU для тренировки. - . Да сразу два! Это в 50 раз больше Colossus'а от Маска. Агенты/роботы - . Зашуганные робопёсики кидаются в сторону от вида людей. - . Проект Starlightlabs закрыли и выложили все наработки в open source. Пользуем! - . AI агенты построили свой новый дивный мир. LLM - . Детище DeepSeek V2 и даёт результаты. - . Ну а в чём я неправ? Личные истории - . Люблю, когда приходят подготовленными. Прочее - . Законопроект прошёл ассамблею. Конечно, есть правки в правильном направлении, но это всё ещё жесть. - . МУЖЧИНА таки привлёк свой миллиард на бесприбыльный стартап. - из FAANG. У кого так же? - . Саааамый авторитетный и саааамый неподкупный. >
عرض المزيد ...
16 960
52
Что будет, если дать 1000 ботам сознание и запустить их в Minecraft? Они построят цивилизацию... Только недавно писал про и кучу всего другого. И вот теперь пожалуйста, они, как муравьи, собрались и построили свой лучший мир без кожаных ублюдков. Эксперимент был проведён небольшой группой Project Sid. Они не просто научили агентов выполнять команды, но и действовать по своей воле. Ребята прикрутили агентам понятия о социальном мире. Они способны понимать своё место в этом мире и роль окружающих. Например, они знают, что агент Б — полицейский, его нужно слушаться, а вот агента В, Васяна из соседнего дома можно послать нахрен. Эти роли могут динамически обновляться в зависимости от ситуации. Более того, они научили квадратных мечтать (см. видос). Там один из агентов-фермеров, услышав о странствиях одного путешественника (разработчики поощряют смолтоки ни о чём), захотел отправиться в путешествие, но потом оставил эту идею "на потом", узнав, что без него деревня голодает. Но самого интересного – технических подробностей нет и, кажется, не предвидится. Жаль, т.к. очень любопытно, что за LLM они гоняли и сколько им это стоило. Еще у ботов был Google-документ с конституцией, и они голосовали за правки, лол. Говорят, боты универсальные, умеют пользоваться Google-доками и их можно адаптировать под другие игры. Короче, ребята подготовили достойную высокоморальную замену человечеству (мы то без системы сдержек и противовесов ни о чем договориться не можем). В ролик вставили небольшую полит агитацию Камалы против Трампа, но просто игнорьте это. И вишенка на торте! С агентами уже может поиграть каждый! Для этого создаём мир в Майнкрафте, открываем для подключения, копируем код порта и вставляем на . Там же можно создать своего кастомного подручного. С ботом можно поболтать или дать ему какие-нибудь задания. За отдельный кэш можно запустить свою симуляцию, но это в личном порядке.          
عرض المزيد ...

file

file

53 192
2 125
Наш слоняра, Три Дао.
20 244
171
DeepSeek V2.5 Обновлённая модель, результат мержа DeepSeek V2 и , сочетающая позитивные стороны обеих моделей. В большинстве бенчей лучше чем оба своих предшественника, но в паре есть деградация. Советуют подкрутить температуру и промпт, если есть какие-то странности. Всё по той же крайне низкой цене - 14 центов за миллион токенов на вход и 28 центов на выход. А ещё есть Context Caching, который в 10 раз срезает стоимость инпута и бесплатно хранится сутки. Если не хочется использовать API, то веса модели уже доступны. Из-за нестандартной архитектуры, с инференсом были проблемы, но последняя версия их исправила - перформанс вырос в 7 раз.
عرض المزيد ...
21 565
149
TIMES список самых важных людей в ИИ. Вайбы от списка хорошо выражаются картинкой.
22 290
182
Только что собеседовал чела по кодингу на SWE позицию в инфру. Таких сильных парней попадается меньше чем 1/10. Язык программирования для решения двух кодинг задачек он выбрал Java. Это тот случай, когда, я как интервьюер, получаю удовольствие от общения с кандидатом. Чел на зубок тебе рассказывает, какая сложность итерации по map в Java, и как контейнер реализован на уровне примитивов, как происходит разбивка на бакеты, какого размера бакеты, как и с какой сложностью происходит поиск внутри бакета, если есть коллизии, что если бакеты маленького размера, что если большого, и т.д. То есть, даже не начав кодить, кандидат дал мне понять, что он очень хорошо сечет в том, что делает, внимателен к деталям, и что ему эти вещи интересны. После такого интро, даже небольшие помарки в коде (типа поставил <= вместо <) уже не имеют значения. В итоге две задачи решены сильно раньше времени (то есть и код он писал быстро) и без багов, и мысли излагал структурированно. В конце интервью и у меня хорошее настроение, и у кандидата (т.к. я сказал, что он красавец, справился сильно раньше времени). Ну, это 100% зачет!
عرض المزيد ...
24 710
191
Жиза. Ну а что ещё надо? Пишите в комментах, кому откликается.
23 745
332
SSI Ильи Суцкевера привлёк $1 млрд 🙀 С момента основания Ильей . не прошло и трёх месяцев, у неё всего 10 сотрудников, а оценка у неё уже . И топовые инвесторы, вроде a16z и Sequoia, не ожидают скорой прибыли — ведь первым продуктом компании будет сверхинтеллект. Топлю за Илью, он реально крут!
25 187
392
Уходим красиво💨 заливаем код в опенсорс DeveloperHarris, довольно известный в узких кругах разработчик интересных инди-игрушек вокруг концепта использования ИИ для НПС и сторителлинга, закрыл свою "геймстудию" . Но как же стильно он ушел: Чел слил в опенсорс весь код своих проектов, так что теперь каждый может дать его детищу второй шанс или поучиться на его примере. Внутри: - Starlight: игрушка про деревню, в которой каждый житель имеет свою историю, свою жизнь и мозг. С НПС можно поболтать и простенько повзаимодействовать (собрать урожай вместе). - Discord Dungeons & Dragons: , который создает ролевую историю. Так вот, это то же самое, но для компании. LLM будет вашим персональным Данжен Мастером. - Bonfire: LLM-рассказчик, который генерирует визуал. - Прототип карточной игры, которая позволяет на лету создавать свою колоду. - StarlightLabsDemo: болтай с 3D-аватарами голосом. Здесь стоит оговориться, что проекты еще крайне сырые, но, возможно, кто-то из вас соберется да запустит что-то из этого у себя, а может, даже продолжит работу над этим или другим подобным проектом, коих скоро будет огромное количество. За интерактивным и уникальным геймплеем для каждого игрока — будущее! , там еще прикольные размышления о том, как сделать игры интереснее и почему он решил закрыть проект. Надеюсь, он не пожалел о содеянном, респект.
عرض المزيد ...

ssstwitter.com_1725386464115.mp4

24 129
745
Разбираешься в AI? Покажи, на что способен – прими участие в международном соревновании AI Journey Contest. Призовой фонд – более 8 миллионов рублей! Задачи, как всегда, масштабные и амбициозные. Участникам предстоит работать с SOTA-технологиями, выбрав одну или несколько из предложенных задач: ✔ Emotional FusionBrain 4.0 — создать мультимодальную модель, которая умеет круто понимать видео, отвечает на сложные вопросы и «чувствует» человеческие эмоции. ✔ Multiagent AI — разработать мультиагентную RL-систему, где агенты будут объединяться в различные схемы кооперации при решении задач. Эта задача суперполезна для научных исследований.
عرض المزيد ...
12 827
94
Минимум две компании собираются строить датацентры стоимостью более чем в $125 млрд Комиссар по торговле Северной Дакоты , что правительство штата проводит переговоры о постройке гигантских кластеров в штате - потребление каждого может доходить до 10 гигаватт. Это беспрецедентные масштабы - запущенный вчера , самый большой кластер в мире, потребляет менее 200 мегаватт, то есть разница более чем в 50 раз. По словам комиссара, речь идёт о двух компаниях с капитализацией более триллиона. Компаний с такой капитализацией немного: Nvidia, Amazon, Google, Apple, Meta и Microsoft. Apple и Nvidia не столь активны в постройке датацентров, так что это, скорее всего, не они. А вот слухи о , гигантском датацентре Microsoft, ходят уже полгода. Северную Дакоту, вероятно, рассматривают потому, что это один из немногих штатов с избытком электроэнергии. Обусловлено это огромными запасами нефти - штат добывает 1,3 миллиона баррелей в день - столько же, сколько добывает, например, Катар. А ведь побочный продукт сланцевой нефти - природный газ, который какое-то время настолько некуда было деть, что его просто сжигали, было видно из космоса. Использовать оба датацентра точно планируют для ИИ - другие юзкейсы представить сложно. Для контекста: Azure, второе по популярности облако в мире, в сумме потребляло 5 гигаватт на конец предыдущего года. Для того чтобы такие затраты , выручка от AI должна вырасти ещё во много раз. Сейчас пока работают на опережение - вбухивают бабло в AI, чтобы не отстать от конкурентов и застолбить лидерскую позицию. А монетизация и прибыль придут чуть позже.
عرض المزيد ...
20 473
256
👮Калифорнийский законопроект о регуляции ИИ прошёл ассамблею TLDR: SB 1047 фактически запрещает публикацию передовых моделей в опенсорс. Несмотря на сильную оппозицию (см скрин) со стороны индустрии и не только, закон удалось провести сквозь ассамблею. На него ещё может наложить вето губернатор. Последний раз я ещё в июле, с тех пор туда внесли ряд правок. Вот основные изменения в законопроекте с прошлого поста: ➖ Подпадают под закон модели, которые стоили бы более $100 млн по "средним ценам облачного компьюта". Файнтюны же таких моделей, на которые потрачено более $10 млн, считаются новыми моделями. До 1 января ограничение также даётся в флопсах - 1e26 и 3e25. ➖ Обновлять определение подпадающих под закон моделей теперь будет "Board of Frontier Models" (совет по делам фронтирных моделей). Пять из девяти мест в борде будут занимать: представитель опенсорс сообщества, представитель индустрии, эксперт по кибербезопасности, эксперт по оружию массового поражения и эксперт в ИИ. Их назначает губернатор, подтверждает назначение сенат. Ещё два места, которые назначает спикер ассамблеи – это академики, специализирующиеся в AI. Оставшиеся два места назначает комитет по правилам сената, требований к компетентности членов тут нет. Главная проблема закона, напоминаю – это ответственность разработчиков модели за "критический вред", который нанесла не только сама модель, но и её файнтюны "дешевле $10 млн". По факту это запрещает публикацию в опенсорс моделей, подпадающих под закон. Даже если сама модель безобидная, доказать, что все возможные файнтюны в пределах ограничений по компьюту, будут тоже безобидными - невозможно. Вторая большая проблема - определение денежной стоимости тренировки модели "средней ценой по рынку". Разброс в стоимости H100 в час на рынке сейчас более 4x (AWS - $12.25/hr, Lambda - $3/hr), так что со средним значением под закон будут подпадать модели в разы дешевле чем лимит на бумаге. Сейчас закон отправился на рассмотрение к губернатору, у которого месяц на то, чтобы либо подписать закон либо наложить на него вето. Если он его подпишет - регуляции вступят в силу уже в 2026 году. Кажется, если закон примут, то это может прибить AI стартапы в Силиконовой Долине – они будут делать ноги в другие штаты, где и налоги пониже и регуляции помягче. При условии, конечно, что не примут похожую регуляцию на федеральном уровне.
عرض المزيد ...
20 709
242
RunwayML тизерят новую модельку, анонс завтра в 17:00 CET В тизере ничего особо интересного не показали, кроме шикарных картинок, но думаю, релиз будет любопытный. Теперь ждем презентации свежих видеомоделей, как новенький айфон.😋

runway.mp4

23 852
164
Маск продолжает удивлять - XAI уже запустили Colossus, крупнейший в мире кластер для тренировки. Более того, в течении пары месяцев его мощности удвоят - добавят по 50k H100 и H200.
19 710
171
Совсем уже зашугали роботов в Китае. Боятся всего и всех, отскакивая в ужасе. Как бы нам обраточка не пришла через пару лет. А если серьезно, то это робопёсик X30 от китайской компании . И они научили его избегать контакта с людьми и другими объектами ради безопасности, конечно. Цена такого четвероногого друга начинается от $65000. И это не мало. У Boston Dynamics робопес стоил $75к, когда они их ещё продавали (сейчас, кажется, продажи делают только по индивидуальным договоренностям).
عرض المزيد ...

09022.mp4

21 450
133
Нейродайджест за неделю (#33) LLM - . Попробуйте предсказать результаты. - . Собственно, произведённые чипы специально для нейронов дают сверхзвуковые скорости. - . Вот и «мозги» для колоночки подъехали, но поможет ли это спасти проект? - . Самый понятный гайд по многослойному персептрону. Роботы - . Инструкция прилагается и стоит не так уж дорого. - . Скайнет всё ближе, ботов уже не отличить от людей в костюме. Другое - или он уже нашёл лазейку? - . Восстанавливаем 3D-шейпы голов в неограниченном количестве с новым датасетом в 1М картинок. Всё ради фильтров в инсту. - . Олимпиада чипов для нейросеток. Вот как понять, кто реально быстрее. - . Ещё один китайский игрок на рынке видеомоделей. Очень достойный перформанс. >  
عرض المزيد ...
20 161
55
Тесты video-01 от твитерских:

file

file

file

file

16 567
92
Подъехала новая text2video халява от китайцев – Minimax Еще до выхода всяких Лум, Alibaba периодически скидывала статьи по видео генерации. И вот как всегда с задержкой посылки, знакомые нам под именем AliExpress показали свою видео модельку video-01 Minimax. Еще в инвесторах, конечно же, Tencent — они, кажется, имеют долю вообще во всех китайских ИИ-стартапах. Трудолюбивые продолжают пытаться скопировать SORA и занять рынок до того, как OpenAI релизнет свою модель. Релиз мощный, еще никто не делал фильм, лол. Помимо черрипика выше, есть еще твитерские примеры, и складывается ощущение, что эта моделька наиболее продвинутая в плане мувмента — чекните руки в первом видосе в коментах. Максимальная длина генерации видо – 6 сек. Кроме этого у них есть полный набор продуктов - генерация изображений, музыки, копирование голоса, свои LLM, клон Perplexity. Всё ориентировано на китайский рынок, поэтому компания не особо заметна за пределами Китая. За 250 миллионов долларов, которые поднял стартап, это очень достойные результаты. Пробуем годноту здесь, если есть китайский номер: Официально работает только с ПК, но можно и в десктоп-режиме на мобилках.
عرض المزيد ...

0901__85pct_smaller.mp4

19 349
294
Как LLM хранят факты? Принес вам на вечер субботы отличный ролик от . На этот раз гений интуитивного обучения расскажет про то, как LLM запоминает факты. Это видео для полных новичков, объясняющее роль многоуровневого перцептрона (MLP/FFN) в LLM. Это третье и последний эпизод в серии о работе LLM. D первых двух объяснялось как работают и как работает . Эта серия - лучшее объяснение для непрограммистов о том, как работают LLM, с кучей хороших визуализаций. . Клип сверху — просто отрывок.
عرض المزيد ...

V94KmX264mkHEbzI.mp4

21 390
1 249
#вакансия Редактор в сетку каналов про технологии, интернет-тренды, айти, игры Обязанности: — Поиск новостей, интересных кейсов и материалов про интернет-тренды, технологии, нейросети — Публикация 5-6 постов в день. Вы бы подошли, если: — Вы разбираетесь в технологиях, владеете разными зарубежными источниками, умеете извлекать из ленты хорошие инфоповоды — Вы умеете писать тексты, которые хорошо привлекают и удерживают внимание (охваты). Если есть успешный опыт написания контента в Телеграм — еще лучше; — Вы грамотны и внимательны, не допускаете опечаток и ошибок; — Вы ответственны и готовы всегда готовить необходимый объем посто. — Вы готовы всегда быть на связи и иногда оперативно готовить нативные посты. Условия: — Полностью дистанционная работа; — З/п по договоренности, от 100 до 400к, в зависимости от навыков и объема. Белое трудоустройство. Отправляйте рассказ о себе на этот аккаунт: P.s. Кандидат, с которым была переписка в прошлый раз (ты кидал тестовые задания) — отпиши в лс еще раз, потерял твой диалог.
عرض المزيد ...
12 088
135
А вот как NEO Beta ходит и помогает по кухне

1xdishes.mp4

1xwalking.mpv.mp4

20 139
404
Новые роботы Neo Beta от 1x В движении видно что робот, но чисто по стопкадрам сложно отличить от человека в костюме. А всего три месяца назад роботы компании ещё . А можете похвалить (или поругать) одного из разработчиков. What a day to be alive

1xneobeta.mp4

20 970
378
Новая Alexa будет на основе Claude По сообщению , продвинутые фичи на основе новой модели будут стоить 5-10 долларов в месяц. Выглядит как ещё одна попытка получить хоть какую-то прибыль от Alexa, потери от которой с 17 по 21 годы составила 25 миллиардов (более новых данных нет, но там вряд-ли дела обстоят лучше). Увы, похоже это будет не омни-модель, вроде GPT-4o, так что задержка лучше текущих голосовых режимов не станет (то есть ~3 секунды, а не ~300 миллисекунд). Надеюсь Антропик подсуетится и даст возможность Claude работать с аудио и на вход и на выход, тогда будет разнос (но о стоимости инференса даже думать страшно). Вот и начинается интеграция Claude в продукты Amazon, раньше это было лишь API. в 4 миллиарда отбивать-то нужно.
عرض المزيد ...
17 808
92
MLPerf Inference v4.1 - триумф Nvidia B200 MLPerf - это главное соревнование производительности железа для ИИ, где сравнивают их производительность на реальных моделях. Есть две основных категории - тренировка и инференс, сейчас закончился инференс. В этом раунде аж 4 новых ускорителя, два - от компаний участвующих впервые. Все новички участвовали лишь в одной дисциплине. Главная звезда - Nvidia со своей . Она в 2.5 раза быстрее новенькой , которую Nvidia начала продавать лишь вчера, и в 4 раза быстрее - на новой видеокарте Llama 2 70B выдаёт больше 11к токенов в секунду. Впервые на MLPerf появилась AMD, с . Перформанс Llama 2 70B - 3к токенов в секунду, уровень H100, но отстаёт от 4.5к у H200. Прямой конкурент , (монстр с 288 гигами видеопамяти) выйдет в четвёртом квартале, то есть отставание по железу у AMD сейчас всего несколько месяцев. Но отставание в софте - совсем другая проблема. Кстати видеокарты AMD уже светились на MLPerf один раз прежде, правда геймерские. tinycorp, которая производит серверы на основе геймерских видеокарт, удалось натренировать ResNet на 6x7900XTX, используя и свой фреймворк и свои драйвера. Ещё один новичок - Untether AI, их собственный ускоритель смог добиться 60% перформанса H100 в ResNet, при эффективности в три раза выше. Достигли этого, засунув всю модельку прямо на чип, а не в видеопамять, поэтому участвовали лишь в дисциплине с очень маленькой моделькой. Как они будут запускать модели побольше – открытый вопрос. Однако, эту проблему уже удалось решить Groq - стартапу с похожей архитектурой чипа, но Llama 70B запускается у них на 576 чипах, что требует нетривиального нетворкинга. Заявился туда и Google, с новыми TPU v6. В инференсе SDXL перформанс в три раза лучше чем у v5e или примерно 70% от перформанса H100. Это младшая версия TPU v6, созданная для инференса. Разница в производительности между младшей и старшей версией предыдущего поколения - 2.3x, похожую разницу стоит ожидать и сейчас. В своих маркетинговых материалах разработчики железа манипулируют всем, что только можно, сравнивают тёплое с мягким. Поэтому сравнивать железо на общих, независимых, бенчмарках, как это происходит на MLPerf, чрезвычайно важно.
عرض المزيد ...
23 289
114
VGGHeads: Восстанавливаем 3D головы на групповых фото В догонку к , где мы со студенткой восстанавливали 3D-шейп лица по видео или аудио, даже если в какой-то момент оно закрыто, спешу поведать про . Ребята научились собирать меш сразу для нескольких голов по одному фото. Казалось бы, а что, фильтры в Instagram так не умеют? А вот нет! Потому что задетектить столько лиц сразу — довольно сложная задача, а здесь это ещё и делается в один шаг. Архитектура модели ню построена на базе YOLO-NAS. Не реалтайм, конечно, но очень к этому близко. Ещё из интересного то, что для тренировки использовался полностью синтетический датасет. Картинки генерили на основе референсных, используя диффузию и 2D Pose controlnet. Всего так нагенерили 1M картинок с 2M+ головами, из которых 10 000 зааннотировали вручную (правда, только вот этой красной рамкой см. картинку, но и на это ушло 56 часов). Примечательно, что человеку необязательно смотреть прямо в кадр — лицо детектится и в профиль. Выше пример в Варшаве. Датасет (скоро)
عرض المزيد ...
16 870
134
Сверхзвуковые LLM Llama 3 70B запустили на скорости в 450 токенов в секунду. А 8B - на бешенных 1800 токенов в секунду. Это всё без квантизации, да и цена не кусается - API стоит 10 центов за лям токенов для 8B и 60 для 70B. Предыдущий рекорд по скорости побили в более чем два раза для 8B. В будущем обещают добавить больше моделей, начиная с Llama 3.1 405B Сделал это стартап Cerebras. Он производит железо для нейронок, известен самым большим чипом в мире (в 57 раз больше по размеру H100!). Предыдущий рекорд по скорости поставил тоже стартап со своим железом - Groq. Хороший пример того что специализированные только под нейронки чипы вроде могут в разы превосходить видеокарты по скорости инференса, а ведь скоро ещё будут чипы которые заточены под конкретные модели, например . Кстати, давно хотел разобрать разные стартапы по производству железа и разницу их подходов. Интересно? Попробовать можно .
عرض المزيد ...
24 215
430
Никто: Илон Маск: за калифорнийский закон о регуляции AI, который зажмёт его собственные компании тоже.
19 664
58
Тут совместно с ИМТО провели исследование ML-сообщества России и опросили более 300 спецов. Здесь не будет рейтингов компаний и размера ЗП, но есть выборка карьерных ожиданий и перечень критериев, необходимых для успеха на рынке. Подробнее — в карточках Кстати, мой канал вошёл в топ самых популярных тг-каналов, откуда народ черпает информация про AI и ML.
12 711
179
LLM Arena для русскоязычных моделей Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков! C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так: - Gpt4o - Gpt4o mini - LLaMa 3.1 405b - LLaMa 3.1 70b - Gemma 27b - LLaMa 3 70b — бенчмарк на основе Это единственный полностью открытый современный бенчмарк на русском языке. В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с . На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные. это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения! Для новчиков - тут я писал подробнее, что такое ChatBot Arena.
عرض المزيد ...
Russian LLM Leaderboard - a Hugging Face Space by Vikhrmodels
Discover amazing ML apps made by the community
49 129
563
Нашел мем, высмеивающий завышенные ожидания от применения нейронок 10 лет назад. Хотя мем и забавный, важно понять не только как и почему так вышло, но и отметить, что несмотря на сохранение профессии радиолога, медицина продолжает трансформироваться под влиянием AI. Главная причина таких ошибочных прогнозов — концентрация на бенчмарках без учёта полевых условий применения. Модели, превосходящие человека в анализе рентгеновских снимков на бенчмарках, часто оказываются менее эффективными на реальных клинических данных. Кроме того, бенчмарки не отражают всего спектра задач, с которыми сталкиваются радиологи. Сейчас исследователи начали применять ключевой принцип стартапов — прямое общение с пользователями, в данном случае с практикующими врачами. Это позволяет внедрять AI для решения реальных проблем, таких как поиск редких патологий, которые из-за своей нечастой встречаемости могут быть не замечены обычными врачами. Хороший пример и такого юзкейса — , которая выявляет редкие патологии нервной системы на ранних стадиях беременности по результатам УЗИ. Идея проекта принадлежит фонду "Спина бифида", а создали нейросеть в Яндексе в сотрудничестве с врачами перинатального центра Кулакова и студентами Школы анализа данных. Несмотря на относительно небольшой процент детей с подобными патологиями, в масштабах стран речь идёт о тысячах случаев ежегодно. Раннее выявление может значительно улучшить качество жизни этих детей Архитектурно тут всё очень просто - YOLOv10 и пара DenseNet. А основная сложность – это датасет, который размечали на основе 6 тысяч УЗИ снимков (в том числе 300 с патологиями). Моделька открытая,плюс её можно затюнить искать дополнительные патологии или лучше понимать снимки какой-то отдельной модели УЗИ аппаратов. На фоне шумихи вокруг LLM часто забывается, как AI уже сейчас реально улучшает жизни, и до прихода AGI (а там еще посмотрим кто кого спасать будет).
عرض المزيد ...
23 783
212
Внимание! Hugging Face представляет конструктор «Собери сам», в комплект входит: - Конструктор «Собери сам» — роборука с ~ $300 (опционально есть еще вторая за $250) + файлы для принтера. Гайды по: - Cборке и калибровке. - Записи собственного датасета на камеру телефона. - Тренировке нейросетей для управления рукой. Прикольная инициатива, ребята надеются помочь начинающим как только возможно в надежде привлечь больше рук в опен-сорс, что, в общем-то, шикарно! Расходники вышли дороговатыми, но это уже не + скоро обещают выпустить новую версию, говорят уложились в $150 за обе руки. Чел научил две роборуки складывать футболки на 100 примерах за одну ночь тренировки. Хотел бы я подарить такую штуку себе 15 лет назад. (есть и видео и ноутбуки с тренировкой нейронок)
عرض المزيد ...

F1_FO05MDNBXvQXe.mp4

wjs4EacMYr6_ZrhD.mp4

29 647
979
Нейродайджест за неделю (#32) Генеративные модели - смешали с Luma. Вышел прикольный морфинг. - . Какую же подписку взять? Проводим тесты и выбираем модель себе по душе. - . Вышло сыровато, но зато первые! - И окончательно переехали в веб. Теперь сайт имеет полноценный набор инструментов и можно пилить новые фишки, хотя Discord все еще жив! - . Новая SOTA чуть ли не лучше FLUX, но закрытая и коммерческая, парни явно хотят отжать часть рынка у MidJourney. Пейперы - . Креативный способ набрать больше параметров почти бесплатно. - . Делюсь плодами студентки, которая продолжает мой старый проект , но теперь с лицами. Другое - . Было мега круто, спасибо всем, кто пришел и кто читает канал <3 - . Разбираемся с внутрянкой на практике. Все мы любим потыкаться в чужой код и посмотреть, что выйдет. - переписала старое репо и сэкономила 4500 лет работы и $260M в год. Может, у джунов все-таки есть шанс пройти собес под прикрытием Copilot'а? ——— Так-с, я там пропустил пару недель, так что вот пара самых горячих новостей за недели 29 и 30. Пропустили юбилей = ( - . Эти статьи точно стоит почитать на досуге. Прям интересно. - . Это же те самые авторы FLUX и спасители опенсорса, вперед мужики! - . Теперь XAI – серьезная AI компания. Их модельку sus-column-r на арене нарекли прорывом от OpenAI. Есть о чем задуматься. - . Провайдеры мощно режут цены на свои API. Оптимизированные минимодельки, да еще и с кешем теперь почти ничего не стоят. - . Пацаны собрались нормально поболтать за жизнь работу. Мистер кожанка даже похвалил мой , приятно :) - . Бесплатно и от топовых практиков в индустрии, если вливаться в NLP, то только так. - . Кто-то там все еще не может удалить задний фон, а тут ребята сегментируют элементы не просто на картинках, а на видео. >
عرض المزيد ...
19 334
150
Пока Амазоновские , юзая их Amazon Q*. Чуваки прикинули и пришли к выводу, что за пару недель сэкономили 4500 лет (sic!) работы человека-разработчика. Сначало не верится, но если учесть, что 80% кода они отправили напрямую в прод... хочется задуматься о перспективах работы для программистов. Новая простыня отличается повышенной безопасностью и эффективностью (конечно, со слов разработчиков, ещё посмотрим какие дыры проявятся через некоторое время). А вообще, оптимизация должна принести Безосу лишние 260М в год👍 С одной стороны, в очередной раз press F джунам, с другой — ребята, пока еще не все выкупили фишку, устраивайтесь скорее на синьоров в старые компании и переписывайте им код за нормальную зп😁 * Amazon Q - это амазоноаский копайлот, который под капотом все также использует GPT, имеет доступ ко всей базе кода и документов внутри компании, плюс некий обвес из пайплайнов и интерфейсов вокруг. Вот про него.
عرض المزيد ...

file

41 113
1 107
Я раньше вам уже , что у нас в Мете есть возможность коллаборировать с университетами и супервайзить научные работы студентов. Так вот я этим и продолжаю заниматься. В этом году я супервайзил еще одну магистерскую работу в ETH Zurich. Это работет так, что у студента формально есть супервайзер и в ETH и в Мете. Но так как это коллаб, то тему работы задавали мы из Меты (я и еще одна моя коллега). Мы еженедельно встречались и обсуждали прогрес по проекту, я накидывал идеи и помогал решать проблемы если были блокеры. За основу проекта была взята моя статья , но на этот раз мы хотели сделать что-то с анимацией лиц. Около месяца назад моя студентка-магистрантка добила этот проект и успешно защитила свою Магистерскую работу в ETH Zurich! Работа называется "OccluFaceDiff: Multimodal-Conditioned Occlusion-Aware 3D Facial Animation Using Diffusion". Если коротко, то мы научили (я говорю мы, но на самом деле всю работу, конечно, сделала студентка) мультимодальную диффузионную модель восстанавливать 3D shape лица человека по видео и аудио, если оно есть. То есть на вход видеоряд - на выходе последовательность 3D шейпов лица, соответствующая каждому кадру. Фишка работы была в том, чтобы восстанавливать все лицо даже если часть его закрыта чем-то (например маской или рукой). Если часть лица не видна, но есть аудио, то по звуку и эмоциям можно предсказать, как выглядело лицо человека. Самое сложное тут это мимика. Ну, а после защиты счастливая студентка уехала на стажировку в Amazon в Люксембург :) Как вернется, возможно, будем готовить статью. Так что, если вы толковый студент (желательно PhD) и есть амбиции и желание написать со мной статью, то можете написать в лс или в комментах. Возможно, сможем поработать вместе.
عرض المزيد ...
19 758
129
Я вернулся из ! Город очень живой и активный, особенно сильно это ощущается на контрасте с размеренным Цюрихом. И, конечно, огромное русскоговорящее комьюнити технарей. Я провел целых две тусовки с подписчиками – одной оказалось мало, и меня попросили организовать еще одну. Сразу скажу, что обе прошли просто шикарно! Спасибо всем, кто пришел – вы все очень крутые! Для первой забронировал целиком белорусский бар "Банки-Бутылки" (он же раньше был в Минске на Зыбицкой). Я приятно офигел от того, что на тусу пришло более 50 человек. Это пока рекордная по размеру тусовка "эйай ньюз". Получилось прям круто! Тут было, как мне кажется, три составляющие успеха: ➡️ Много интересных людей. Кроме ребят, кто работает в AI и ML (из FAANG-а, фирм поменьше и стартапов), были артисты, фотографы и маркетологи, которые активно используют AI в своей работе. ➡️ Вкусные коктейли, в том числе и безалкогольные (респект барменам!). ➡️ Хорошая музыка и обстановка. Так как место было зарезервировано чисто под нас, была очень уютная и непринужденная атмосфера. ➡️ Для самых стойких мы организовали афтерпати на шикарной террасе с видом на реку (кудос моему другу Андрею!). Разошлись в 3 часа ночи только 🎵. Вторую тусу поменьше на 15 человек провели через два дня после первой на берегу реки Вислы за комфортабельными деревянными столами, где можно было приносить свои напитки. Тут было более спокойно, но не менее кайфово, смогли хорошо пообщаться и выпить пива с ребятами, наблюдая красивые виды вокруг. Кроме того, меня пригласили на локальный Data Breakfast, который ребята проводили в Гугле. У Гугла оказалось прям крупное представительство в Варшаве, и есть даже команды из Waymo (где пилят self-driving). Еще позвали в гости в офис Pinterest, где я познакомился с командой, вышедшей из белорусского стартапа Vochi, который был куплен Пинтерестом в 2021. Ну, и конечно, поработал из нашего Метовского офиса с на центр Варшавы. Поездку в Варшаву объявляю очень удачной, приеду еще раз как-нибудь!
عرض المزيد ...

meet up.mp4

16 267
43
Ideogram 2.0 Это новая SOTA - по внутренним тестам она обходит FLUX.1 Pro, причём модель особенно хороша для генерации текста. Судя по результатам генерации, которые я видел, это и правда так. Бесплатно доступно 10 кредитов в день, этого хватает на 5 генераций с новой моделью, а подписка стоит от 8 баксов в месяц. Добавили и функционала по контролю за генерацией - предопределённые стили и возможность выбирать палитру. Вместе с новой моделькой релизнули приложение на iOS и API. API по стоимости примерно на уровне FLUX. Технических деталей, увы, нет. Судя по поведению компании, они вряд ли будут.
عرض المزيد ...

ideogram.mp4

19 498
353
CDTO - Chief Digital Transformation Officer - это человек, который отвечает за технологическое развитие компании и внедрение новых технологий в работу. Уверен, у этих парней выдался тяжёлый год из-за бума нейросетей: каждый CEO хочет себе какую-нибудь AI приколюху. Вообще, интересная должность, хотя понимание AI технологий — это уже мастхэв скилл для любого управленца. Те, кто любят и технологии, и бизнесовую тему (я как раз шарил на стыке бизнеса и AI), точно оценят рассказ о CDTO в свежем выпуске подкаста Data Therapy. Ведут подкаст директора X5 Group, и во втором выпуске про CDTO в гостях Николай Верховский, директор Центра цифровых программ Московской школы управления Сколково. Сейчас у подкаста идёт 3 сезон, ребята рассказывают про внедрение AI в различные ниши на конкретных кейсах гостей. Но скажу сразу: подкаст довольно хардовый, подойдёт опытным менеджерам и директорам или тем, кто хочет таковыми стать. Реклама. ПАО «Корпоративный центр ИКС 5», ИНН 9722079341, erid: LjN8KEQV2
عرض المزيد ...
9 198
72
Midjourney наконец-то начали выбираться из Discord! В честь релиза вебверсии для всех пользователей врубили бесплатные триалы - дают бесплатно сгенерить 25 картинок. Дальше по подписке - они стоят от $10 до $120 за месяц или от $96 до $1152 за год. В веб интерфейсе на удивление много фич - кроме стандартной галереи генераций и интерфейса промптинга там есть текстовые и голосовые чаты, текстовые связаны с дискордом. В придачу есть специальный интерфейс для ранкинга изображений в обмен на ускоренную генерацию картинок (очень умный способ получить данные для тюна практически бесплатно). Заметьте как один из лучших генераторов изображений в мире больше двух лет был доступен лишь в дискорде. Фокус был на основном продукте - модели генерации, на вторичные фичи на распылялись. В том числе из-за этого компания не просто профитная, она ни разу не привлекала денег, остальным стартапам есть чему у них поучиться.
عرض المزيد ...

midjourney.mp4

20 842
327
Scaling Diffusion Transformers to 16 B parameters with MoE Китайцы месяц назад заскейлили DiT до 16.5 млрд параметров с помощью . Это могла бы быть самая большая DiT диффузия в опенсорсе на сегодняшней день, если бы веса 16.5B выложоли. Но шансы этого близки к нулю, т.к. я прождал месяц, а весов большой модели все еще нет. Экспертов вставили в каждый MLP блок, то есть вместо одного такого блока у нас теперь K параллельно, которые активируются в зависимости от входного токена. Во время инференса активны только 4 эксперта из К в каждый момент ( 2 "общих" эксперта активны всегда). В чем профит использовать MoE? - По сравнению с Dense моделью аналогичного размера (где у нас один жирный MLP блок), МоE позволяет условно распределить знаниz по отдельным эспертам, каждый из которых имеет меньший размер. За счет этого во время инференса мы можем активировать только часть экспертов и экономить на вычислениях. - Выигрыша по памяти MoE в этом случа не дает - нам все равно нужно загружать сразу всех экспертов в память, т.к выбор экспертов происхлдит на уровне токенов. - Если бы мы выбирали экспертов на уровне промпта или шага t, то можно было бы сэконосить и память. Но тут так не делают. Тренят модель на: – На 1.3M картинках из Imagenet и на синтетике. – Нагенерили 5M картинок 512x512 для Imagenet классов с помощью SD3-2B и SDXL, а затем фильтрануи клипом. Это для того, чтобы насытить данными жирную 16.5B модель, ведь 1.3M из Imagenet тут уже мало. Результаты: Картинки в статье выглядят так себе, наверное плохо черипикали. Но чего ожидать от генерации по классам на Imagenet. А по метрикам у них SOTA. Что ж, ждем аналогичную text-2-image модель. В есть код тренировки (на DeepSpeed). Yедавно добавили тренировку на основе Flow Matching, как это делают в Flux и SD3 - авторы пишут что таким методом модель быстрее сходится и дает лучшие результаты (это полезное замечание). Вот : - B/2 с 8-ю экспертам (800 M, 12 блоков) - G/2 с 16-ю экспертами (16.5B, 40 блоков) - не выложили ха-ха.
عرض المزيد ...
14 509
66
А вот и первый IP-Adapter для FLUX.1 [dev] подъехал IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По усолчанию Flux картинку на вход не принимает. Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я . Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в cross-attention. Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
عرض المزيد ...
16 641
340
Нашел прикольное сравнение Runway и Luma. прогнал одни и те же картинки через обе модели и сделал два одинаковых трейлера. В связи с этим решил провести свое небольшое сравнение трёх конкурентов в разных категориях: 1) Следование промпту: сможет ли модель нарезать апельсин? 2) Реалистичный портрет "говорящая голова". 3) Продакт-фото — ещё один очень популярный юзкейс. 4) Абстрактная динамичная сцена с китом, который выпрыгивает из дюны. Все видео генерил три раза (что, вообще говоря, маловато) и использовал один и тот же промпт из . Результаты выше. Скажу честно, я топил за Luma, но после того, как Runway расправился с этим апельсином, мое мнение резко переменилось. Luma разрезала апельсин только после добавления endframe, хотя Gen-3 справился с первой попытки. Прайсинг: Здесь сложно судить. Думаю, нет смысла считать стоимость токена или секунды генерации. Все равно 2/3 генераций уйдут на свалку. НО! У Runway есть анлим за 95 баксов, и если вы вот реально угарели по этой теме, то Runway ноубрейнер чойс. Luma за $100 дает 480 генераций, что кажется много, но по сути из 30 минут сгенерированного видео юзабельными будут минут 6-10 от силы, чего хватит на пару-тройку клипов. А еще можно скинуться с корешами на акк Runway, а для отдельных задач юзать фри токены лума (пока фичу со start & end keyframes не завезли в gen-3), но я вам об этом не говорил🤭. Выводы: Runway дает более киношную и чистую картинку, но меньше движений. Хотя, это решается грамотным промптингом и черрипиком. Здесь нужно добавить, что я тестировал Turbo версию, так как на нее есть бесплатные кредиты😁. Luma, судя по первому видео, дает больше движений, но и больше артефактов. В целом, тот же черрипик должен решить проблему, а четкость можно добавить в посте и на этапе апскейла, который все равно требуется для всех трех моделей. А Kling... ну что Kling... Он в целом менее популярный из трёх, хотя, кажется, имеет наилучший мувмент в плане реалистичности и фиделити. Однако, картинка еще более мутная и менее киношная. Как-то ни народ, ни я его не взлюбили. А еще в бесплатной версии ну оочень долгая очередь, как в первые дни релиза Luma (ждал ночь). Пока мой выбор за Runway GEN-3. Если набить руку и не жалеть анлим, то получится выжать динамичную и красивую картинку. Это как MidJourney, ради красоты стоит потерпеть.
عرض المزيد ...

Runway_Gen_3_update!_vs_Luma_Dream_Machine_New_Comparison_Video.mp4

0819 (1).mp4

17 857
252
آخر تحديث بتاريخ: ١١.٠٧.٢٣
سياسة الخصوصية Telemetrio