@ai_newz - جميع منشورات قناة تيليجرام эйай ньюз

54.0k18.9k48.82%

تم النّسخ!

Протестил Kling Motion Brush 50 минут ожидания и о-па! Марик превращается в другого парня. Лица, конечно, знатно корёжатся. Но траектория с большего правильная получилась, кроме ног парня слева. Ради справедливости, я пробовал оживить это фото в Gen-3, и он вообще отказался что-либо делать, просто слегка зазумил фотку. Так что тут победа за Kling! @ai_newz

kling-motion-brush-demo.mp4

0 (1).mp4

8 782

эйай ньюз ٢٠ سبتمبر, ٢١:١٥

54.0k18.9k48.82%

تم النّسخ!

Motion brush в Kling 1.5 Я что-то слышал краем уха про то, что у Kling вышла версия 1.5, и вроде бы она даже немного получше, и про то, что у них появился motion brush. Но я не предал этому особого значения, т.к. такая же штука была у Runway, а качество, ну, не то чтобы прямо сильно выросло. Но. Гляньте на эти тесты от твиттерских. Работает неожиданно хорошо, и что самое классное — есть возможность указать траекторию движения, да и сегментация кадра работает неплохо. Поэтому решил, что всё-таки это стоит поста. По обновлению: - Разрешение 1080p для pro юзеров - Увеличение динамики движения в кадре - Motion Brush с траекторией движения для 6! элементов сразу - Увеличили скорости генераций, сделали возможность генерить несколько видео параллельно - тут спорно, у меня 2 видоса уже генерятся 30 минут. Хз, где та скорость. - Увеличили макс. длину клипа для img2video до 10 секунд и добавили end frame в стандартной подписке (тоже платная) Ну что, теперь Kling — король арены видеогенерации? Подробнее и сравнения @ai_newz

عرض المزيد ...

file

9 180

186

эйай ньюз ٢٠ سبتمبر, ١٣:٤١

54.0k18.9k48.82%

تم النّسخ!

Стрим про карьеру и собеседования через 2 часа, 17:30-18:30 CET (18:30-19:30 мск). С самыми упорными, возможно, задержимся еще на полчаса, вопросов интересных поступило немало. Ссылка на стрим: Streamyard В начале разогрева ради – хиханьки, если не опоздаете, узнаете, кто ел в одной столовке с Яном ЛеКуном, кто сегодня спал днём, а кто работал ночью.

10 869

эйай ньюз ١٩ سبتمبر, ١٤:٠٩

54.0k18.9k48.82%

تم النّسخ!

Вот и результаты Strawberry 🍓 на арену подъехали. И конечно же это новый дилер! Похоже, o1 открывает свой новый тир, результаты (в среднем) на голову выше, чем у предшественников, улычшился перформанс даже на обычных не наукоёмких запрсах. А в хард-промптах и кодинге все остальные даже не близко (4o может немного). Челам с подпиской повезло, им еще и лимиты недавно повысили. А вот стоит ли переплачивать в 30 раз (тк o1 тратит в ~6 раз больше токенов на запрос чем 4o) за API для обычного пользователя – пока непонятно. А как вы планируете использовать новую модель на полную мощь? @ai_newz

عرض المزيد ...

12 999

144

эйай ньюз ١٩ سبتمبر, ١١:٠٢

54.0k18.9k48.82%

تم النّسخ!

Стартап Fluently (YC W24) ищет Senior ML Engineer Fluently - AI спикинг коуч, который слушает ваши онлайн колы и помогает прокачивать английский. Зимой ребята прошли Y Combinator, а также закрыли раунд на $2.5M. Стартап ищет ML инженера, который будет 6-ым членом команды, чтобы строить сервисы c использованием LLM: [Agentic] RAG, LLM/Embeddings Fine-Tuning, Structured Outputs, Custom Llama Serving. Нужно разбираться в последних трендах (что мы и делаем в этом канале). Вилка: от $5k до $10k Опцион: 0.2-1% Формат: ремоут (можно податься на h1-b) 👉🏻 Больше подробностей в посте Юры, фаундера Юру я знаю, лично – виделся с ним, когда был в Сан-Франциско в Апреле. Так что его вакансию могу смело вам рекомендовать. Еще за успешный реферал можно получить последний айфон. #промо

عرض المزيد ...

12 921

эйай ньюз ١٨ سبتمبر, ١٣:٣٢

54.0k18.9k48.82%

تم النّسخ!

Снапчат троллит Эпл. Вчера прошла ежегодная презентация Снапчата. Заанонсили пару прикольных штук. Приложение со смешными масочками решило с двух ног залететь в AR/VR и AI. Казалось бы, ничего не предвещало... Показали AR-очки с прозрачными линзами! Это уже 5-е поколение Spectacles, хотя раньше о них никто особо не слышал. Очки обещают утереть нос Эпл Вижену, как видно на видео выше. Функционал пока непонятен, но анонс многообещающий. Пишут, что заряда хватит на 45 минут, и пока вся эта история выглядит как оверхайп. Девайс стоит 99 долларов в месяц с обязательной оплатой на 12 месяцев. Пока доступен только ограниченному кругу разработчиков, кому повезло попасть в developer-программу. Возможно, потом станет дешевле, если очечки выйдут на массовый рынок. Ещё представили фильтр, который очень точно воспроизводит лицо на сгенерированной картинке (что-то вроде IP-Adapter на стероидах). Подробностей пока нет. И последняя горячая новинка — text и img 2 video foundation модель. Новый конкурент Sora (да, опять хах), но пока почти нет видео для сравнения. @ai_newz

عرض المزيد ...

file

13 944

193

эйай ньюз ١٧ سبتمبر, ١٨:٥٧

54.0k18.9k48.82%

تم النّسخ!

Сегодня хочу поделиться мыслями об опенсорсе в AI/ML. Как человек, который сам тренирует большие модели, могу сказать - опенсорс это очень круто! Радует, что крупные компании это тоже понимают. Открытые решения реально двигают всю сферу вперед, позволяя даже небольшим командам использовать SOTA инструменты и строить на них свои продукты. Например, та же Meta с релизом LLama3.1 и предыдущими версиями серьезно подтолкнула прогресс в области LLM. Ну, и бигтехи в России тоже контрибьютят в опенсорс. Наткнулся на исследование ИТМО, где они посмотрели, кто больше всего выкладывает в открытый доступ штук по AI/ML. В тройке лидеров оказались Яндекс, Сбер и Т-Банк. Вот мой личный топ их репозиториев: • Яндекс: - catboost - мощная библиотека для градиентного бустинга - YaFSDP (я писал о ней тут) - библиотека для ускорения распределенного обучения больших моделей. • Сбер: - Kandinsky-3 - крупная text2image модель на 3B параметров - ru-gpts - одни из первых LLM на русском языке • Т-Банк: - T-lite – русскоязычная специализированная LLM на 8B параметров - Rebased - (писал о ней тут) - улучшенная имплементация линейного трансформера В общем, топим за опенсорс. И не стесняйтесь контрибьютить сами, если есть что предложить - кроме всего прочего, это еще и хорошо выглядит в CV. @ai_newz

عرض المزيد ...

14 733

203

эйай ньюз ١٧ سبتمبر, ١٤:٠٤

54.0k18.9k48.82%

تم النّسخ!

Стрим про карьеру, собеседования и бигтех Заметил, что у вас есть большой запрос на эту тему. Поэтому мы тут организовались с ребатами и будем проводить большой стрим, где поговорим про карьеру и собеседования в FAANG. Choose your fighter. Бигтех-банда для стрима: - Татьяна Шаврина (LI) – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала @rybolos_channel (пост-приветствие). Недавно устроилась, может рассказать про собесы и что именно спрашивают на менеджера; - Сергей Иванов (LI) – Senior Applied Scientist в парижском Amazon, соавтор канала @graphML. Провел 100+ собесов в Амазон, может рассказать про хардкорные поведенческие вопросы; - Борис Цейтлин (LI) – Staff MLE в берлинском eBay, автор канала @boris_again (пост-приветствие). Недавно отмучился с собесами; - Юрий Кашницкий (LI) – Staff GenAI Solutions Architect в амстердамском Google Cloud, автор канала @new_yorko_times (пост-приветствие). Юра будет скоморошить (то есть модерировать) встречу; - Артем Санакоев (LI) – Staff Research Scientist в цюрихской Мете, GenAI, автор @ai_newz (еще раз пост-приветствие). А вот тут я писал про то, как собеседую на разные синьорные позиции в Мету. --- Вопросы можно задавать заранее тут в комментах, либо во время стрима. Можно адресовать конкретно кому-то из спикеров, например, «Вопрос Борису: доколе?» Время: 20 сентября, Пятница, 17:30-18:30 CET. Streamyard – ссылка для просмотра (там же по ссылке можно добавить в календарь). Записи не будет, все вживую. Мест – максимум 1000 😀 #interviews @ai_newz

عرض المزيد ...

15 061

184

эйай ньюз ١٦ سبتمبر, ١٧:٥٠

54.0k18.9k48.82%

تم النّسخ!

Если вам когда-либо было интересно, как получить мегакластер GPU, то вот вам подробный гайд от Ларри Эллисона, фаундера того самого Оракла. Челу 80, кстати, похоже, он всё-таки нашёл эликсир вечной молодости. Ну так вот, записываем: 1) Приходим на ужин к Дженсену Хуангу. 2) Вместе с Маском умоляем Кожанку взять ваши миллиарды. 3) Поздравляю, если вам повезёт, то партию свеженьких GPU не задержат. Теперь повторяем😂 Кроме шуток, Oracle – одна из немногих компаний, которая смогла заполучить контракт на более чем 100.000 видеокарт NVIDIA Blackwell (это GB200, например). Они уже строят огромный кластер, который заработает в первой половине 2025. А сбоку еще планируют пристроить 3 маленьких атомных реактора на ~1000 MW, чтобы все это дело запитывать электроэнергией. Короче, если GPU - это новая нефть, то AI – это новый автомобиль. @ai_newz

عرض المزيد ...

file

15 612

339

эйай ньюз ١٥ سبتمبر, ١٩:٤٤

54.0k18.9k48.82%

تم النّسخ!

Нейродайджест за неделю (#35) LLM, гонки и клубника - Гонка инференса Грок обогнал Cerebras, выдав >500 токенов/сек на Llama 70B. - SambaNova. Еще один лидер, о котором раньше никто не слышал. Теперь у ребят самая быстрая лама 405B. - Pixtral - 12B. Мультимодалка от Mistral теперь понимает картинки. - OpenAI o1 или та самая Strawberry. Скейлить инференс комьют через CoT — похоже, всё, что нам осталось. Прайсинг, конечно, жестокий. Генерация видео - Runway зарелизила модель для генерации video2video. Смотрим примеры, и почему оно работает лучше чем text2video. Гайды - Визуализация LLM. Все мы визуаллернеры, так что представлять в голове какую-то конкретную картинку очень полезно. - WebGPU puzzles. Оригинальный GPU Puzzles, но прямо в браузере. Кайфы, всё быстро и просто, идем ботать! Всякое - Разоблачаем AI-хапожоров или почему нужно читать проверенные источники. - Преза Apple. "Главное" нововведение — это то, что в названии после 1 теперь не 5, а 6. Интерактивчик! - Стрим про карьеру и учебу. Поговорили про поступление в ЕС, PhD программу в Meta и еще кучу ништяков, кто не успел — тот опоздал. Жмякайте unmute :) > Читать дайджест #34 #дайджест @ai_newz

عرض المزيد ...

15 187

эйай ньюз ١٥ سبتمبر, ١٦:٣٨

54.0k18.9k48.82%

تم النّسخ!

Ещё примеры video2video. Мой любимый 5-й: там чуваки вырезали из картона болванки и неплохо так их оживили + за смекалку. Все же реактировать готовое видео – это гораздо более простая задача, чем генерить его по текстовому описанию с нуля. Когда на вход дают видео, то тут уже готовый реалистичный моушен и глобальная геометрия. Нужно только частично поменять, как оно рендерится, либо отредактировать только лишь какую-то часть видео. Думаю, что такие модели гораздо раньше найдут реальное применение в киноиндустрии чем text2video. @ai_newz

عرض المزيد ...

SnapTwitter_wQcJyVz2dhPAkKBS.mp4.mp4

SnapTwitter_YE1c_5_P46dFQwFG.mp4.mp4

SnapTwitter_tU39aeQ8GgWEDOB0.mp4.mp4

SnapTwitter_nacY633h2CkIbT3w.mp4.mp4

SnapTwitter_lEa3O4QXNCbTADRY.mp4.mp4

SnapTwitter_bdSueoJ3qYqQ7Uzu.mp4.mp4

SnapTwitter_rBQlu_bcYFBsAjq4.mp4.mp4

SnapTwitter_TO4wX4nnvSJK0y71.mp4.mp4

SnapTwitter_gV0PruAp6CKBJEhn.mp4.mp4

SnapTwitter_tU39aeQ8GgWEDOB0.mp4.mp4

16 091

345

эйай ньюз ١٥ سبتمبر, ١٦:٣٤

54.0k18.9k48.82%

تم النّسخ!

Смотрите что делают с фортнайтом в новом video to video режиме Runway GEN-3. На обычных десктопах в риалтайме это вряд-ли будет работать в ближайший год-два, но когда доускоряем... В геймдеве станет очень жарко, особенно когда такое будет доступно на консолях. В посте нже накидал еще, там есть пример того, как это реально можно применять в дешёвом продакшене. Соскрапил с твиттера, конечно же : ) @ai_newz

fortnite.mp4

16 169

461

эйай ньюз ١٤ سبتمبر, ١٣:٥٤

54.0k18.9k48.82%

تم النّسخ!

WebGPU puzzles Если всегда было интересно, как работать с GPU, но вы не знали с чего начать, то принёс вам занятие на субботний вечер - WebGPU Puzzles. Это небольшой курс задачек, вдохновлённый оригинальными GPU Puzzles, но работает прямо в браузере! Несмотря на браузер, скорость молниеносная - всё компилится и запускается за долю секунды после каждого нажатия клавиши. Из минусов - пока поддерживается только Chrome. Возможным это стало из-за gpu.cpp - библиотеки поверх WebGPU, упрощающей работу с компьютом. Answer AI с момента основания только и занимается тем, что создаёт такие мелочи, упрощающие жизнь. Они первыми заставили QLora работать с FSDP, а недавно выпустили FastHTML - фреймворк для создания небольших веб-приложений на чистом Python, хорошая альтернатива Gradio. https://gpupuzzles.answer.ai/ @ai_newz

عرض المزيد ...

16 552

683

эйай ньюз ١٣ سبتمبر, ١٤:٤٢

54.0k18.9k48.82%

تم النّسخ!

Наткнулся в Твиттере на шикарную визуализацию LLM. Как выяснилось, ей уже целый год, но для новичков это все ещё полезная штука. Кроме красивой 3D-модельки, здесь еще подробный гайд по работе каждого элемента, как говорит автор, до каждого "сложить и умножить". По архитектурам там есть GPT-2, nanoGPT, GPT-2 XL, ну и GPT-3. Ссылочка на визуализацию @ai_newz

file

23 351

2 228

эйай ньюз ١٣ سبتمبر, ١٢:٤٢

54.0k18.9k48.82%

تم النّسخ!

Не пропустите одно из самых масштабных событий этой осени в области искусственного интеллекта Со 2 по 4 октября в Иннополисе пройдет форум DID x AI IN 2024, где топовые спикеры страны обсудят кейсы внедрения ИИ в производство. Самые горячие темы по искусственному интеллекту: 🔹 ИИ в промышленности: нефтегаз, фармацевтика, химия, медицина, строительство 🔹 Внедрение Data Driven подхода в управление предприятием, монетизация ИИ-решений, оценка их эффективности 🔹 Генерирование и дополнение программного кода, цифровые двойники, дизайн лекарственных молекул и многое другое А еще Андрей Себрант, директор по стратегическому маркетингу «Яндекса» проведет визионерскую лекцию про генеративный, интерактивный и мультимодальный ИИ и расспросит топов ИТ-отрасли о факапах работы с технологией. ➡️Узнать больше о программе форума и зарегистрироваться. #промо

عرض المزيد ...

~١٥ سبتمبر, ١٢:٤١

11 889

эйай ньюз ١٢ سبتمبر, ١٧:٢٥

54.0k18.9k48.82%

تم النّسخ!

А вот и прайсинг API новых моделек, понятно почему не выпускали это практически год - ждали пока упадёт цена инференса. Цены на такое с использованием оригинальной GPT-4 или даже GPT-4 Turbo были бы астрономические. @ai_newz

18 301

160

эйай ньюз ١٢ سبتمبر, ١٧:١٤

54.0k18.9k48.82%

تم النّسخ!

o1 - новая моделька от OpenAI, та самая 🍓 Основной прорыв - научили модель скейлить инференс компьют через CoT, чем больше компьюта - тем лучше результаты. Инференс выходит дорогущим, но результаты сильно лучше. Доступ дают всем подписчикам ChatGPT и девам 5 тира (те кто потратили больше $1k на API). Подписчикам будут давать по 30 сообщений с o1 и 50 сообщений с o1-mini в неделю. https://openai.com/index/learning-to-reason-with-llms/ @ai_newz

19 199

346

эйай ньюз ١٢ سبتمبر, ١٤:٠٢

54.0k18.9k48.82%

تم النّسخ!

3 минуты, сейчас настрою камеру и начнем.

16 819

эйай ньюз ١٢ سبتمبر, ١٣:٥٦

54.0k18.9k48.82%

تم النّسخ!

Начинаем стрим через 3 минуты! Подключайтесь! Вопросы можно писать под этим постом.

16 894

эйай ньюз ١٢ سبتمبر, ١٠:٣٩

54.0k18.9k48.82%

تم النّسخ!

В гонке быстрого инференса новый участник SambaNova запустили Llama 3.1: 405B на подтверждённой скорости в 132 токена в секунду, 70B - на скорости 461 токен в секунду и 8B - на скорости 1066 токенов в секунду. Это всё в bf16, без квантизации. На лидерборде Artificial Analysis у SambaNova точность 405B выше всех других провайдеров, но с моделями поменьше не всё так радужно. Я потестил их инференс, скорость и правда очень высокая - у меня 405B выдавала от 110 до 124 токенов в секунду, что очень близко к заявленным числам. 8B доходила до 1100 токенов в секунду, а вот 70B, хоть и выдавала до 466 в секунду на пике (в твиттере стартап вообще заявлял скорость до 570 в секунду), но у части запросов скорость была аж в два раза меньше. Цена 405B - $5/mt на вход и $10/mt на выход. Есть на рынке провайдеры и подешевле, но они все запускают модель с уменьшенной точностью. API уже доступно разработчикам для теста. Бесплатно, но с очень низкими лимитами. Возможность платить за API добавят позже. Попробовать можно тут Предыдущий пост из серии про быстрый инференс: тык. @ai_newz

عرض المزيد ...

19 735

117

эйай ньюз ١١ سبتمبر, ١٥:٢٢

54.0k18.9k48.82%

تم النّسخ!

После предыдущего стрима про карьеру и учебу в AI мне в личку написало очень много людей со своими вопросами. Так как в личке всем развернуто ответить сложно, я решил провести еще один стрим на тему учебы в Европе и того, что нужно для роли AI Scientist / AI Engineer в FAANG. 📌 Стрим будет завтра (12 сентября) с 16:00 до 17:00 CET. На этот раз я пригласил на стрим еще двух ребят (Настю и Никиту). Мы с ними обсудим учебу в Германии, Франции и Великобритании и наш опыт из первых рук. Настя училась на бакалавриате и в магистратуре в Karlsruhe Institute of Technology (KIT) в Германии. Никита учился в магистратуре École Polytechnique во Франции, и на PhD в Лондоне на совместной программе между Meta и Oxford University. Ну, а про меня вы знаете. Темы стрима: - Поговорим про различные роли в AI: Research Scientist, Research Engineer, ML Engineer, Data Scientist. Чем они отличаются, и что для них нужно знать и уметь. - Про PhD, магистратуру и бакалавриат в разных странах Европы и чем они отличаются. - Про PhD программу внутри Meta в Лондоне и Париже, и как туда попасть студенту. - Про собеседования и поиск работы в AI. Как всегда, пишите в комментах свои вопросы, в конце стрима я отвечу на самые интересные. Сохраняйте дату себе в календарь: инвайт. Увидимся завтра! @ai_newz

عرض المزيد ...

17 044

179

эйай ньюз ١١ سبتمبر, ١٣:٢١

54.0k18.9k48.82%

تم النّسخ!

Учитесь в универе и давно хотите попробовать свои силы в решении реальных кейсов по машинному обучению и нейросетям? Международные олимпиады — отличный способ проверить свои знания и выйти на новый уровень! Одна из таких олимпиад — AIDAO от Яндекса и НИУ ВШЭ. Участникам предстоит решать IT-задачи в команде из 2-3 человек, а победители получат денежные призы до 600 тысяч рублей! Выполнять задания олимпиады нужно на английском, но разрешено пользоваться переводчиком. Если у вас нет команды, то вам помогут её найти во время регистрации. Чтобы принять участие, надо: - быть студентом бакалавриата или магистратуры в российском или зарубежном вузе; - разбираться в ML, алгоритмах и работе с данными; - подать заявку на сайте до 5 октября. Не упустите шанс применить свои навыки на практике и посоревноваться со студентами со всего мира! #промо

عرض المزيد ...

16 922

эйай ньюз ١١ سبتمبر, ٠٧:٢٨

54.0k18.9k48.82%

تم النّسخ!

Pixtral - 12B мультимодальная модель от Mistral Моделька понимает картинки, пока есть только веса, никаких результатов бенчей или тестов нет. Скорее всего, она основана на NeMo - параметры конфига совпадают. Вот только ещё добавили энкодер для картинок на 24 слоя. Что модель делает вообще? Эта модель для того чтобы чатиться с картинками и задавать по ним вопросы. Обычный мистраль умеет только текст понимать. Конфиг:

{
  "dim": 5120,
  "n_layers": 40,
  "head_dim": 128,
  "hidden_dim": 14336,
  "n_heads": 32,
  "n_kv_heads": 8,
  "rope_theta": 1000000000.0,
  "norm_eps": 1e-05,
  "vocab_size": 131072,
  "vision_encoder": {
    "hidden_size": 1024,
    "num_channels": 3,
    "image_size": 1024,
    "patch_size": 16,
    "rope_theta": 10000.0,
    "intermediate_size": 4096,
    "num_hidden_layers": 24,
    "num_attention_heads": 16,
    "image_token_id": 10
  }
}

magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910&tr=udp%3A%2F%http://2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%http://2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%http://2Ftracker.ipv6tracker.org%3A80%2Fannounce

Веса на HF @ai_newz

عرض المزيد ...

16 964

202

эйай ньюз ١٠ سبتمبر, ١١:٥٧

54.0k18.9k48.82%

تم النّسخ!

Гонка инференса продолжается - Groq вырывается вперёд! Ускоренный инференс Llama 3.1 70B выдаёт более полутысячи токенов в секунду и скоро будет доступен всем пользователям. Правда, похоже с 8B моделью не получилось обогнать Cerebras - у них вся модель в один чип влезает, конкурировать сложно. Кстати, CS-3 от Cerebras производят на 5нм техпроцессе, а вот чипы Groq произведены по 14нм техпроцессу 14LPP - ему в этом году стукнет 8 лет. Второе поколение чипов будет уже на 4нм и выпустится до конца следующего года. Важный момент, который многие упускают - на картинке указана пропускная способность на одного пользователя, не общая пропускная способность системы. Одна H200 может выдать с Llama 2 70B более 4к токенов в секунду, но только при больших батчах, на одного пользователя там скорость сильно меньше сотни токенов в секунду. @ai_newz

عرض المزيد ...

19 635

100

эйай ньюз ٠٩ سبتمبر, ١٧:٠٦

54.0k18.9k48.82%

تم النّسخ!

Началась презентация Apple, го смотреть Будут показывать айфоны, часы и новые ИИ фичи к ним. Кучу всего уже показали на WWDC, но на эту презентацию явно что-то приберегли. ➖ Показали A18 - новый SOC на трёх нанометрах. Neural Engine вплоть до двух раз быстре, добавили 17% пропускной способности памяти. GPU быстрее A16 на 40%. ➖ Apple Intelligence будет досутпен в следующем месяце. Пока только на английском, другие языки будут в следующем году. https://www.youtube.com/watch?v=uarNiSl_uh4 Пост будет обновляться по ходу презентации @ai_newz

عرض المزيد ...

19 835

эйай ньюз ٠٩ سبتمبر, ٠٧:٣٨

54.0k18.9k48.82%

تم النّسخ!

Ещё одно подтверждение, почему не стоит читать помойки от ноунеймов. В интернете много мусора и хайпующих персон без понимания. Читайте людей у кого есть научные статьи в AI или тех, у кого есть проверенный солидный опыт. А лучше тех, у кого есть и то и то, типа как у вашего покорного слуги, автора этого канала. 🙂 @ai_newz

19 799

эйай ньюз ٠٩ سبتمبر, ٠٧:٣٠

54.0k18.9k48.82%

تم النّسخ!

Давно порываюсь вам написать про ТГ-сетки которые про ML-пишут и что им не стоит верить, вот пример ⬆︎ Что на самом деле происходит с этой новой моделью

Reflection-70B

: 1. Пару дней твиттерский показал свою новую языковую 70B-модель которая с рекордами прошла все бенчмарки (по его утверждению это был файнтюн Llama 3.1 70b ) и что такая же 400b будет вот-вот 2. Модель начала вируситься, ее начали качать и оказалось, что она толком не работает потому что там внутри немного битый конфиг ее запуска (это если простыми словами) 3. Автор перезалил модель, сказал что все починил и все работает — но теперь оказалось что нужно использовать только специальный системный промпт чтобы она работала 4. Сообщество начало тестировать, разобрало модель по кусочкам и оказалось, что это файнтюн Llama 70b 3.0, а не 3.1. И причем не файнтюн модели целиком, а просто Lora-адаптер вмерженного в модель (тренируют кусочек модели который замещает часть модели) 5. Автор сказал, я вообще не помню что я там использовал — толи 3.0 толи 3.1, что такое Lora я не знаю, это не важно все — мы тут сейчас все заново поставим тренироваться, уже поставили точнее (зачем перетренивать модель которая по метрикам побила все бенчмарки пару дней назад мы не узнаем) 6. Параллельно с этим, появилась веб-версия этой модели о которой пишет Бекдор — и ее API дали сегодня протестировать сторонней организации, она неплохо справилась и подтвердила что результаты высокие (но модель доступна только по API) 7. Пару часов назад автор публикует новую версию модели Reflection 70b e3 и сразу пишет, что с ней что-то не так: «Веса залились, но мы все еще проверяем, чтобы убедиться, что они правильные, прежде чем мы собираемся закончить день» – зачем заливать модель до тестов? Ответа нет 8. Люди тестирующие веб версию Reflection 70b, обратили внимание, что она очень похожа на Sonnet 3.5 — буквально токен в токен отдает ответы такие же ответы

<играет цирковая музыка, вы находитесь здесь>

Буду держать вас в курсе нашей высокотехнологичной драмы – возможно, чел правда что-то натренил, но пока мы не знаем что. Ну и для нейронок лучше читать проверенные ML-каналы, сейчас такое время, что все экспертами в АИ стали (я даже не про свой, я их часто сюда репощу)

عرض المزيد ...

13 621

102

эйай ньюз ٠٨ سبتمبر, ١٦:٢٠

54.0k18.9k48.82%

تم النّسخ!

Нейродайджест за неделю (#34) GPU - Colossus XAI. Мегачад Маск уже запустил свой крупнейший кластер GPU для тренировки. - GPU кластер на 10 гигаватт. Да сразу два! Это в 50 раз больше Colossus'а от Маска. Агенты/роботы - DEEP Robotics. Зашуганные робопёсики кидаются в сторону от вида людей. - Код для AI игр. Проект Starlightlabs закрыли и выложили все наработки в open source. Пользуем! - Цивилизация машин в Майнкрафте. AI агенты построили свой новый дивный мир. LLM - DeepSeek V2.5. Детище DeepSeek V2 и DeepSeek Coder V2 даёт результаты. - Коротко о flash attention. Ну а в чём я неправ? Личные истории - Красавчик на собеседовании. Люблю, когда приходят подготовленными. Прочее - Калифорнийские регуляторы наступают. Законопроект прошёл ассамблею. Конечно, есть правки в правильном направлении, но это всё ещё жесть. - Золотой Суцкевер. МУЖЧИНА таки привлёк свой миллиард на бесприбыльный стартап. - Хата айтишника из FAANG. У кого так же? - Топ самых влиятельных людей в AI от Times. Саааамый авторитетный и саааамый неподкупный. > Читать дайджест #33 #дайджест @ai_newz

عرض المزيد ...

16 960

эйай ньюз ٠٨ سبتمبر, ١٠:٢٢

54.0k18.9k48.82%

تم النّسخ!

Что будет, если дать 1000 ботам сознание и запустить их в Minecraft? Они построят цивилизацию... Только недавно писал про агента, который научился крафтить каменную кирку и кучу всего другого. И вот теперь пожалуйста, они, как муравьи, собрались и построили свой лучший мир без кожаных ублюдков. Эксперимент был проведён небольшой группой Project Sid. Они не просто научили агентов выполнять команды, но и действовать по своей воле. Ребята прикрутили агентам понятия о социальном мире. Они способны понимать своё место в этом мире и роль окружающих. Например, они знают, что агент Б — полицейский, его нужно слушаться, а вот агента В, Васяна из соседнего дома можно послать нахрен. Эти роли могут динамически обновляться в зависимости от ситуации. Более того, они научили квадратных мечтать (см. видос). Там один из агентов-фермеров, услышав о странствиях одного путешественника (разработчики поощряют смолтоки ни о чём), захотел отправиться в путешествие, но потом оставил эту идею "на потом", узнав, что без него деревня голодает. Но самого интересного – технических подробностей нет и, кажется, не предвидится. Жаль, т.к. очень любопытно, что за LLM они гоняли и сколько им это стоило. Еще у ботов был Google-документ с конституцией, и они голосовали за правки, лол. Говорят, боты универсальные, умеют пользоваться Google-доками и их можно адаптировать под другие игры. Короче, ребята подготовили достойную высокоморальную замену человечеству (мы то без системы сдержек и противовесов ни о чем договориться не можем). В ролик вставили небольшую полит агитацию Камалы против Трампа, но просто игнорьте это. И вишенка на торте! С агентами уже может поиграть каждый! Для этого создаём мир в Майнкрафте, открываем для подключения, копируем код порта и вставляем на сайте. Там же можно создать своего кастомного подручного. С ботом можно поболтать или дать ему какие-нибудь задания. За отдельный кэш можно запустить свою симуляцию, но это в личном порядке. Тред Дискорд Реддит Блог-пост Сайт с плейтестом @ai_newz

عرض المزيد ...

file

53 192

2 125

эйай ньюз ٠٧ سبتمبر, ١٠:١٠

54.0k18.9k48.82%

تم النّسخ!

Наш слоняра, Три Дао. @ai_newz

20 244

171

эйай ньюз ٠٦ سبتمبر, ١٦:٥١

54.0k18.9k48.82%

تم النّسخ!

DeepSeek V2.5 Обновлённая модель, результат мержа DeepSeek V2 и DeekSeek Coder V2, сочетающая позитивные стороны обеих моделей. В большинстве бенчей лучше чем оба своих предшественника, но в паре есть деградация. Советуют подкрутить температуру и промпт, если есть какие-то странности. Всё по той же крайне низкой цене - 14 центов за миллион токенов на вход и 28 центов на выход. А ещё есть Context Caching, который в 10 раз срезает стоимость инпута и бесплатно хранится сутки. Если не хочется использовать API, то веса модели уже доступны. Из-за нестандартной архитектуры, с инференсом были проблемы, но последняя версия SGLang их исправила - перформанс вырос в 7 раз. Huggingface @ai_newz

عرض المزيد ...

21 565

149

эйай ньюз ٠٦ سبتمبر, ٠٨:٣٦

54.0k18.9k48.82%

تم النّسخ!

TIMES опубликовали список самых важных людей в ИИ. Вайбы от списка хорошо выражаются картинкой. @ai_newz

22 290

182

эйай ньюз ٠٥ سبتمبر, ١٥:٣٢

54.0k18.9k48.82%

تم النّسخ!

Только что собеседовал чела по кодингу на SWE позицию в инфру. Таких сильных парней попадается меньше чем 1/10. Язык программирования для решения двух кодинг задачек он выбрал Java. Это тот случай, когда, я как интервьюер, получаю удовольствие от общения с кандидатом. Чел на зубок тебе рассказывает, какая сложность итерации по map в Java, и как контейнер реализован на уровне примитивов, как происходит разбивка на бакеты, какого размера бакеты, как и с какой сложностью происходит поиск внутри бакета, если есть коллизии, что если бакеты маленького размера, что если большого, и т.д. То есть, даже не начав кодить, кандидат дал мне понять, что он очень хорошо сечет в том, что делает, внимателен к деталям, и что ему эти вещи интересны. После такого интро, даже небольшие помарки в коде (типа поставил <= вместо <) уже не имеют значения. В итоге две задачи решены сильно раньше времени (то есть и код он писал быстро) и без багов, и мысли излагал структурированно. В конце интервью и у меня хорошее настроение, и у кандидата (т.к. я сказал, что он красавец, справился сильно раньше времени). Ну, это 100% зачет! #interviews #personal @ai_newz

عرض المزيد ...

24 710

191

эйай ньюз ٠٥ سبتمبر, ١٠:٢٦

54.0k18.9k48.82%

تم النّسخ!

Жиза. Ну а что ещё надо? Пишите в комментах, кому откликается. @ai_newz

23 745

332

эйай ньюз ٠٤ سبتمبر, ١٥:٢٠

54.0k18.9k48.82%

تم النّسخ!

SSI Ильи Суцкевера привлёк $1 млрд 🙀 С момента основания Ильей Safe Superintelligence Inc. не прошло и трёх месяцев, у неё всего 10 сотрудников, а оценка у неё уже 5 миллиардов. И топовые инвесторы, вроде a16z и Sequoia, не ожидают скорой прибыли — ведь первым продуктом компании будет сверхинтеллект. Топлю за Илью, он реально крут! @ai_newz

25 187

392

эйай ньюз ٠٤ سبتمبر, ١٠:٠٢

54.0k18.9k48.82%

تم النّسخ!

Уходим красиво💨 заливаем код в опенсорс DeveloperHarris, довольно известный в узких кругах разработчик интересных инди-игрушек вокруг концепта использования ИИ для НПС и сторителлинга, закрыл свою "геймстудию" starlightlabsco. Но как же стильно он ушел: Чел слил в опенсорс весь код своих проектов, так что теперь каждый может дать его детищу второй шанс или поучиться на его примере. Внутри: - Starlight: игрушка про деревню, в которой каждый житель имеет свою историю, свою жизнь и мозг. С НПС можно поболтать и простенько повзаимодействовать (собрать урожай вместе). - Discord Dungeons & Dragons: когда-то писал про бота, который создает ролевую историю. Так вот, это то же самое, но для компании. LLM будет вашим персональным Данжен Мастером. - Bonfire: LLM-рассказчик, который генерирует визуал. - Прототип карточной игры, которая позволяет на лету создавать свою колоду. - StarlightLabsDemo: болтай с 3D-аватарами голосом. Здесь стоит оговориться, что проекты еще крайне сырые, но, возможно, кто-то из вас соберется да запустит что-то из этого у себя, а может, даже продолжит работу над этим или другим подобным проектом, коих скоро будет огромное количество. За интерактивным и уникальным геймплеем для каждого игрока — будущее! Гитхаб Твит, там еще прикольные размышления о том, как сделать игры интереснее и почему он решил закрыть проект. Надеюсь, он не пожалел о содеянном, респект. @ai_newz

عرض المزيد ...

ssstwitter.com_1725386464115.mp4

24 129

745

эйай ньюз ٠٤ سبتمبر, ٠٨:٠٢

54.0k18.9k48.82%

تم النّسخ!

Разбираешься в AI? Покажи, на что способен – прими участие в международном соревновании AI Journey Contest. Призовой фонд – более 8 миллионов рублей! Задачи, как всегда, масштабные и амбициозные. Участникам предстоит работать с SOTA-технологиями, выбрав одну или несколько из предложенных задач: ✔ Emotional FusionBrain 4.0 — создать мультимодальную модель, которая умеет круто понимать видео, отвечает на сложные вопросы и «чувствует» человеческие эмоции. ✔ Multiagent AI — разработать мультиагентную RL-систему, где агенты будут объединяться в различные схемы кооперации при решении задач. Эта задача суперполезна для научных исследований. #промо

عرض المزيد ...

~٠٦ سبتمبر, ٠٨:٠٢

12 827

эйай ньюз ٠٣ سبتمبر, ١٦:٢٩

54.0k18.9k48.82%

تم النّسخ!

Минимум две компании собираются строить датацентры стоимостью более чем в $125 млрд Комиссар по торговле Северной Дакоты заявил, что правительство штата проводит переговоры о постройке гигантских кластеров в штате - потребление каждого может доходить до 10 гигаватт. Это беспрецедентные масштабы - запущенный вчера Colossus, самый большой кластер в мире, потребляет менее 200 мегаватт, то есть разница более чем в 50 раз. По словам комиссара, речь идёт о двух компаниях с капитализацией более триллиона. Компаний с такой капитализацией немного: Nvidia, Amazon, Google, Apple, Meta и Microsoft. Apple и Nvidia не столь активны в постройке датацентров, так что это, скорее всего, не они. А вот слухи о Stargate, гигантском датацентре Microsoft, ходят уже полгода. Северную Дакоту, вероятно, рассматривают потому, что это один из немногих штатов с избытком электроэнергии. Обусловлено это огромными запасами нефти - штат добывает 1,3 миллиона баррелей в день - столько же, сколько добывает, например, Катар. А ведь побочный продукт сланцевой нефти - природный газ, который какое-то время настолько некуда было деть, что его просто сжигали, было видно из космоса. Использовать оба датацентра точно планируют для ИИ - другие юзкейсы представить сложно. Для контекста: Azure, второе по популярности облако в мире, в сумме потребляло 5 гигаватт на конец предыдущего года. Для того чтобы такие затраты были оправданы, выручка от AI должна вырасти ещё во много раз. Сейчас пока работают на опережение - вбухивают бабло в AI, чтобы не отстать от конкурентов и застолбить лидерскую позицию. А монетизация и прибыль придут чуть позже. @ai_newz

عرض المزيد ...

20 473

256

эйай ньюз ٠٣ سبتمبر, ٠٩:٥٥

54.0k18.9k48.82%

تم النّسخ!

👮Калифорнийский законопроект о регуляции ИИ прошёл ассамблею TLDR: SB 1047 фактически запрещает публикацию передовых моделей в опенсорс. Несмотря на сильную оппозицию (см скрин) со стороны индустрии и не только, закон удалось провести сквозь ассамблею. На него ещё может наложить вето губернатор. Последний раз я писал о законе ещё в июле, с тех пор туда внесли ряд правок. Вот основные изменения в законопроекте с прошлого поста: ➖ Подпадают под закон модели, которые стоили бы более $100 млн по "средним ценам облачного компьюта". Файнтюны же таких моделей, на которые потрачено более $10 млн, считаются новыми моделями. До 1 января ограничение также даётся в флопсах - 1e26 и 3e25. ➖ Обновлять определение подпадающих под закон моделей теперь будет "Board of Frontier Models" (совет по делам фронтирных моделей). Пять из девяти мест в борде будут занимать: представитель опенсорс сообщества, представитель индустрии, эксперт по кибербезопасности, эксперт по оружию массового поражения и эксперт в ИИ. Их назначает губернатор, подтверждает назначение сенат. Ещё два места, которые назначает спикер ассамблеи – это академики, специализирующиеся в AI. Оставшиеся два места назначает комитет по правилам сената, требований к компетентности членов тут нет. Главная проблема закона, напоминаю – это ответственность разработчиков модели за "критический вред", который нанесла не только сама модель, но и её файнтюны "дешевле $10 млн". По факту это запрещает публикацию в опенсорс моделей, подпадающих под закон. Даже если сама модель безобидная, доказать, что все возможные файнтюны в пределах ограничений по компьюту, будут тоже безобидными - невозможно. Вторая большая проблема - определение денежной стоимости тренировки модели "средней ценой по рынку". Разброс в стоимости H100 в час на рынке сейчас более 4x (AWS - $12.25/hr, Lambda - $3/hr), так что со средним значением под закон будут подпадать модели в разы дешевле чем лимит на бумаге. Сейчас закон отправился на рассмотрение к губернатору, у которого месяц на то, чтобы либо подписать закон либо наложить на него вето. Если он его подпишет - регуляции вступят в силу уже в 2026 году. Кажется, если закон примут, то это может прибить AI стартапы в Силиконовой Долине – они будут делать ноги в другие штаты, где и налоги пониже и регуляции помягче. При условии, конечно, что не примут похожую регуляцию на федеральном уровне. @ai_newz

عرض المزيد ...

20 709

242

эйай ньюз ٠٢ سبتمبر, ٢١:٤٦

54.0k18.9k48.82%

تم النّسخ!

RunwayML тизерят новую модельку, анонс завтра в 17:00 CET В тизере ничего особо интересного не показали, кроме шикарных картинок, но думаю, релиз будет любопытный. Теперь ждем презентации свежих видеомоделей, как новенький айфон.😋 @ai_newz

runway.mp4

23 852

164

эйай ньюз ٠٢ سبتمبر, ١٨:٣٥

54.0k18.9k48.82%

تم النّسخ!

Маск продолжает удивлять - XAI уже запустили Colossus, крупнейший в мире кластер для тренировки. Более того, в течении пары месяцев его мощности удвоят - добавят по 50k H100 и H200. @ai_newz

19 710

171

эйай ньюз ٠٢ سبتمبر, ١٣:١٠

54.0k18.9k48.82%

تم النّسخ!

Совсем уже зашугали роботов в Китае. Боятся всего и всех, отскакивая в ужасе. Как бы нам обраточка не пришла через пару лет. А если серьезно, то это робопёсик X30 от китайской компании DEEP Robotics. И они научили его избегать контакта с людьми и другими объектами ради безопасности, конечно. Цена такого четвероногого друга начинается от $65000. И это не мало. У Boston Dynamics робопес стоил $75к, когда они их ещё продавали (сейчас, кажется, продажи делают только по индивидуальным договоренностям). @ai_newz

عرض المزيد ...

09022.mp4

21 450

133

эйай ньюз ٠١ سبتمبر, ١٦:٠٤

54.0k18.9k48.82%

تم النّسخ!

Нейродайджест за неделю (#33) LLM - Арена для русскоязычных LLM. Попробуйте предсказать результаты. - Cerebras бьёт рекорд по токенам/сек. Собственно, произведённые чипы специально для нейронов дают сверхзвуковые скорости. - Claude в Alexa. Вот и «мозги» для колоночки подъехали, но поможет ли это спасти проект? - Как LLM хранит факты. Самый понятный гайд по многослойному персептрону. Роботы - Комплект для самостоятельной сборки. Инструкция прилагается и стоит не так уж дорого. - NEO Beta от 1x. Скайнет всё ближе, ботов уже не отличить от людей в костюме. Другое - Маск за регуляции или он уже нашёл лазейку? - VGGHeads. Восстанавливаем 3D-шейпы голов в неограниченном количестве с новым датасетом в 1М картинок. Всё ради фильтров в инсту. - MLPerf. Олимпиада чипов для нейросеток. Вот как понять, кто реально быстрее. - Minimax video-01. Ещё один китайский игрок на рынке видеомоделей. Очень достойный перформанс. > Читать дайджест #32 #дайджест @ai_newz

عرض المزيد ...

20 161

эйай ньюз ٠١ سبتمبر, ١٠:١٧

54.0k18.9k48.82%

تم النّسخ!

Тесты video-01 от твитерских: @ai_newz

file

16 567

эйай ньюз ٠١ سبتمبر, ١٠:١١

54.0k18.9k48.82%

تم النّسخ!

Подъехала новая text2video халява от китайцев – Minimax Еще до выхода всяких Лум, Alibaba периодически скидывала статьи по видео генерации. И вот как всегда с задержкой посылки, знакомые нам под именем AliExpress показали свою видео модельку video-01 Minimax. Еще в инвесторах, конечно же, Tencent — они, кажется, имеют долю вообще во всех китайских ИИ-стартапах. Трудолюбивые продолжают пытаться скопировать SORA и занять рынок до того, как OpenAI релизнет свою модель. Релиз мощный, еще никто не делал фильм, лол. Помимо черрипика выше, есть еще твитерские примеры, и складывается ощущение, что эта моделька наиболее продвинутая в плане мувмента — чекните руки в первом видосе в коментах. Максимальная длина генерации видо – 6 сек. Кроме этого у них есть полный набор продуктов - генерация изображений, музыки, копирование голоса, свои LLM, клон Perplexity. Всё ориентировано на китайский рынок, поэтому компания не особо заметна за пределами Китая. За 250 миллионов долларов, которые поднял стартап, это очень достойные результаты. Пробуем годноту здесь, если есть китайский номер: hailuoai.com Официально работает только с ПК, но можно и в десктоп-режиме на мобилках. @ai_newz

عرض المزيد ...

0901__85pct_smaller.mp4

19 349

294

эйай ньюз ٣١ أغسطس, ١٧:٣٤

54.0k18.9k48.82%

تم النّسخ!

Как LLM хранят факты? Принес вам на вечер субботы отличный ролик от 3blue1brown. На этот раз гений интуитивного обучения расскажет про то, как LLM запоминает факты. Это видео для полных новичков, объясняющее роль многоуровневого перцептрона (MLP/FFN) в LLM. Это третье и последний эпизод в серии о работе LLM. D первых двух объяснялось как работают эмбеддинги и как работает механизм внимания. Эта серия - лучшее объяснение для непрограммистов о том, как работают LLM, с кучей хороших визуализаций. https://www.youtube.com/watch?v=9-Jl0dxWQs8 Смотрим здесь. Клип сверху — просто отрывок. @ai_newz

عرض المزيد ...

V94KmX264mkHEbzI.mp4

21 390

1 249

эйай ньюз ٣١ أغسطس, ١٦:٣٤

54.0k18.9k48.82%

تم النّسخ!

#вакансия Редактор в сетку каналов про технологии, интернет-тренды, айти, игры Обязанности: — Поиск новостей, интересных кейсов и материалов про интернет-тренды, технологии, нейросети — Публикация 5-6 постов в день. Вы бы подошли, если: — Вы разбираетесь в технологиях, владеете разными зарубежными источниками, умеете извлекать из ленты хорошие инфоповоды — Вы умеете писать тексты, которые хорошо привлекают и удерживают внимание (охваты). Если есть успешный опыт написания контента в Телеграм — еще лучше; — Вы грамотны и внимательны, не допускаете опечаток и ошибок; — Вы ответственны и готовы всегда готовить необходимый объем посто. — Вы готовы всегда быть на связи и иногда оперативно готовить нативные посты. Условия: — Полностью дистанционная работа; — З/п по договоренности, от 100 до 400к, в зависимости от навыков и объема. Белое трудоустройство. Отправляйте рассказ о себе на этот аккаунт: @namepalmer P.s. Кандидат, с которым была переписка в прошлый раз (ты кидал тестовые задания) — отпиши в лс еще раз, потерял твой диалог. #промо

عرض المزيد ...

~٠٢ سبتمبر, ١٣:١٦

12 088

135

эйай ньюз ٣٠ أغسطس, ٢٠:١٨

54.0k18.9k48.82%

تم النّسخ!

А вот как NEO Beta ходит и помогает по кухне @ai_newz

1xdishes.mp4

1xwalking.mpv.mp4

20 139

404

эйай ньюз ٣٠ أغسطس, ١٨:٢٨

54.0k18.9k48.82%

تم النّسخ!

Новые роботы Neo Beta от 1x В движении видно что робот, но чисто по стопкадрам сложно отличить от человека в костюме. А всего три месяца назад роботы компании ещё ездили на колёсах. А тут можете похвалить (или поругать) одного из разработчиков. What a day to be alive @ai_newz

1xneobeta.mp4

20 970

378

эйай ньюз ٣٠ أغسطس, ١٧:١٧

54.0k18.9k48.82%

تم النّسخ!

Новая Alexa будет на основе Claude По сообщению Reuters, продвинутые фичи на основе новой модели будут стоить 5-10 долларов в месяц. Выглядит как ещё одна попытка получить хоть какую-то прибыль от Alexa, потери от которой с 17 по 21 годы составила 25 миллиардов (более новых данных нет, но там вряд-ли дела обстоят лучше). Увы, похоже это будет не омни-модель, вроде GPT-4o, так что задержка лучше текущих голосовых режимов не станет (то есть ~3 секунды, а не ~300 миллисекунд). Надеюсь Антропик подсуетится и даст возможность Claude работать с аудио и на вход и на выход, тогда будет разнос (но о стоимости инференса даже думать страшно). Вот и начинается интеграция Claude в продукты Amazon, раньше это было лишь API. Инвестицию в 4 миллиарда отбивать-то нужно. @ai_newz

عرض المزيد ...

17 808

эйай ньюз ٢٩ أغسطس, ١٤:٥٣

54.0k18.9k48.82%

تم النّسخ!

MLPerf Inference v4.1 - триумф Nvidia B200 MLPerf - это главное соревнование производительности железа для ИИ, где сравнивают их производительность на реальных моделях. Есть две основных категории - тренировка и инференс, сейчас закончился инференс. В этом раунде аж 4 новых ускорителя, два - от компаний участвующих впервые. Все новички участвовали лишь в одной дисциплине. Главная звезда - Nvidia со своей B200. Она в 2.5 раза быстрее новенькой H200, которую Nvidia начала продавать лишь вчера, и в 4 раза быстрее H100 - на новой видеокарте Llama 2 70B выдаёт больше 11к токенов в секунду. Впервые на MLPerf появилась AMD, с MI300x. Перформанс Llama 2 70B - 3к токенов в секунду, уровень H100, но отстаёт от 4.5к у H200. Прямой конкурент H200, MI325x (монстр с 288 гигами видеопамяти) выйдет в четвёртом квартале, то есть отставание по железу у AMD сейчас всего несколько месяцев. Но отставание в софте - совсем другая проблема. Кстати видеокарты AMD уже светились на MLPerf один раз прежде, правда геймерские. tinycorp, которая производит серверы на основе геймерских видеокарт, удалось натренировать ResNet на 6x7900XTX, используя и свой фреймворк и свои драйвера. Ещё один новичок - Untether AI, их собственный ускоритель смог добиться 60% перформанса H100 в ResNet, при эффективности в три раза выше. Достигли этого, засунув всю модельку прямо на чип, а не в видеопамять, поэтому участвовали лишь в дисциплине с очень маленькой моделькой. Как они будут запускать модели побольше – открытый вопрос. Однако, эту проблему уже удалось решить Groq - стартапу с похожей архитектурой чипа, но Llama 70B запускается у них на 576 чипах, что требует нетривиального нетворкинга. Заявился туда и Google, с новыми TPU v6. В инференсе SDXL перформанс в три раза лучше чем у v5e или примерно 70% от перформанса H100. Это младшая версия TPU v6, созданная для инференса. Разница в производительности между младшей и старшей версией предыдущего поколения - 2.3x, похожую разницу стоит ожидать и сейчас. В своих маркетинговых материалах разработчики железа манипулируют всем, что только можно, сравнивают тёплое с мягким. Поэтому сравнивать железо на общих, независимых, бенчмарках, как это происходит на MLPerf, чрезвычайно важно. Результаты @ai_newz

عرض المزيد ...

23 289

114

эйай ньюз ٢٩ أغسطس, ١١:٥٩

54.0k18.9k48.82%

تم النّسخ!

VGGHeads: Восстанавливаем 3D головы на групповых фото В догонку к недавнему посту про OccluFaceDiff, где мы со студенткой восстанавливали 3D-шейп лица по видео или аудио, даже если в какой-то момент оно закрыто, спешу поведать про VGGHeads. Ребята научились собирать меш сразу для нескольких голов по одному фото. Казалось бы, а что, фильтры в Instagram так не умеют? А вот нет! Потому что задетектить столько лиц сразу — довольно сложная задача, а здесь это ещё и делается в один шаг. Архитектура модели ню построена на базе YOLO-NAS. Не реалтайм, конечно, но очень к этому близко. Ещё из интересного то, что для тренировки использовался полностью синтетический датасет. Картинки генерили на основе референсных, используя диффузию и 2D Pose controlnet. Всего так нагенерили 1M картинок с 2M+ головами, из которых 10 000 зааннотировали вручную (правда, только вот этой красной рамкой см. картинку, но и на это ушло 56 часов). Примечательно, что человеку необязательно смотреть прямо в кадр — лицо детектится и в профиль. Выше пример с недавней сходки в Варшаве. Project page Пейпер Код Демо Датасет (скоро) @ai_newz

عرض المزيد ...

16 870

134

эйай ньюз ٢٨ أغسطس, ٠٨:٢٦

54.0k18.9k48.82%

تم النّسخ!

Сверхзвуковые LLM Llama 3 70B запустили на скорости в 450 токенов в секунду. А 8B - на бешенных 1800 токенов в секунду. Это всё без квантизации, да и цена не кусается - API стоит 10 центов за лям токенов для 8B и 60 для 70B. Предыдущий рекорд по скорости побили в более чем два раза для 8B. В будущем обещают добавить больше моделей, начиная с Llama 3.1 405B Сделал это стартап Cerebras. Он производит железо для нейронок, известен самым большим чипом в мире (в 57 раз больше по размеру H100!). Предыдущий рекорд по скорости поставил тоже стартап со своим железом - Groq. Хороший пример того что специализированные только под нейронки чипы вроде могут в разы превосходить видеокарты по скорости инференса, а ведь скоро ещё будут чипы которые заточены под конкретные модели, например Sohu. Кстати, давно хотел разобрать разные стартапы по производству железа и разницу их подходов. Интересно? Попробовать можно тут. @ai_newz

عرض المزيد ...

24 215

430

эйай ньюз ٢٧ أغسطس, ١٨:٣١

54.0k18.9k48.82%

تم النّسخ!

Никто: Илон Маск: высказывается за калифорнийский закон SB 1047 о регуляции AI, который зажмёт его собственные компании тоже. @ai_newz

19 664

эйай ньюз ٢٧ أغسطس, ١٦:٥٧

54.0k18.9k48.82%

تم النّسخ!

Тут ребята из VK совместно с ИМТО провели исследование ML-сообщества России и опросили более 300 спецов. Здесь не будет рейтингов компаний и размера ЗП, но есть выборка карьерных ожиданий и перечень критериев, необходимых для успеха на рынке. Подробнее — в карточках Кстати, мой канал вошёл в топ самых популярных тг-каналов, откуда народ черпает информация про AI и ML. #промо

~٢٨ أغسطس, ١٧:١٩

12 711

179

эйай ньюз ٢٧ أغسطس, ١٢:٤١

54.0k18.9k48.82%

تم النّسخ!

LLM Arena для русскоязычных моделей Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков! C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так: - Gpt4o - Gpt4o mini - LLaMa 3.1 405b - LLaMa 3.1 70b - Gemma 27b - LLaMa 3 70b RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке. В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org. На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные. Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения! Для новчиков - тут я писал подробнее, что такое ChatBot Arena. @ai_newz

عرض المزيد ...

Russian LLM Leaderboard - a Hugging Face Space by Vikhrmodels

Discover amazing ML apps made by the community

49 129

563

эйай ньюз ٢٦ أغسطس, ١٧:٢٥

54.0k18.9k48.82%

تم النّسخ!

Нашел мем, высмеивающий завышенные ожидания от применения нейронок 10 лет назад. Хотя мем и забавный, важно понять не только как и почему так вышло, но и отметить, что несмотря на сохранение профессии радиолога, медицина продолжает трансформироваться под влиянием AI. Главная причина таких ошибочных прогнозов — концентрация на бенчмарках без учёта полевых условий применения. Модели, превосходящие человека в анализе рентгеновских снимков на бенчмарках, часто оказываются менее эффективными на реальных клинических данных. Кроме того, бенчмарки не отражают всего спектра задач, с которыми сталкиваются радиологи. Сейчас исследователи начали применять ключевой принцип стартапов — прямое общение с пользователями, в данном случае с практикующими врачами. Это позволяет внедрять AI для решения реальных проблем, таких как поиск редких патологий, которые из-за своей нечастой встречаемости могут быть не замечены обычными врачами. Хороший пример и такого юзкейса — нейросеть, которая выявляет редкие патологии нервной системы на ранних стадиях беременности по результатам УЗИ. Идея проекта принадлежит фонду "Спина бифида", а создали нейросеть в Яндексе в сотрудничестве с врачами перинатального центра Кулакова и студентами Школы анализа данных. Несмотря на относительно небольшой процент детей с подобными патологиями, в масштабах стран речь идёт о тысячах случаев ежегодно. Раннее выявление может значительно улучшить качество жизни этих детей Архитектурно тут всё очень просто - YOLOv10 и пара DenseNet. А основная сложность – это датасет, который размечали на основе 6 тысяч УЗИ снимков (в том числе 300 с патологиями). Моделька открытая,плюс её можно затюнить искать дополнительные патологии или лучше понимать снимки какой-то отдельной модели УЗИ аппаратов. На фоне шумихи вокруг LLM часто забывается, как AI уже сейчас реально улучшает жизни, и до прихода AGI (а там еще посмотрим кто кого спасать будет). @ai_newz

عرض المزيد ...

23 783

212

эйай ньюз ٢٦ أغسطس, ١٥:٠٩

54.0k18.9k48.82%

تم النّسخ!

Внимание! Hugging Face представляет конструктор «Собери сам», в комплект входит: - Конструктор «Собери сам» — роборука с ссылками для заказа запчастей ~ $300 (опционально есть еще вторая за $250) + файлы для принтера. Гайды по: - Cборке и калибровке. - Записи собственного датасета на камеру телефона. - Тренировке нейросетей для управления рукой. Прикольная инициатива, ребята надеются помочь начинающим как только возможно в надежде привлечь больше рук в опен-сорс, что, в общем-то, шикарно! Расходники вышли дороговатыми, но это уже не $108K за домашнего робогуманоида + скоро обещают выпустить новую версию, говорят уложились в $150 за обе руки. Чел научил две роборуки складывать футболки на 100 примерах за одну ночь тренировки. Хотел бы я подарить такую штуку себе 15 лет назад. Туториал на гитхабе Тред с гайдом получше (есть и видео и ноутбуки с тренировкой нейронок) @ai_newz

عرض المزيد ...

F1_FO05MDNBXvQXe.mp4

wjs4EacMYr6_ZrhD.mp4

29 647

979

эйай ньюз ٢٥ أغسطس, ١٨:٥٣

54.0k18.9k48.82%

تم النّسخ!

Нейродайджест за неделю (#32) Генеративные модели - FLUX ControlNet смешали с Luma. Вышел прикольный морфинг. - GEN-3 vs Luma vs Kling. Какую же подписку взять? Проводим тесты и выбираем модель себе по душе. - Первый IP-Adapter для FLUX.1. Вышло сыровато, но зато первые! - MidJourney вернули триал! И окончательно переехали в веб. Теперь сайт имеет полноценный набор инструментов и можно пилить новые фишки, хотя Discord все еще жив! - Ideogram 2.0. Новая SOTA чуть ли не лучше FLUX, но закрытая и коммерческая, парни явно хотят отжать часть рынка у MidJourney. Пейперы - Скейлим диффьюжн трансформеры с помощью MoE. Креативный способ набрать больше параметров почти бесплатно. - Мои коллабы со студентами. Делюсь плодами студентки, которая продолжает мой старый проект Avatars Grow Legs, но теперь с лицами. Другое - Сходка в Варшаве. Было мега круто, спасибо всем, кто пришел и кто читает канал <3 - Подборка ML фреймворков. Разбираемся с внутрянкой на практике. Все мы любим потыкаться в чужой код и посмотреть, что выйдет. - ЛЛМ Безоса Amazon Q переписала старое репо и сэкономила 4500 лет работы и $260M в год. Может, у джунов все-таки есть шанс пройти собес под прикрытием Copilot'а? ——— Так-с, я там пропустил пару недель, так что вот пара самых горячих новостей за недели 29 и 30. Пропустили юбилей = ( - ICML - Best Paper Awards. Эти статьи точно стоит почитать на досуге. Прям интересно. - Black Forest Lab. Это же те самые авторы FLUX и спасители опенсорса, вперед мужики! - Grok 2 вырвался в топ. Теперь XAI – серьезная AI компания. Их модельку sus-column-r на арене нарекли прорывом от OpenAI. Есть о чем задуматься. - Скидки на LLM. Провайдеры мощно режут цены на свои API. Оптимизированные минимодельки, да еще и с кешем теперь почти ничего не стоят. - Болтовня Хуанга и Цукерберга. Пацаны собрались нормально поболтать за жизнь работу. Мистер кожанка даже похвалил мой Imagine Flash, приятно :) - Полный курс по LLM. Бесплатно и от топовых практиков в индустрии, если вливаться в NLP, то только так. - SAM 2: Segment Anything in Images and Videos. Кто-то там все еще не может удалить задний фон, а тут ребята сегментируют элементы не просто на картинках, а на видео. > Читать дайджест #31 #дайджест @ai_newz

عرض المزيد ...

19 334

150

эйай ньюз ٢٥ أغسطس, ١٦:٣٩

54.0k18.9k48.82%

تم النّسخ!

Пока Карпатый уже не может представить, как работать без копайлота или Cursor, Амазоновские перелопатил половину корпоративного спагетти-кода, юзая их Amazon Q*. Чуваки прикинули и пришли к выводу, что за пару недель сэкономили 4500 лет (sic!) работы человека-разработчика. Сначало не верится, но если учесть, что 80% кода они отправили напрямую в прод... хочется задуматься о перспективах работы для программистов. Новая простыня отличается повышенной безопасностью и эффективностью (конечно, со слов разработчиков, ещё посмотрим какие дыры проявятся через некоторое время). А вообще, оптимизация должна принести Безосу лишние 260М в год👍 С одной стороны, в очередной раз press F джунам, с другой — ребята, пока еще не все выкупили фишку, устраивайтесь скорее на синьоров в старые компании и переписывайте им код за нормальную зп😁 * Amazon Q - это амазоноаский копайлот, который под капотом все также использует GPT, имеет доступ ко всей базе кода и документов внутри компании, плюс некий обвес из пайплайнов и интерфейсов вокруг. Вот тут про него. @ai_newz

عرض المزيد ...

file

41 113

1 107

эйай ньюз ٢٤ أغسطس, ٢٠:٣٠

54.0k18.9k48.82%

تم النّسخ!

Я раньше вам уже рассказывал, что у нас в Мете есть возможность коллаборировать с университетами и супервайзить научные работы студентов. Так вот я этим и продолжаю заниматься. В этом году я супервайзил еще одну магистерскую работу в ETH Zurich. Это работет так, что у студента формально есть супервайзер и в ETH и в Мете. Но так как это коллаб, то тему работы задавали мы из Меты (я и еще одна моя коллега). Мы еженедельно встречались и обсуждали прогрес по проекту, я накидывал идеи и помогал решать проблемы если были блокеры. За основу проекта была взята моя статья Avatars Grow Legs, но на этот раз мы хотели сделать что-то с анимацией лиц. Около месяца назад моя студентка-магистрантка добила этот проект и успешно защитила свою Магистерскую работу в ETH Zurich! Работа называется "OccluFaceDiff: Multimodal-Conditioned Occlusion-Aware 3D Facial Animation Using Diffusion". Если коротко, то мы научили (я говорю мы, но на самом деле всю работу, конечно, сделала студентка) мультимодальную диффузионную модель восстанавливать 3D shape лица человека по видео и аудио, если оно есть. То есть на вход видеоряд - на выходе последовательность 3D шейпов лица, соответствующая каждому кадру. Фишка работы была в том, чтобы восстанавливать все лицо даже если часть его закрыта чем-то (например маской или рукой). Если часть лица не видна, но есть аудио, то по звуку и эмоциям можно предсказать, как выглядело лицо человека. Самое сложное тут это мимика. Ну, а после защиты счастливая студентка уехала на стажировку в Amazon в Люксембург :) Как вернется, возможно, будем готовить статью. Так что, если вы толковый студент (желательно PhD) и есть амбиции и желание написать со мной статью, то можете написать в лс или в комментах. Возможно, сможем поработать вместе. #personal @ai_newz

عرض المزيد ...

19 758

129

эйай ньюз ٢٣ أغسطس, ١٤:٢٩

54.0k18.9k48.82%

تم النّسخ!

Я вернулся из поездки в Варшаву! Город очень живой и активный, особенно сильно это ощущается на контрасте с размеренным Цюрихом. И, конечно, огромное русскоговорящее комьюнити технарей. Я провел целых две тусовки с подписчиками – одной оказалось мало, и меня попросили организовать еще одну. Сразу скажу, что обе прошли просто шикарно! Спасибо всем, кто пришел – вы все очень крутые! Для первой забронировал целиком белорусский бар "Банки-Бутылки" (он же раньше был в Минске на Зыбицкой). Я приятно офигел от того, что на тусу пришло более 50 человек. Это пока рекордная по размеру тусовка "эйай ньюз". Получилось прям круто! Тут было, как мне кажется, три составляющие успеха: ➡️ Много интересных людей. Кроме ребят, кто работает в AI и ML (из FAANG-а, фирм поменьше и стартапов), были артисты, фотографы и маркетологи, которые активно используют AI в своей работе. ➡️ Вкусные коктейли, в том числе и безалкогольные (респект барменам!). ➡️ Хорошая музыка и обстановка. Так как место было зарезервировано чисто под нас, была очень уютная и непринужденная атмосфера. ➡️ Для самых стойких мы организовали афтерпати на шикарной террасе с видом на реку (кудос моему другу Андрею!). Разошлись в 3 часа ночи только 🎵. Вторую тусу поменьше на 15 человек провели через два дня после первой на берегу реки Вислы за комфортабельными деревянными столами, где можно было приносить свои напитки. Тут было более спокойно, но не менее кайфово, смогли хорошо пообщаться и выпить пива с ребятами, наблюдая красивые виды вокруг. Кроме того, меня пригласили на локальный Data Breakfast, который ребята проводили в Гугле. У Гугла оказалось прям крупное представительство в Варшаве, и есть даже команды из Waymo (где пилят self-driving). Еще позвали в гости в офис Pinterest, где я познакомился с командой, вышедшей из белорусского стартапа Vochi, который был куплен Пинтерестом в 2021. Ну, и конечно, поработал из нашего Метовского офиса с классным видом на центр Варшавы. Поездку в Варшаву объявляю очень удачной, приеду еще раз как-нибудь! #personal @ai_newz

عرض المزيد ...

meet up.mp4

16 267

эйай ньюз ٢٢ أغسطس, ١٢:٣٦

54.0k18.9k48.82%

تم النّسخ!

Ideogram 2.0 Это новая SOTA - по внутренним тестам она обходит FLUX.1 Pro, причём модель особенно хороша для генерации текста. Судя по результатам генерации, которые я видел, это и правда так. Бесплатно доступно 10 кредитов в день, этого хватает на 5 генераций с новой моделью, а подписка стоит от 8 баксов в месяц. Добавили и функционала по контролю за генерацией - предопределённые стили и возможность выбирать палитру. Вместе с новой моделькой релизнули приложение на iOS и API. API по стоимости примерно на уровне FLUX. Технических деталей, увы, нет. Судя по поведению компании, они вряд ли будут. Попробовать @ai_newz

عرض المزيد ...

ideogram.mp4

19 498

353

эйай ньюз ٢٢ أغسطس, ١١:٣٦

54.0k18.9k48.82%

تم النّسخ!

CDTO - Chief Digital Transformation Officer - это человек, который отвечает за технологическое развитие компании и внедрение новых технологий в работу. Уверен, у этих парней выдался тяжёлый год из-за бума нейросетей: каждый CEO хочет себе какую-нибудь AI приколюху. Вообще, интересная должность, хотя понимание AI технологий — это уже мастхэв скилл для любого управленца. Те, кто любят и технологии, и бизнесовую тему (я как раз шарил список книг на стыке бизнеса и AI), точно оценят рассказ о CDTO в свежем выпуске подкаста Data Therapy. Ведут подкаст директора X5 Group, и во втором выпуске про CDTO в гостях Николай Верховский, директор Центра цифровых программ Московской школы управления Сколково. Сейчас у подкаста идёт 3 сезон, ребята рассказывают про внедрение AI в различные ниши на конкретных кейсах гостей. Но скажу сразу: подкаст довольно хардовый, подойдёт опытным менеджерам и директорам или тем, кто хочет таковыми стать. Слушать здесь #промо Реклама. ПАО «Корпоративный центр ИКС 5», ИНН 9722079341, erid: LjN8KEQV2

عرض المزيد ...

~٢٣ أغسطس, ١٤:٥٩

9 198

эйай ньюз ٢١ أغسطس, ١٩:٠٤

54.0k18.9k48.82%

تم النّسخ!

Midjourney наконец-то начали выбираться из Discord! В честь релиза вебверсии для всех пользователей врубили бесплатные триалы - дают бесплатно сгенерить 25 картинок. Дальше по подписке - они стоят от $10 до $120 за месяц или от $96 до $1152 за год. В веб интерфейсе на удивление много фич - кроме стандартной галереи генераций и интерфейса промптинга там есть текстовые и голосовые чаты, текстовые связаны с дискордом. В придачу есть специальный интерфейс для ранкинга изображений в обмен на ускоренную генерацию картинок (очень умный способ получить данные для тюна практически бесплатно). Заметьте как один из лучших генераторов изображений в мире больше двух лет был доступен лишь в дискорде. Фокус был на основном продукте - модели генерации, на вторичные фичи на распылялись. В том числе из-за этого компания не просто профитная, она ни разу не привлекала денег, остальным стартапам есть чему у них поучиться. https://www.midjourney.com/ @ai_newz

عرض المزيد ...

midjourney.mp4

20 842

327

эйай ньюз ٢١ أغسطس, ١٥:٠٢

54.0k18.9k48.82%

تم النّسخ!

Scaling Diffusion Transformers to 16 B parameters with MoE Китайцы месяц назад заскейлили DiT до 16.5 млрд параметров с помощью Mixture of Experts (MoE). Это могла бы быть самая большая DiT диффузия в опенсорсе на сегодняшней день, если бы веса 16.5B выложоли. Но шансы этого близки к нулю, т.к. я прождал месяц, а весов большой модели все еще нет. Экспертов вставили в каждый MLP блок, то есть вместо одного такого блока у нас теперь K параллельно, которые активируются в зависимости от входного токена. Во время инференса активны только 4 эксперта из К в каждый момент ( 2 "общих" эксперта активны всегда). В чем профит использовать MoE? - По сравнению с Dense моделью аналогичного размера (где у нас один жирный MLP блок), МоE позволяет условно распределить знаниz по отдельным эспертам, каждый из которых имеет меньший размер. За счет этого во время инференса мы можем активировать только часть экспертов и экономить на вычислениях. - Выигрыша по памяти MoE в этом случа не дает - нам все равно нужно загружать сразу всех экспертов в память, т.к выбор экспертов происхлдит на уровне токенов. - Если бы мы выбирали экспертов на уровне промпта или шага t, то можно было бы сэконосить и память. Но тут так не делают. Тренят модель на: – На 1.3M картинках из Imagenet и на синтетике. – Нагенерили 5M картинок 512x512 для Imagenet классов с помощью SD3-2B и SDXL, а затем фильтрануи клипом. Это для того, чтобы насытить данными жирную 16.5B модель, ведь 1.3M из Imagenet тут уже мало. Результаты: Картинки в статье выглядят так себе, наверное плохо черипикали. Но чего ожидать от генерации по классам на Imagenet. А по метрикам у них SOTA. Что ж, ждем аналогичную text-2-image модель. В репе есть код тренировки (на DeepSpeed). Yедавно добавили тренировку на основе Flow Matching, как это делают в Flux и SD3 - авторы пишут что таким методом модель быстрее сходится и дает лучшие результаты (это полезное замечание). Вот веса моделей: - B/2 с 8-ю экспертам (800 M, 12 блоков) - G/2 с 16-ю экспертами (16.5B, 40 блоков) - не выложили ха-ха. @ai_newz

عرض المزيد ...

14 509

эйай ньюз ٢١ أغسطس, ٠٩:٥٤

54.0k18.9k48.82%

تم النّسخ!

А вот и первый IP-Adapter для FLUX.1 [dev] подъехал IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По усолчанию Flux картинку на вход не принимает. Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут. Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в cross-attention. Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024. Веса на HF Воркфлоу для Comfy UI @ai_newz

عرض المزيد ...

16 641

340

эйай ньюз ٢٠ أغسطس, ١٧:١٢

54.0k18.9k48.82%

تم النّسخ!

Нашел прикольное сравнение Runway и Luma. Автор прогнал одни и те же картинки через обе модели и сделал два одинаковых трейлера. В связи с этим решил провести свое небольшое сравнение трёх конкурентов в разных категориях: 1) Следование промпту: сможет ли модель нарезать апельсин? 2) Реалистичный портрет "говорящая голова". 3) Продакт-фото — ещё один очень популярный юзкейс. 4) Абстрактная динамичная сцена с китом, который выпрыгивает из дюны. Все видео генерил три раза (что, вообще говоря, маловато) и использовал один и тот же промпт из этой GPT. Результаты выше. Скажу честно, я топил за Luma, но после того, как Runway расправился с этим апельсином, мое мнение резко переменилось. Luma разрезала апельсин только после добавления endframe, хотя Gen-3 справился с первой попытки. Прайсинг: Здесь сложно судить. Думаю, нет смысла считать стоимость токена или секунды генерации. Все равно 2/3 генераций уйдут на свалку. НО! У Runway есть анлим за 95 баксов, и если вы вот реально угарели по этой теме, то Runway ноубрейнер чойс. Luma за $100 дает 480 генераций, что кажется много, но по сути из 30 минут сгенерированного видео юзабельными будут минут 6-10 от силы, чего хватит на пару-тройку клипов. А еще можно скинуться с корешами на акк Runway, а для отдельных задач юзать фри токены лума (пока фичу со start & end keyframes не завезли в gen-3), но я вам об этом не говорил🤭. Выводы: Runway дает более киношную и чистую картинку, но меньше движений. Хотя, это решается грамотным промптингом и черрипиком. Здесь нужно добавить, что я тестировал Turbo версию, так как на нее есть бесплатные кредиты😁. Luma, судя по первому видео, дает больше движений, но и больше артефактов. В целом, тот же черрипик должен решить проблему, а четкость можно добавить в посте и на этапе апскейла, который все равно требуется для всех трех моделей. А Kling... ну что Kling... Он в целом менее популярный из трёх, хотя, кажется, имеет наилучший мувмент в плане реалистичности и фиделити. Однако, картинка еще более мутная и менее киношная. Как-то ни народ, ни я его не взлюбили. А еще в бесплатной версии ну оочень долгая очередь, как в первые дни релиза Luma (ждал ночь). Пока мой выбор за Runway GEN-3. Если набить руку и не жалеть анлим, то получится выжать динамичную и красивую картинку. Это как MidJourney, ради красоты стоит потерпеть. @ai_newz

عرض المزيد ...

Runway_Gen_3_update!_vs_Luma_Dream_Machine_New_Comparison_Video.mp4

0819 (1).mp4

17 857

252

эйай ньюз

Add your telegram channel for

all posts эйай ньюз

kling-motion-brush-demo.mp4

0 (1).mp4

file

file

file

file

file

file

SnapTwitter_wQcJyVz2dhPAkKBS.mp4.mp4

SnapTwitter_YE1c_5_P46dFQwFG.mp4.mp4

SnapTwitter_tU39aeQ8GgWEDOB0.mp4.mp4

SnapTwitter_nacY633h2CkIbT3w.mp4.mp4

SnapTwitter_lEa3O4QXNCbTADRY.mp4.mp4

SnapTwitter_bdSueoJ3qYqQ7Uzu.mp4.mp4

SnapTwitter_rBQlu_bcYFBsAjq4.mp4.mp4

SnapTwitter_TO4wX4nnvSJK0y71.mp4.mp4

SnapTwitter_gV0PruAp6CKBJEhn.mp4.mp4

SnapTwitter_tU39aeQ8GgWEDOB0.mp4.mp4

fortnite.mp4

file

file

file

ssstwitter.com_1725386464115.mp4

runway.mp4

09022.mp4

file

file

file

file

0901__85pct_smaller.mp4

V94KmX264mkHEbzI.mp4

1xdishes.mp4

1xwalking.mpv.mp4

1xneobeta.mp4

F1_FO05MDNBXvQXe.mp4

wjs4EacMYr6_ZrhD.mp4

file

meet up.mp4

ideogram.mp4

midjourney.mp4

Runway_Gen_3_update!_vs_Luma_Dream_Machine_New_Comparison_Video.mp4

0819 (1).mp4

التصنيفات

Collections of Telegram channels

ادوات

Resources

Our bots