بارگیری داده
بارگیری داده
بارگیری داده
метаязыковыми" лексемами, позволяющими выполнять элегантную многозадачность: определение языка, перевод, распознавание голоса и т.д. Его первый автор - легендарный Алек Рэдфорд - человек, ответственный почти за все революционные статьи OAI. Скорее всего Whisper позволил получить не менее триллиона высококачественных разговорных лексем из интернет-видео/аудиозаписей для GPT-4 и последующих проектов. Второй открытый проект - это декодер согласованности (Consistency Decoder) из работы "Consistency Models" (Модели согласованности) под руководством Доктор Янге Сонг. Янг был одним из первопроходцев в области диффузионных моделей. Вы можете заменить декодер Stable Diffusion на Consistency Decoder, и это улучшит рендеринг текстов, лиц и геометрических фигур. - Whisper paper: https://arxiv.org/abs/2212.04356 - Whisper-V3 checkpoint: https://github.com/openai/whisper/discussions/1762 - Consistency Models: https://arxiv.org/abs/2303.01469 - Consistency Decoder release: https://github.com/openai/consistencydecoder @ai_machinelearning_big_data
LLM. http://ig.ft.com/generative-ai/ @ai_machinelearning_big_data
Video2Music, который может генерировать музыку под предоставленное видео. Сначала была собрана уникальная коллекцию музыкальных клипов. Затем проанализированы музыкальные видеоролики, чтобы получить семантические характеристики, характеристики смещения сцены, движения и эмоций. Эти отличительные признаки используются в качестве исходных данных для модели генерации музыки. Затем транскрибируются аудиофайлы в MIDI и аккорды, а также извлекаются такие характеристики, как плотность нот и громкость. В результате был собран набор мультимодальных данных под названием MuVi-Sync, на котором обучена модель для генерации музыки на основе видео. Эта модель включает в себя новый механизм, обеспечивающий сходство между видео и музыкой. Наконец, выполняется постобработка на основе регрессионной модели на базе biGRU для оценки плотности и громкости нот на основе характеристик видео. Это обеспечивает динамическую визуализацию генерируемых аккордов с изменяющимся ритмом и громкостью. В ходе экспериментов показано, что фреймворк позволяет генерировать музыку, соответствующую видеоконтенту с точки зрения эмоций. Музыкальное качество, а также качество согласования музыки и видео подтверждается в ходе исследования. Модель AMT, а также новый датасет MuVi-Sync представляют собой перспективный шаг для задачи генерации музыки для видео. 🖥 Github: https://github.com/amaai-lab/video2music 📕 Paper: https://arxiv.org/abs/2311.00968v1 ⏩ Demo: https://llmrec.github.io/ 🌐 Dataset: https://zenodo.org/records/10057093 @ai_machinelearning_big_data
pip install torch-uncertainty🖥 Github: https://github.com/ensta-u2is/torch-uncertainty 📕 Paper: https://arxiv.org/abs/2311.01434v1 ⏩ Project: https://llmrec.github.io/ 👣 Api: https://torch-uncertainty.github.io/api.html 🌐 Dataset: https://paperswithcode.com/dataset/cifar-10 @ai_machinelearning_big_data
корректора", чтобы (1) определить ошибочный шаг, (2) объяснить причину ошибки, (3) исправить ошибку и сформировать окончательный ответ. LeMa стабильно улучшает производительность моделей по сравнению с тонкой настройкой и превосходит показатели SOTA, достигнутые другими моделями с открытым исходным кодом на различных сложных задачах. 🖥 Github: https://github.com/microsoft/codet 📕 Paper: https://arxiv.org/pdf/2310.20689v1.pdf ⏩ Dataset: https://paperswithcode.com/dataset/math @ai_machinelearning_big_data
360-градусного обзора, которая генерирует Nerf я на основе одной панорамы. PERF позволяет осуществлять трехмерное перемещение по сложным сценам без затратного и утомительного сбора изображений. Многочисленные эксперименты на Replica и новом датасете PERF-in-the-wild демонстрируют превосходство PERF над другими современными методами. Модель подходит для задач преобразование панорамы в 3D, текста в 3D и стилизации 3D-сцен. 🖥 Github: https://github.com/perf-project/PeRF ⚡️Project: https://perf-project.github.io/ 📕 Paper: https://arxiv.org/abs/2310.16831v1 ⏩ Dataset: https://paperswithcode.com/dataset/replica https://t.me/ai_machinelearning_big_data
Min-K% Prob, простой и эффективный метод, который позволяет определить, была ли LLM предварительно обучена на заданном тексте, а также для обнаружения защищенного авторским правом текста. Датасет WikiMIA служит бенчмарком, предназначенным для обнаружения данных предварительного обучения. 🖥 Github: https://github.com/swj0419/detect-pretrain-code 📕 Paper: https://arxiv.org/pdf/2310.16789.pdf 📘 WikiMIA Benchmark: ⏩ Project: https://swj0419.github.io/detect-pretrain.github.io/ ai_machinelearning_big_data