✍️
Правила внедрения машинного обучения от Google
У Google есть целый
документ, в котором перечислены лучшие практики для специалистов по машинному обучению. Мы приведём избранные правила.
✅
Не бойтесь запускать продукт без машинного обучения
Для машинного обучения всегда нужны данные. Если с этим есть проблема, то стоит попробовать использовать для своего продукта нечто другое, какую-нибудь простую эвристику. Иными словами, если ML не является абсолютно необходимым для вашего продукта, не применяйте его, пока у вас не будет достаточно данных.
✅
Сначала придумайте метрики
Прежде чем определиться, что будет делать ваша система машинного обучения, попробуйте отследить как можно больше показателей в вашей текущей системе.
✅
Между сложной эвристикой и машинным обучением выбирайте второе
Простая эвристика может помочь быстро запустить продукт. Сложную эвристику трудно поддерживать. Как только у вас появятся данные и базовое представление о том, чего вы пытаетесь достичь, переходите к машинному обучению.
✅
Сделайте первую модель простой и правильно настройте инфраструктуру
Прежде чем кто-либо сможет использовать вашу новую продвинутую систему машинного обучения, вам необходимо будет определить:
- Как давать примеры на вход алгоритму.
- Что такое «хорошо» и «плохо» для вашей системы.
- Как интегрировать модель в ваше приложение.
Специалисты Google также советуют выбирать простые признаки для модели.
✅
Постарайтесь обнаружить проблемы перед экспортом моделей
В частности, убедитесь, что производительность модели на отложенных данных находится на разумном уровне. Если у вас остаются опасения по поводу данных, не экспортируйте модель.
✅
Не зацикливайтесь на выборе оптимизируемой цели
На ранних этапах процесса машинного обучения можно заметить, что улучшаются все показатели, даже те, которые вы не оптимизируете напрямую. Например, вам важно количество кликов и время, проведённое на сайте. Если вы оптимизируете количество кликов, скорее всего, вы увидите и увеличение времени на сайте. Старайтесь сохранять процесс простым и не перегружайте себя размышлениями о балансе различных метрик.
✅
Выберите простую метрику для вашей первой цели
Проще всего моделировать поведение пользователя, которое можно наблюдать непосредственно. Например, факт клика по ссылке, оценки чего-либо и т.д. Избегайте моделирования косвенных эффектов вначале: не стоит пытаться отследить посетил ли пользователь сайт на следующий день и как долго он находился на сайте. Наконец, не нужно пытаться заставить машинное обучение выяснить, счастлив ли пользователь.
✅
Логируйте
Стоит сохранять набор признаков, используемых во время применения модели, а затем использовать их во время обучения. Даже если вы не можете сделать это для каждого примера, сделайте хотя бы для небольшой части.
✅
Не тратьте время на новые признаки, если проблемой стали несогласованные цели
Если цели, поставленные перед алгоритмом или системой машинного обучения, не соответствуют общим целям продукта или бизнеса, то не стоит пытаться решить их примитивным добавлением новых признаков.
ادامه مطلب ...