Дом » Машинное обучение - безопасный искусственный интеллект » Каков вариант использования машинного обучения, при котором добавление дополнительных данных в набор обучающих данных может реально повлиять на производительность?

Каков вариант использования машинного обучения, при котором добавление дополнительных данных в набор обучающих данных может реально повлиять на производительность?

186
Последнее обновление: 2021-02-09 12:30:13


Ответить:
Давай поговорим об этом. Что ж, добавление дополнительных данных имеет два базовых случая Добавление большего количества данных означает добавление большего количества функций (независимых переменных) в существующие данные, что резко снизит производительность вашей модели из-за переобучения; под этим я подразумеваю, что предположим, что вы добавляете больше функций к своим существующим данным, посмотрите на это с другой стороны, предположим, что у вас есть закрытый канал, в который вы добавляете что-то, но вы не освобождаете место в канале, тогда пространство будет перегружено и расстояние между двумя элементами по мере добавления элементов в трубу станет низким. Итак, помните об этом случае, добавление дополнительных функций к вашим существующим данным увеличит дисперсию (расстояние значений данных от среднего), что уменьшит переоснащение в модели, и модель не будет обобщать на тестовом наборе. Другой случай - когда вы добавляете больше примеров (значения данных в случае изображений, которые вы добавляете больше изображений того же класса) в существующий набор данных тех же функций. Означает, что вы добавляете больше данных, но тех же функций или тех же классов. Это также может снизить производительность вашей модели в зависимости от того, какая модель (для случая классификации, например, логистическая регрессия, случайный лес, SVM и т. Д.), Какой оптимизатор (в случае глубокого обучения, например SGD, SGD с Momentum, Adam, Adagrad и т. Д.) ), какой метод регуляризации вы используете для модели (L1, L2, Dropout и т. д.). Итак, если вы добавляете больше данных одного и того же класса, вы уменьшаете дисперсию и увеличиваете ковариацию (взаимосвязь между разными классами) между классами. если вы не используете подходящую модель, оптимизатор или даже архитектуру, если вы разработчик глубокого обучения, ваша производительность упадет. Скорость обучения также влияет на градиенты, если у вас большой набор данных, тогда всегда старайтесь немного увеличить скорость обучения, а также увеличивать параметры регуляризации, если вы это используете. они также влияют на параметры, если у вас большие наборы данных. Третий случай - это проблема с исчезновением градиента, также если вы делаете это для случая глубокого обучения. Если у вас большой набор данных, вам нужно больше нелинейностей в вашей модели для хорошей производительности. в том случае, когда вы увеличиваете нелинейности, это может привести к снижению производительности вашей модели из-за длительного потока градиента от последнего узла к первому узлу. Четвертый случай будет, если вы используете стохастический градиентный спуск и добавляете больше данных того же класса, и вы установили размер пакета равным единице, тогда производительность модели будет настолько низкой, и потери будут монотонно увеличиваться. Надеюсь, это даст ваш ответ.

Ответить:
Нет дела. Закон больших чисел - это закон не зря. Больше данных в машинном обучении - всегда лучше.

ближайшая горячая точка
горячая классификация
Это может заинтересовать
up