Каков вариант использования машинного обучения, при котором добавление дополнительных данных в набор обучающих данных может реально повлиять на производительность?

180

Последнее обновление: 2021-02-09 12:30:13

Ответить:

Давай поговорим об этом. Что ж, добавление дополнительных данных имеет два базовых случая Добавление большего количества данных означает добавление большего количества функций (независимых переменных) в существующие данные, что резко снизит производительность вашей модели из-за переобучения; под этим я подразумеваю, что предположим, что вы добавляете больше функций к своим существующим данным, посмотрите на это с другой стороны, предположим, что у вас есть закрытый канал, в который вы добавляете что-то, но вы не освобождаете место в канале, тогда пространство будет перегружено и расстояние между двумя элементами по мере добавления элементов в трубу станет низким. Итак, помните об этом случае, добавление дополнительных функций к вашим существующим данным увеличит дисперсию (расстояние значений данных от среднего), что уменьшит переоснащение в модели, и модель не будет обобщать на тестовом наборе. Другой случай - когда вы добавляете больше примеров (значения данных в случае изображений, которые вы добавляете больше изображений того же класса) в существующий набор данных тех же функций. Означает, что вы добавляете больше данных, но тех же функций или тех же классов. Это также может снизить производительность вашей модели в зависимости от того, какая модель (для случая классификации, например, логистическая регрессия, случайный лес, SVM и т. Д.), Какой оптимизатор (в случае глубокого обучения, например SGD, SGD с Momentum, Adam, Adagrad и т. Д.) ), какой метод регуляризации вы используете для модели (L1, L2, Dropout и т. д.). Итак, если вы добавляете больше данных одного и того же класса, вы уменьшаете дисперсию и увеличиваете ковариацию (взаимосвязь между разными классами) между классами. если вы не используете подходящую модель, оптимизатор или даже архитектуру, если вы разработчик глубокого обучения, ваша производительность упадет. Скорость обучения также влияет на градиенты, если у вас большой набор данных, тогда всегда старайтесь немного увеличить скорость обучения, а также увеличивать параметры регуляризации, если вы это используете. они также влияют на параметры, если у вас большие наборы данных. Третий случай - это проблема с исчезновением градиента, также если вы делаете это для случая глубокого обучения. Если у вас большой набор данных, вам нужно больше нелинейностей в вашей модели для хорошей производительности. в том случае, когда вы увеличиваете нелинейности, это может привести к снижению производительности вашей модели из-за длительного потока градиента от последнего узла к первому узлу. Четвертый случай будет, если вы используете стохастический градиентный спуск и добавляете больше данных того же класса, и вы установили размер пакета равным единице, тогда производительность модели будет настолько низкой, и потери будут монотонно увеличиваться. Надеюсь, это даст ваш ответ.

+ Расширить больше

Ответить:

Нет дела. Закон больших чисел - это закон не зря. Больше данных в машинном обучении - всегда лучше.

10 Связанный вопрос

326

Можно ли в двоичной классификации использовать перекрестную потерю энтропии вместо двоичной перекрестной потери энтропии? Я использую предопределенные модели (ResNet, VGGNet) для задачи классификации двоичных изображений.

Не глядя, я не знаю, но это похоже на термодинамическую проблему, даже если это не так.

378

Я признал степень магистра искусственного интеллекта в Эдинбургском университете, степень магистра искусственного интеллекта Амстердамского университета, степень магистра DSAI в Саарском университете, у кого из них будут лучшие перспективы трудо

Эдинбург пользуется наивысшей репутацией в области искусственного интеллекта.

507

Как построить модель рекомендаций для музыкальной платформы и попытаться предсказать, какие оценки клиенты будут назначать песням с предыдущими оценками клиентов.

Начните с поиска в Google u201cMatrix factorizationu201d.

268

Искусственный интеллект - знак зверя?

Искусственный интеллект - это не знак зверя, это больше похоже на электронного бога, всезнающего и всевидящего

530

Можно ли обыграть ИИ в шахматах?

Конечно, человеческий мозг сильнее, но это не так уж много людей с таким сильным мозгом.

455

В битовой последовательности «001010011011100» бит 7, отсчитываемый от LSB (крайний левый), поврежден. Какая будет поврежденная последовательность?

Если он поврежден, у него уже есть u201csequence '. В противном случае вместо этого будет 0.

366

Когда ИИ будет больше участвовать в медицинской диагностике, например, чтобы поставить диагноз сам?

Когда человеческий интеллект в целом становится повсеместным, почему бы не a.i.m.d? Вероятно, через 60 лет.

222

Как поменять экран на компьютере?

Ну, во-первых, это зависит от того, какой у вас компьютер.

396

Правда ли, что Китай намного опережает США в области искусственного интеллекта?

США по-прежнему лидируют в фундаментальных исследованиях ИИ. Большинство новых алгоритмов искусственного интеллекта были и продолжают разрабатываться в Соединенных Штатах. Однако Китай быстро его догоняет. Они уже публикуют больше статей об ИИ, чем США. Китай также имеет преимущество в практическом применении. Во-первых, они собирают огромные объемы данных. Вряд ли найдется страна, которая собирает столько данных о своих гражданах. Большинство общественных мест находится под видеонаблюдением; чаты в социальных сетях постоянно отслеживаются и т. д. С населением около 1,4 миллиарда человек это довольно большой объем данных. В то время как в Европе и США есть ограничения на объем данных, которые может собирать правительство, у китайского правительства в основном есть самописный бланк-чек. Затем правительство делится этими данными с отдельными компаниями, такими как Megvii, которые используют их для проведения исследований и разработки мощных коммерческих систем. Во-вторых, среди населения в целом гораздо меньше возражений против ИИ. Я жил в Китае, и меня постоянно поражало то, насколько иначе китайцы думают о технологиях в целом. В то время как американец склонен воспринимать видеонаблюдение как вторжение в частную жизнь, большинство китайцев, с которыми я разговаривал, считают, что это здорово, потому что оно делает их безопаснее. В стране, где ежегодно похищаются десятки тысяч детей и незамужних женщин, это мнение отчасти понятно. В-третьих, правительство Китая активно продвигает и финансирует исследования ИИ в гораздо большей степени, чем США. Стратегии и бюджеты Америки (и Европы) в области искусственного интеллекта тусклые по сравнению с китайскими. В-четвертых, Китай производит больше инженеров и компьютерных ученых, чем Америка. Несмотря на то, что администрация Трампа упорно работала над уничтожением этого преимущества, Америка по-прежнему имеет преимущество, потому что это гораздо более привлекательное место для зарубежных талантов в области ИИ, в том числе для китайских исследователей. Хотя Китай, вероятно, не станет очень привлекательным местом для иммигрантов, еще неизвестно, сможет ли Китай обогнать США с помощью местных талантов. В-пятых, НИОКР продвигаются намного быстрее в Китае, главным образом потому, что существует меньше бюрократических барьеров для внедрения систем искусственного интеллекта, а китайцы также работают усерднее и дольше. 996 Джека Ма (работающий с 9 утра до 9 вечера 6 дней в неделю) кажется очень стандартом для китайских стартапов в области искусственного интеллекта.

244

Разве термин «машинное обучение» не вводит в заблуждение?

Нет, это не так. Это алгоритмы, работающие на компьютерах (машинах), которые изучают шаблоны в данных, которые мы явно не искали.

ближайшая горячая точка

горячая классификация

Это может заинтересовать