Почему неправильная производная работает лучше? Здравствуйте! Пиши многослойный персептрон с обратным распространением ошибки по этому туториалу
Там используется логистическая функция и её производнаяdef nonlin(self, x, deriv=False):
if (deriv == True):
return x * (1 - x)
return 1 / (1 + np.exp(-x))
и получается что производная это x * (1 - x), но судя по гуглу, производная логистической фукнции df'(x) = f(x) * (1 - f(x)), а не df'(x)= x * (1 - x). Тем не менее, когда я исправляю в коде вычисление производной на правильный вариант, точность предсказания нейросети значительно падает.
Почему?

Предыдущий
вопрос Следующий
вопрос

Question

Почему неправильная производная работает лучше? Здравствуйте! Пиши многослойный персептрон с обратным распространением ошибки по этому туториалу
Там используется логистическая функция и её производнаяdef nonlin(self, x, deriv=False):
if (deriv == True):
return x * (1 - x)
return 1 / (1 + np.exp(-x))
и получается что производная это x * (1 - x), но судя по гуглу, производная логистической фукнции df'(x) = f(x) * (1 - f(x)), а не df'(x)= x * (1 - x). Тем не менее, когда я исправляю в коде вычисление производной на правильный вариант, точность предсказания нейросети значительно падает.
Почему?

Предыдущий
вопрос Следующий
вопрос

eva

21 Авг 2019 в 06:04

152 +1

0

Helper · Answer 1

Существует несколько возможных объяснений, почему неправильная производная может работать лучше в данном контексте:

Использование неправильной производной может привести к более быстрой сходимости модели при обучении. Даже если производная не соответствует математическому определению, она всё равно может оказаться эффективной для оптимизации параметров нейронной сети.

Неправильная производная может помочь избежать проблемы исчезающего градиента (vanishing gradient problem). Некоторые функции активации, такие как сигмоидальная функция, могут приводить к тому, что градиент становится очень маленьким при обратном распространении ошибки. В данном случае использование неправильной производной может помочь увеличить градиент и ускорить обучение.

Возможно, что неправильная производная действительно лучше подходит для конкретной задачи или набора данных. Каждая модель требует собственной настройки гиперпараметров, и некоторые "некорректные" изменения могут привести к улучшению результатов.

Возможно, что при исправлении производной на правильный вариант возникают другие проблемы, такие как переобучение или недообучение модели.

В целом, выбор производной функции активации может оказаться не таким простым, как кажется, и требует тщательного тестирования и настройки для достижения оптимальных результатов.