В регуляризации, почему мы используем θ ^ 2, а не θ?

machine-learning mathematical-optimization

161 просмотра

1 ответ

введите описание изображения здесь

Регуляризация есть лямбда * сумма (θ ^ 2)

Автор: C.J Источник Размещён: 08.11.2019 11:21

Ответы (1)


4 плюса

Решение

Я уже ответил на это в вашем предыдущем вопросе (см. Последний абзац), но я попробую еще раз.

Проблема регуляризации в sum(θ)том, что у вас могут быть θ параметры, которые взаимно отменяют друг друга.

Пример:

θ_1 = +1000000
θ_2 = -1000001

sum(θ)Здесь +1000000 -1000001 = -1 , которая мала

Это sum(θ²)1000000 ² + (-1000001) ², что очень большой.

Если вы используете, sum(θ)вы можете остаться без регуляризации (что и было целью) из-за больших значений θ, которые избежали регуляризации, потому что условия взаимно отменяют друг друга.

Вы можете использовать в sum(|θ|)зависимости от вашего алгоритма поиска / оптимизации. Но я знаю, что θ² (норма L2) популярна и хорошо работает с градиентным спуском.

Автор: bakkal Размещён: 20.08.2016 01:25
Вопросы из категории :
32x32