cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ функция стоимости МашинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Π”Π°Ρ‚Π° ΠΏΡƒΠ±Π»ΠΈΠΊΠ°Ρ†ΠΈΠΈ Nov 13, 2019

Π˜Ρ‚Π°ΠΊ, я Π½Π°Ρ‡Π°Π» Π΄Π΅Π»Π°Ρ‚ΡŒ популярный курс машинного обучСния ΠΎΡ‚ Coursera. И ΠΏΠΎΠ΄ΡƒΠΌΠ°Π», Π° ΠΏΠΎΡ‡Π΅ΠΌΡƒ Π±Ρ‹ Π½Π΅ ΠΏΠΎΠ΄Π΅Π»ΠΈΡ‚ΡŒΡΡ Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ я ΠΈΠ·ΡƒΡ‡Π°ΡŽ? Π˜Ρ‚Π°ΠΊ, сСгодня я ΡΠΎΠ±ΠΈΡ€Π°ΡŽΡΡŒ ΠΏΠΎΠ³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ΡŒ ΠΎ Π΄Π²ΡƒΡ… Ρ„ΡƒΠ½Π΄Π°ΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Ρ… Ρ‚Π΅ΠΌΠ°Ρ… машинного обучСния.

ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ:

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Π“ΠΈΠΏΠΎΡ‚Π΅Π·Π° ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ прСдставлСна

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Π—Π΄Π΅ΡΡŒ theta1 ΠΈ theta2 ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ.

Π”Π°Π²Π°ΠΉΡ‚Π΅ прСдставим Π½Π°ΡˆΡƒ Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρƒ Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ со случайными значСниями для theta1, theta2 ΠΈ x:

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Π΄Π°Π²Π°ΠΉΡ‚Π΅ посмотрим Π½Π° Π΄Ρ€ΡƒΠ³ΠΎΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€:

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Ѐункция стоимости:

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

ΠŸΡ€ΠΈΠΌΠ΅Ρ‡Π°Π½ΠΈΠ΅: срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΎ Π²Π΄Π²ΠΎΠ΅ (1/2) для удобства вычислСния Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½Ρ‹ΠΉ Ρ‡Π»Π΅Π½ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚Π° ΠΎΡ‚ΠΌΠ΅Π½ΠΈΡ‚ Ρ‡Π»Π΅Π½ (1/2).

ΠœΡ‹ Ρ…ΠΎΡ‚ΠΈΠΌ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ Π»ΡƒΡ‡ΡˆΡƒΡŽ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΡƒΡŽ линию. Когда срСднСквадратичСскиС Π²Π΅Ρ€Ρ‚ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹Π΅ расстояния рассСянных Ρ‚ΠΎΡ‡Π΅ΠΊ ΠΎΡ‚ Π»ΠΈΠ½ΠΈΠΈ Π±ΡƒΠ΄ΡƒΡ‚ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΌΠΈ, Ρ‚ΠΎΠ³Π΄Π° ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΡƒΡŽ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΡƒΡŽ линию. Π”Π°Π²Π°ΠΉΡ‚Π΅ посмотрим ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹, Π³Π΄Π΅ наша функция стоимости Π±ΡƒΠ΄Π΅Ρ‚ 0, ΠΈ Ρƒ нас Π±ΡƒΠ΄Π΅Ρ‚ Π»ΡƒΡ‡ΡˆΠ°Ρ возмоТная строка:

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Когда theta1 = 1, ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ Π½Π°ΠΊΠ»ΠΎΠ½ 1, Π° наша функция стоимости Ρ€Π°Π²Π½Π° 0.

Π’Π΅ΠΏΠ΅Ρ€ΡŒ Π΄Π°Π²Π°ΠΉΡ‚Π΅ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΠΌ, Ρ‡Ρ‚ΠΎ theta1 = 0.5

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

ΠœΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π²ΠΈΠ΄Π΅Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ это ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ²Π°Π΅Ρ‚ Π½Π°ΡˆΡƒ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ стоимости Π΄ΠΎ 0,5833

Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ большС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ J (theta1):

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

ΠΎΡ‚ΠΊΠ°Π·Π― просто дСлюсь Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ ΡƒΠ·Π½Π°Π» ΠΈΠ· извСстного курса Π­Π½Π΄Ρ€ΡŽ Нг ΠΏΠΎ ΠΌΠ°ΡˆΠΈΠ½Π½ΠΎΠΌΡƒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ. Π’ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΉ ΡΡ‚Π°Ρ‚ΡŒΠ΅ я Π±ΡƒΠ΄Ρƒ Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ΡŒ ΠΎ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠΌ спускС.

ΠŸΡ€ΠΎΡˆΡƒ прощСния Π·Π° ΠΌΠΎΠΉ Ρ…ΡƒΠ΄ΡˆΠΈΠΉ (!) ΠŸΠΎΡ‡Π΅Ρ€ΠΊ.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Ѐункция ΠΏΠΎΡ‚Π΅Ρ€ΡŒ (Loss Function)

Ѐункция ΠΏΠΎΡ‚Π΅Ρ€ΡŒ (Loss Function, Cost Function, Error Function; J) – Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½ΠΎΠ³ΠΎ ΠΊΠΎΠ΄Π°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Алгоритма (Algorithm) Машинного обучСния (ML). Π—Π½Π°Ρ‡Π΅Π½ΠΈΠ΅, вычислСнноС Ρ‚Π°ΠΊΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠ΅ΠΉ, называСтся Β«ΠΏΠΎΡ‚Π΅Ρ€Π΅ΠΉΒ».

Ѐункция (Function) ΠΏΠΎΡ‚Π΅Ρ€ΡŒ ΠΌΠΎΠΆΠ΅Ρ‚ Π΄Π°Ρ‚ΡŒ Π±ΠΎΜΠ»ΡŒΡˆΡƒΡŽ ΠΏΡ€Π°ΠΊΡ‚ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ Π³ΠΈΠ±ΠΊΠΎΡΡ‚ΡŒ вашим НСйронным сСтям (Neural Network) ΠΈ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡ‚ΡŒ, ΠΊΠ°ΠΊ ΠΈΠΌΠ΅Π½Π½ΠΎ Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ связаны с исходными.

НСйронныС сСти ΠΌΠΎΠ³ΡƒΡ‚ Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒ нСсколько Π·Π°Π΄Π°Ρ‡: ΠΎΡ‚ прогнозирования Π½Π΅ΠΏΡ€Π΅Ρ€Ρ‹Π²Π½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ, Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ СТСмСсячныС расходы, Π΄ΠΎ Π‘ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ классификации (Binary Classification) Π½Π° кошСк ΠΈ собак. Для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ ΠΏΠΎΡ‚Ρ€Π΅Π±ΡƒΡŽΡ‚ΡΡ Ρ€Π°Π·Π½Ρ‹Π΅ Ρ‚ΠΈΠΏΡ‹ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΉ, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠΉ Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»Π΅Π½.

Π‘ ΠΎΡ‡Π΅Π½ΡŒ ΡƒΠΏΡ€ΠΎΡ‰Π΅Π½Π½ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния Loss Function ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π° ΠΊΠ°ΠΊ функция, которая ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ Π΄Π²Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°:

Π­Ρ‚Π° функция, ΠΏΠΎ сути, вычислит, насколько Ρ…ΠΎΡ€ΠΎΡˆΠΎ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ наша модСль, сравнив Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ модСль ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΈΡ€ΡƒΠ΅Ρ‚, с фактичСским Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠΌ, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ ΠΎΠ½Π° Π΄ΠΎΠ»ΠΆΠ½Π° Π²Ρ‹Π΄Π°Π΅Ρ‚. Если Ypred ΠΎΡ‡Π΅Π½ΡŒ Π΄Π°Π»Π΅ΠΊΠΎ ΠΎΡ‚ Yi, Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΡ‡Π΅Π½ΡŒ высоким. Однако, Ссли ΠΎΠ±Π° значСния ΠΏΠΎΡ‡Ρ‚ΠΈ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ‹, Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΡ‡Π΅Π½ΡŒ Π½ΠΈΠ·ΠΊΠΈΠΌ. Π‘Π»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ, Π½Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ ΡΠΎΡ…Ρ€Π°Π½ΠΈΡ‚ΡŒ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, которая ΠΌΠΎΠΆΠ΅Ρ‚ эффСктивно Π½Π°ΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ модСль, ΠΏΠΎΠΊΠ° Ρ‚Π° обучаСтся Π½Π° Π’Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… (Train Data).

Π­Ρ‚ΠΎΡ‚ сцСнарий Π² Ρ‡Π΅ΠΌ-Ρ‚ΠΎ Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π΅Π½ ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠ΅ ΠΊ экзамСнам. Если ΠΊΡ‚ΠΎ-Ρ‚ΠΎ ΠΏΠ»ΠΎΡ…ΠΎ сдаСт экзамСн, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΡΠΊΠ°Π·Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ потСря ΠΎΡ‡Π΅Π½ΡŒ высока, ΠΈ этому Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΡƒ придСтся ΠΌΠ½ΠΎΠ³ΠΎΠ΅ ΠΈΠ·ΠΌΠ΅Π½ΠΈΡ‚ΡŒ Π²Π½ΡƒΡ‚Ρ€ΠΈ сСбя, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ Ρ€Π°Π· ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ Π»ΡƒΡ‡ΡˆΡƒΡŽ ΠΎΡ†Π΅Π½ΠΊΡƒ. Однако, Ссли экзамСн ΠΏΡ€ΠΎΠΉΠ΄Π΅Ρ‚ Ρ…ΠΎΡ€ΠΎΡˆΠΎ, студСнт ΠΌΠΎΠΆΠ΅Ρ‚ вСсти сСбя ΠΏΠΎΠ΄ΠΎΠ±Π½Ρ‹ΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ ΠΈ Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ Ρ€Π°Π·.

Π’Π΅ΠΏΠ΅Ρ€ΡŒ Π΄Π°Π²Π°ΠΉΡ‚Π΅ рассмотрим ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡŽ ΠΊΠ°ΠΊ Π·Π°Π΄Π°Ρ‡Ρƒ ΠΈ ΠΏΠΎΠΉΠΌΠ΅ΠΌ, ΠΊΠ°ΠΊ Π² этом случаС Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ функция ΠΏΠΎΡ‚Π΅Ρ€ΡŒ.

ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΏΠΎΡ‚Π΅Ρ€ΠΈ

Когда нСйронная ΡΠ΅Ρ‚ΡŒ пытаСтся ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚ΡŒ дискрСтноС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅, ΠΌΡ‹ рассматриваСм это ΠΊΠ°ΠΊ модСль классификации. Π­Ρ‚ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΡΠ΅Ρ‚ΡŒ, ΠΏΡ‹Ρ‚Π°ΡŽΡ‰Π°ΡΡΡ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚ΡŒ, ΠΊΠ°ΠΊΠΎΠ΅ ΠΆΠΈΠ²ΠΎΡ‚Π½ΠΎΠ΅ присутствуСт Π½Π° ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΈ, ΠΈΠ»ΠΈ являСтся Π»ΠΈ элСктронноС письмо спамом. Π‘Π½Π°Ρ‡Π°Π»Π° Π΄Π°Π²Π°ΠΉΡ‚Π΅ посмотрим, ΠΊΠ°ΠΊ прСдставлСны Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ классификационной Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти.

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅Π’Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠΉ Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ Π΄Π°Π½Π½Ρ‹Ρ… нСйросСти Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ классификации

ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ ΡƒΠ·Π»ΠΎΠ² Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠ³ΠΎ слоя Π±ΡƒΠ΄Π΅Ρ‚ Π·Π°Π²ΠΈΡΠ΅Ρ‚ΡŒ ΠΎΡ‚ количСства классов, ΠΏΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… Π² Π΄Π°Π½Π½Ρ‹Ρ…. ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ ΡƒΠ·Π΅Π» Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡ‚ΡŒ ΠΎΠ΄ΠΈΠ½ класс. Π—Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΡƒΠ·Π»Π° ΠΏΠΎ сущСству прСдставляСт Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ этот класс являСтся ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹ΠΌ.

Как Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ вСроятности всСх Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… классов, рассмотрим Ρ‚ΠΎΡ‚, Ρ‡Ρ‚ΠΎ ΠΈΠΌΠ΅Π΅Ρ‚ Π½Π°ΠΈΠ±ΠΎΠ»ΡŒΡˆΡƒΡŽ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ. ΠŸΠΎΡΠΌΠΎΡ‚Ρ€ΠΈΠΌ, ΠΊΠ°ΠΊ выполняСтся двоичная классификация.

Бинарная классификация

Π’ Π΄Π²ΠΎΠΈΡ‡Π½ΠΎΠΉ классификации Π½Π° Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠΌ слоС Π±ΡƒΠ΄Π΅Ρ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄ΠΈΠ½ ΡƒΠ·Π΅Π». Π§Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ вСроятности, Π½Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ Π€ΡƒΠ½ΠΊΡ†ΠΈΡŽ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ (Activation Function). ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ для вСроятности трСбуСтся Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΎΡ‚ 0 Π΄ΠΎ 1, ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π‘ΠΈΠ³ΠΌΠΎΠΈΠ΄ (Sigmoid), которая ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Ρ‚ любоС Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΊ Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Ρƒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΎΡ‚ 0 Π΄ΠΎ 1.

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС обучСниСВизуализация прСобразования значСния сигмоидом

По ΠΌΠ΅Ρ€Π΅ Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ становятся большС ΠΈ стрСмятся ΠΊ плюс бСсконСчности, Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ сигмоида Π±ΡƒΠ΄ΡƒΡ‚ ΡΡ‚Ρ€Π΅ΠΌΠΈΡ‚ΡŒΡΡ ΠΊ Π΅Π΄ΠΈΠ½ΠΈΡ†Π΅. А ΠΊΠΎΠ³Π΄Π° Π½Π° Π²Ρ…ΠΎΠ΄Π΅ значСния становятся мСньшС ΠΈ стрСмятся ΠΊ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ бСсконСчности, Π½Π° Π²Ρ‹Ρ…ΠΎΠ΄Π΅ числа Π±ΡƒΠ΄ΡƒΡ‚ ΡΡ‚Ρ€Π΅ΠΌΠΈΡ‚ΡŒΡΡ ΠΊ Π½ΡƒΠ»ΡŽ. Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΌΡ‹ Π³Π°Ρ€Π°Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΎΡ‚ 0 Π΄ΠΎ 1, ΠΈ это ΠΈΠΌΠ΅Π½Π½ΠΎ Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ Π½Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π½Π°ΠΌ Π½ΡƒΠΆΠ½Ρ‹ вСроятности.

Если Π²Ρ‹Ρ…ΠΎΠ΄ Π²Ρ‹ΡˆΠ΅ 0,5 (Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ 50%), ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ ΠΎΠ½ ΠΏΠΎΠΏΠ°Π΄Π°Π΅Ρ‚ Π² ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ класс, Π° Ссли ΠΎΠ½ Π½ΠΈΠΆΠ΅ 0,5, ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ ΠΎΠ½ ΠΏΠΎΠΏΠ°Π΄Π°Π΅Ρ‚ Π² ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ класс. НапримСр, Ссли ΠΌΡ‹ ΠΎΠ±ΡƒΡ‡Π°Π΅ΠΌ Π½Π΅ΠΉΡ€ΠΎΡΠ΅Ρ‚ΡŒ для классификации кошСк ΠΈ собак, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π½Π°Π·Π½Π°Ρ‡ΠΈΡ‚ΡŒ собакам ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ класс, ΠΈ Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π² Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… для собак Π±ΡƒΠ΄Π΅Ρ‚ Ρ€Π°Π²Π½ΠΎ 1, Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ кошкам Π±ΡƒΠ΄Π΅Ρ‚ Π½Π°Π·Π½Π°Ρ‡Π΅Π½ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ класс, Π° Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ для кошСк Π±ΡƒΠ΄Π΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ 0.

Ѐункция ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ ΠΌΡ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ для Π΄Π²ΠΎΠΈΡ‡Π½ΠΎΠΉ классификации, называСтся Π”Π²ΠΎΠΈΡ‡Π½ΠΎΠΉ пСрСкрСстной энтропиСй (BCE). Π­Ρ‚Π° функция эффСктивно Π½Π°ΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΡƒΡŽ ΡΠ΅Ρ‚ΡŒ Π·Π° Ошибки (Error) Π΄Π²ΠΎΠΈΡ‡Π½ΠΎΠΉ классификации. Π”Π°Π²Π°ΠΉΡ‚Π΅ посмотрим, ΠΊΠ°ΠΊ ΠΎΠ½Π° выглядит.

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅Π“Ρ€Π°Ρ„ΠΈΠΊΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΠΈ Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ кросс-энтропии

Как Π²ΠΈΠ΄ΠΈΡ‚Π΅, Π΅ΡΡ‚ΡŒ Π΄Π²Π΅ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Π΅ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΉ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ значСния Y. Когда Π½Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚ΡŒ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ класс (Y = 1), ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΡƒΡŽ Ρ„ΠΎΡ€ΠΌΡƒΠ»Ρƒ:

И ΠΊΠΎΠ³Π΄Π° Π½Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚ΡŒ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ класс (Y = 0), ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π½Π΅ΠΌΠ½ΠΎΠ³ΠΎ трансформированный Π°Π½Π°Π»ΠΎΠ³:

Для ΠΏΠ΅Ρ€Π²ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, ΠΊΠΎΠ³Π΄Π° Ypred Ρ€Π°Π²Π½ΠΎ 1, потСря Ρ€Π°Π²Π½Π° 0, Ρ‡Ρ‚ΠΎ ΠΈΠΌΠ΅Π΅Ρ‚ смысл, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ Ypred Ρ‚ΠΎΡ‡Π½ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ ΠΆΠ΅, ΠΊΠ°ΠΊ Y. Когда Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ypred становится Π±Π»ΠΈΠΆΠ΅ ΠΊ 0, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π½Π°Π±Π»ΡŽΠ΄Π°Ρ‚ΡŒ, ΠΊΠ°ΠΊ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΏΠΎΡ‚Π΅Ρ€ΠΈ сильно увСличиваСтся. Когда ΠΆΠ΅ Ypred становится Ρ€Π°Π²Π½Ρ‹ΠΌ 0, потСря стрСмится ΠΊ бСсконСчности. Π­Ρ‚ΠΎ происходит, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ с Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния классификации, 0 ΠΈ 1 – полярныС противополоТности: ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΈΠ· Π½ΠΈΡ… прСдставляСт ΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½Π½ΠΎ Ρ€Π°Π·Π½Ρ‹Π΅ классы. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ, ΠΊΠΎΠ³Π΄Π° Ypred Ρ€Π°Π²Π½ΠΎ 0, Π° Y Ρ€Π°Π²Π½ΠΎ 1, ΠΏΠΎΡ‚Π΅Ρ€ΠΈ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ Π±Ρ‹Ρ‚ΡŒ ΠΎΡ‡Π΅Π½ΡŒ высокими, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠ΅Ρ‚ΡŒ ΠΌΠΎΠ³Π»Π° Π±ΠΎΠ»Π΅Π΅ эффСктивно Ρ€Π°ΡΠΏΠΎΠ·Π½Π°Π²Π°Ρ‚ΡŒ свои ошибки.

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅Π‘Ρ€Π°Π²Π½Π΅Π½ΠΈΠ΅ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ Π΄Π²ΠΎΠΈΡ‡Π½ΠΎΠΉ классификации

Полиномиальная классификация

Полиномиальная классификация (Multiclass Classification) ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΈΡ‚, ΠΊΠΎΠ³Π΄Π° Π½Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ наша модСль ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ€Π°Π· прСдсказывала ΠΎΠ΄ΠΈΠ½ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ΠΉ класс. Π’Π΅ΠΏΠ΅Ρ€ΡŒ, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΌΡ‹ всС Π΅Ρ‰Π΅ ΠΈΠΌΠ΅Π΅ΠΌ Π΄Π΅Π»ΠΎ с вСроятностями, ΠΈΠΌΠ΅Π΅Ρ‚ смысл просто ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ сигмоид ΠΊΠΎ всСм Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹ΠΌ ΡƒΠ·Π»Π°ΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π»ΠΈ значСния ΠΎΡ‚ 0 Π΄ΠΎ 1 для всСх Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ, Π½ΠΎ здСсь кроСтся ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ°. Когда ΠΌΡ‹ рассматриваСм вСроятности для Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… классов, Π½Π°ΠΌ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΡƒΠ±Π΅Π΄ΠΈΡ‚ΡŒΡΡ, Ρ‡Ρ‚ΠΎ сумма всСх ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½Ρ‹Ρ… вСроятностСй Ρ€Π°Π²Π½Π° Π΅Π΄ΠΈΠ½ΠΈΡ†Π΅, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΈΠΌΠ΅Π½Π½ΠΎ Ρ‚Π°ΠΊ опрСдСляСтся Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ. ΠŸΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ сигмоида Π½Π΅ Π³Π°Ρ€Π°Π½Ρ‚ΠΈΡ€ΡƒΠ΅Ρ‚, Ρ‡Ρ‚ΠΎ сумма всСгда Ρ€Π°Π²Π½Π° Π΅Π΄ΠΈΠ½ΠΈΡ†Π΅, поэтому Π½Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π΄Ρ€ΡƒΠ³ΡƒΡŽ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ.

Π’ Π΄Π°Π½Π½ΠΎΠΌ случаС ΠΌΡ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ Softmax. Π­Ρ‚Π° функция Π³Π°Ρ€Π°Π½Ρ‚ΠΈΡ€ΡƒΠ΅Ρ‚, Ρ‡Ρ‚ΠΎ всС Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ ΡƒΠ·Π»Ρ‹ ΠΈΠΌΠ΅ΡŽΡ‚ значСния ΠΎΡ‚ 0 Π΄ΠΎ 1, Π° сумма всСх Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Ρ… ΡƒΠ·Π»ΠΎΠ² всСгда Ρ€Π°Π²Π½Π° 1. ВычисляСтся с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ„ΠΎΡ€ΠΌΡƒΠ»Ρ‹:

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Как Π²ΠΈΠ΄ΠΈΡ‚Π΅, ΠΌΡ‹ просто ΠΏΠ΅Ρ€Π΅Π΄Π°Π΅ΠΌ всС значСния Π² ΡΠΊΡΠΏΠΎΠ½Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΡƒΡŽ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ. ПослС этого, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΠ±Π΅Π΄ΠΈΡ‚ΡŒΡΡ, Ρ‡Ρ‚ΠΎ всС ΠΎΠ½ΠΈ находятся Π² Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Π΅ ΠΎΡ‚ 0 Π΄ΠΎ 1 ΠΈ сумма всСх Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Ρ€Π°Π²Π½Π° 1, ΠΌΡ‹ просто Π΄Π΅Π»ΠΈΠΌ ΠΊΠ°ΠΆΠ΄ΡƒΡŽ экспонСнту Π½Π° сумму экспонСнт.

Π˜Ρ‚Π°ΠΊ, ΠΏΠΎΡ‡Π΅ΠΌΡƒ ΠΌΡ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΏΠ΅Ρ€Π΅Π΄Π°Π²Π°Ρ‚ΡŒ ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ρ‡Π΅Ρ€Π΅Π· экспонСнту ΠΏΠ΅Ρ€Π΅Π΄ ΠΈΡ… Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ? ΠŸΠΎΡ‡Π΅ΠΌΡƒ ΠΌΡ‹ Π½Π΅ ΠΌΠΎΠΆΠ΅ΠΌ просто Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Ρ‚ΡŒ сами значСния? Π­Ρ‚ΠΎ связано с Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ Ρ†Π΅Π»ΡŒ Softmax – ΡƒΠ±Π΅Π΄ΠΈΡ‚ΡŒΡΡ, Ρ‡Ρ‚ΠΎ ΠΎΠ΄Π½ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΎΡ‡Π΅Π½ΡŒ высокоС (Π±Π»ΠΈΠ·ΠΊΠΎ ΠΊ 1), Π° всС ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ значСния ΠΎΡ‡Π΅Π½ΡŒ Π½ΠΈΠ·ΠΊΠΈΠ΅ (Π±Π»ΠΈΠ·ΠΊΠΎ ΠΊ 0). Softmax ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ экспонСнту, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΠ±Π΅Π΄ΠΈΡ‚ΡŒΡΡ, Ρ‡Ρ‚ΠΎ это ΠΏΡ€ΠΎΠΈΠ·ΠΎΠΉΠ΄Π΅Ρ‚. А Π·Π°Ρ‚Π΅ΠΌ ΠΌΡ‹ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΡƒΠ΅ΠΌ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ Π½Π°ΠΌ Π½ΡƒΠΆΠ½Ρ‹ вСроятности.

Π’Π΅ΠΏΠ΅Ρ€ΡŒ, ΠΊΠΎΠ³Π΄Π° наши Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹ΠΉ Ρ„ΠΎΡ€ΠΌΠ°Ρ‚, Π΄Π°Π²Π°ΠΉΡ‚Π΅ посмотрим, ΠΊΠ°ΠΊ ΠΌΡ‹ настраиваСм для этого Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ. Π₯ΠΎΡ€ΠΎΡˆΠΎ Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ функция ΠΏΠΎΡ‚Π΅Ρ€ΡŒ ΠΏΠΎ сути такая ΠΆΠ΅, ΠΊΠ°ΠΊ Ρƒ Π΄Π²ΠΎΠΈΡ‡Π½ΠΎΠΉ классификации. ΠœΡ‹ просто ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠΌ Π›ΠΎΠ³Π°Ρ€ΠΈΡ„ΠΌΠΈΡ‡Π΅ΡΠΊΡƒΡŽ ΠΏΠΎΡ‚Π΅Ρ€ΡŽ (Log Loss) ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠΌΡƒ ΡƒΠ·Π»Ρƒ ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ Π΅Π³ΠΎ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅ΠΌΡƒ Ρ†Π΅Π»Π΅Π²ΠΎΠΌΡƒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΡŽ, Π° Π·Π°Ρ‚Π΅ΠΌ Π½Π°ΠΉΠ΄Π΅ΠΌ сумму этих Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΏΠΎ всСм Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹ΠΌ ΡƒΠ·Π»Π°ΠΌ.

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠšΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠ°Π»ΡŒΠ½Π°Ρ кросс-энтропия

Π­Ρ‚Π° потСря называСтся ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠ°Π»ΡŒΠ½ΠΎΠΉ ΠšΡ€ΠΎΡΡ-энтропиСй (Cross Entropy). Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΏΠ΅Ρ€Π΅ΠΉΠ΄Π΅ΠΌ ΠΊ частному ΡΠ»ΡƒΡ‡Π°ΡŽ классификации, Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΠΎΠΌΡƒ ΠΌΠ½ΠΎΠ³ΠΎΠ·Π½Π°Ρ‡Π½ΠΎΠΉ классификациСй.

ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡ ΠΏΠΎ нСскольким ΠΌΠ΅Ρ‚ΠΊΠ°ΠΌ

ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡ ΠΏΠΎ нСскольким ΠΌΠ΅Ρ‚ΠΊΠ°ΠΌ (MLC) выполняСтся, ΠΊΠΎΠ³Π΄Π° нашСй ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚ΡŒ нСсколько классов Π² качСствС Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…. НапримСр, ΠΌΡ‹ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΡƒΠ΅ΠΌ Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΡƒΡŽ ΡΠ΅Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ ΠΈΠ½Π³Ρ€Π΅Π΄ΠΈΠ΅Π½Ρ‚Ρ‹, ΠΏΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ Π½Π° ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΈ ΠΊΠ°ΠΊΠΎΠΉ-Ρ‚ΠΎ Π΅Π΄Ρ‹. Нам Π½ΡƒΠΆΠ½ΠΎ Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚ΡŒ нСсколько ΠΈΠ½Π³Ρ€Π΅Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ², поэтому Π² Y Π±ΡƒΠ΄Π΅Ρ‚ нСсколько Π΅Π΄ΠΈΠ½ΠΈΡ†.

Для этого ΠΌΡ‹ Π½Π΅ ΠΌΠΎΠΆΠ΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Softmax, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ ΠΎΠ½ всСгда заставляСт Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄ΠΈΠ½ класс «ΡΡ‚Π°Π½ΠΎΠ²ΠΈΡ‚ΡŒΡΡ Π΅Π΄ΠΈΠ½ΠΈΡ†Π΅ΠΉ», Π° Π΄Ρ€ΡƒΠ³ΠΈΠ΅ классы ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Π½ΡƒΠ»ΡŽ. ВмСсто этого ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ просто ΡΠΎΡ…Ρ€Π°Π½ΠΈΡ‚ΡŒ сигмоид Π½Π° всСх значСниях Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Ρ… ΡƒΠ·Π»ΠΎΠ², ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ пытаСмся ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚ΡŒ ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½ΡƒΡŽ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ класса.

Π§Ρ‚ΠΎ касаСтся ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π½Π°ΠΏΡ€ΡΠΌΡƒΡŽ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ логарифмичСскиС ΠΏΠΎΡ‚Π΅Ρ€ΠΈ Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ ΡƒΠ·Π»Π΅ ΠΈ ΡΡƒΠΌΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΈΡ…, Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ Ρ‚ΠΎΠΌΡƒ, Ρ‡Ρ‚ΠΎ ΠΌΡ‹ Π΄Π΅Π»Π°Π»ΠΈ Π² ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΊΠ»Π°ΡΡΠΎΠ²ΠΎΠΉ классификации.

Π’Π΅ΠΏΠ΅Ρ€ΡŒ, ΠΊΠΎΠ³Π΄Π° ΠΌΡ‹ рассмотрСли ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡŽ, ΠΏΠ΅Ρ€Π΅ΠΉΠ΄Π΅ΠΌ ΠΊ рСгрСссии.

ΠŸΠΎΡ‚Π΅Ρ€Ρ рСгрСссии

Π’ РСгрСссии (Regression) наша модСль пытаСтся ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚ΡŒ Π½Π΅ΠΏΡ€Π΅Ρ€Ρ‹Π²Π½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Ρ†Π΅Π½Ρ‹ Π½Π° ТильС ΠΈΠ»ΠΈ возраст Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠ°. Наша нСйронная ΡΠ΅Ρ‚ΡŒ Π±ΡƒΠ΄Π΅Ρ‚ ΠΈΠΌΠ΅Ρ‚ΡŒ ΠΎΠ΄ΠΈΠ½ Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠΉ ΡƒΠ·Π΅Π» для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π½Π΅ΠΏΡ€Π΅Ρ€Ρ‹Π²Π½ΠΎΠ³ΠΎ значСния, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ ΠΌΡ‹ пытаСмся ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚ΡŒ. ΠŸΠΎΡ‚Π΅Ρ€ΠΈ рСгрСссии Ρ€Π°ΡΡΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‚ΡΡ ΠΏΡƒΡ‚Π΅ΠΌ прямого сравнСния Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΈ истинного значСния.

Бамая популярная функция ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ ΠΌΡ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ для рСгрСссионных ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, – это БрСднСквадратичСская ошибка (MSE). Π—Π΄Π΅ΡΡŒ ΠΌΡ‹ просто вычисляСм ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ Ρ€Π°Π·Π½ΠΈΡ†Ρ‹ ΠΌΠ΅ΠΆΠ΄Ρƒ Y ΠΈ YPred ΠΈ усрСдняСм ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Machine learning fundamentals (I): Cost functions and gradient descent

**This is part one of a series on machine learning fundamentals. ML fundamentals (II): Neural Networks can be found at https://towardsdatascience.com/machine-learning-fundamentals-ii-neural-networks-f1e7b2cb3eef**

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Nov 27, 2017 Β· 8 min read

In this post I’ll use a simple linear regression model to explain two machine learning (ML) fundamentals; (1) cost functions and; (2) gradient descent. The linear regression isn’t the most powerful model in the ML tool kit, but due to its familiarity and interpretability, it is still in widespread use in research and industry. Simply, linear regression is used to estimate linear relationships between continuous or/and categorical data and a continuous output variable β€” you can see an example of this in a previous post of mine https://conorsdatablog.wordpress.com/2017/09/02/a-quick-and-tidy-data-analysis/.

As I go thro u gh this post, I’ll use X and y to refer to variables. If you prefer something more concrete (as I often do), you can imagine that y is sales, X is advertising spend and we want to estimate how advertising spend impacts sales. Visually, I’ll show how a linear regression learns the best line to fit through this data:

What does the machine learn?

One question that people often have when getting started in ML is:

β€œWhat does the machine (i.e. the statistical model) actually learn?”

This will vary from model to model, but in simple terms the model learns a function f such that f( X) maps to y. Put differentl y, the model learns how to take X (i.e. features, or, more traditionally, independent variable(s)) in order to predict y (the target, response or more traditionally the dependent variable).

In the case of the simple linear regression ( y

b0 + b1 * X where X is one column/variable) the model β€œlearns” (read: estimates) two parameters;

The bias is the level of y when X is 0 (i.e. the value of sales when advertising spend is 0) and the slope is the rate of predicted increase or decrease in y for each unit increase in X (i.e. how much do sales increase per pound spent on advertising). Both parameters are scalars (single values).

Once the model learns these parameters they can be used to compute estimated values of y given new values of X. In other words, you can use these learned parameters to predict values of y when you don’t know what y is β€” hey presto, a predictive model!

Learning parameters: Cost functions

There are several ways to learn the parameters of a LR model, I will focus on the approach that best illustrates statistical learning; minimising a cost function.

Remember that in ML, the focus is on learning from data. This is perhaps better illustrated using a simple analogy. As children we typically learn what is β€œright” or β€œgood” behaviour by being told NOT to do things or being punished for having done something we shouldn’t. For example, you can imagine a four year-old sitting by a fire to keep warm, but not knowing the danger of fire, she puts her finger into it and gets burned. The next time she sits by the fire, she doesn’t get burned, but she sits too close, gets too hot and has to move away. The third time she sits by the fire she finds the distance that keeps her warm without exposing her to any danger. In other words, through experience and feedback (getting burned, then getting too hot) the kid learns the optimal distance to sit from the fire. The heat from the fire in this example acts as a cost function β€” it helps the learner to correct / change behaviour to minimize mistakes.

In ML, cost functions are used to estimate how badly models are performing. Put simply, a cost function is a measure of how wrong the model is in terms of its ability to estimate the relationship between X and y. This is typically expressed as a difference or distance between the predicted value and the actual value. The cost function (you may also see this referred to as loss or error.) can be estimated by iteratively running the model to compare estimated predictions against β€œground truth” β€” the known values of y.

The objective of a ML model, therefore, is to find parameters, weights or a structure that minimises the cost function.

Minimizing the cost function: Gradient descent

Now that we know that models learn by minimizing a cost function, you may naturally wonder how the cost function is minimized β€” enter gradient descent. Gradient descent is an efficient optimization algorithm that attempts to find a local or global minima of a function.

Gradient descent enables a model to learn the gradient or direction that the model should take in order to reduce errors (differences between actual y and predicted y). Direction in the simple linear regression example refers to how the model parameters b0 and b1 should be tweaked or corrected to further reduce the cost function. As the model iterates, it gradually converges towards a minimum where further tweaks to the parameters produce little or zero changes in the loss β€” also referred to as convergence.

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Observing learning in a linear regression model

To observe learning in a linear regression, I will set the parameters b0 and b1 and will use a model to learn these parameters from the data. In other words, we know the ground truth of the relationship between X and y and can observe the model learning this relationship through iterative correction of the parameters in response to a cost (note: the code below is written in R).

Here I define the bias and slope (equal to 4 and 3.5 respectively). I also add a column of ones to X (for the purposes of enabling matrix multiplication). I also add some Gaussian noise to y to mask the true parameters β€” i.e. create errors that are purely random. Now we have a dataframe with two variables, X and y, that appear to have a positive linear trend (as X increases values of y increase).

Next I define the learning rate β€” this controls the size of the steps taken by each gradient. If this is too big, the model might miss the local minimum of the function. If it too small, the model will take a long time to converge (copy the code and try this out for yourself!). Theta stores the parameters b0 and b1, which are initialized with random values (I have set these these both to 20, which is suitably far away from the true parameters). The n_iterations value controls how many times the model will iterate and update values. That is, how many times the model will make predictions, calculate the cost and gradients and update the weights. Finally, I create some placeholders to catch the values of b0, b1 and the mean squared error (MSE) upon each iteration of the model (creating these placeholders avoids iteratively growing a vector, which is very inefficient in R).

The MSE in this case is the cost function. It is simply the mean of the squared differences between predicted y and actual y (i.e. the residuals)

Now, we run the loop. On each iteration the model will predict y given the values in theta, calculate the residuals, and then apply gradient descent to estimate corrective gradients, then will update the values of theta using these gradients β€” this process is repeated 100 times. When the loop is finished, I create a dataframe to store the learned parameters and loss per iteration.

When the iterations have completed we can plot the lines than the model estimated.

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

The first thing to notice is the thick red line. This is the line estimated from the initial values of b0 and b1. You can see that this doesn’t fit the data points well at all and because of this it is has the highest error (MSE). However, you can see the lines gradually moving toward the data points until a line of best fit (the thick blue line) is identified. In other words, upon each iteration the model has learned better values for b0 and b1 until it finds the values that minimize the cost function. The final values that the model learns for b0 and b1 are 3.96 and 3.51 respectively β€” so very close the parameters 4 and 3.5 that we set!

Voilla! Our machine! it has learned!!

We can also visualize the decrease in the SSE across iterations of the model. This takes a steep decline in the early iterations before converging and stabilizing.

We can now use the learned values of b0 and b1 stored in theta to predict values y for new values of X.

Summary

This post presents a very simple way of understanding machine learning. It goes without saying that there is a lot more to ML, but gaining an initial intuition for the fundamentals of what is going on β€œunderneath the hood” can go a long way toward improving your understanding of more complex models.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Cost Function is No Rocket Science!

This article was published as a part of the Data Science Blogathon.

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

The 2 main questions that popped up in my mind while working on this article were β€œWhy am I writing this article?” & β€œHow is my article different from other articles?” Well, the cost function is an important concept to understand in the fields of data science but while pursuing my post-graduation, I realized that the resources available online are too general and didn’t address my needs completely.

I had to refer to many articles & see some videos on YouTube to get an intuition behind cost functions. As a result, I wanted to put together the β€œWhat,” β€œWhen,” β€œHow,” and β€œWhy” of Cost functions that can help to explain this topic more clearly. I hope that my article acts as a one-stop-shop for cost functions!

Dummies guide to the Cost function πŸ€·β€β™€οΈ

Loss function: Used when we refer to the error for a single training example.
Cost function: Used to refer to an average of the loss functions over an entire training dataset.

But, like, *why* use a cost function?

Why on earth do we need a cost function? Consider a scenario where we wish to classify data. Suppose we have the height & weight details of some cats & dogs. Let us use these 2 features to classify them correctly. If we plot these records, we get the following scatterplot:

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Fig 1: Scatter plot for height & weight of various dogs & cats

Blue dots are cats & red dots are dogs. Following are some solutions to the above classification problem.

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Fig: Probable solutions to our classification problem

Essentially all three classifiers have very high accuracy but the third solution is the best because it does not misclassify any point. The reason why it classifies all the points perfectly is that the line is almost exactly in between the two groups, and not closer to any one of the groups. This is where the concept of cost function comes in. Cost function helps us reach the optimal solution. The cost function is the technique of evaluating β€œthe performance of our algorithm/model”.

It takes both predicted outputs by the model and actual outputs and calculates how much wrong the model was in its prediction. It outputs a higher number if our predictions differ a lot from the actual values. As we tune our model to improve the predictions, the cost function acts as an indicator of how the model has improved. This is essentially an optimization problem. The optimization strategies always aim at β€œminimizing the cost function”.

Types of the cost function

There are many cost functions in machine learning and each has its use cases depending on whether it is a regression problem or classification problem.

1. Regression cost Function:

Regression models deal with predicting a continuous value for example salary of an employee, price of a car, loan prediction, etc. A cost function used in the regression problem is called β€œRegression Cost Function”. They are calculated on the distance-based error as follows:

Y’ – Predicted output

The most used Regression cost functions are below,

1.1 Mean Error (ME)

1.2 Mean Squared Error (MSE)

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

MSE = (sum of squared errors)/n

1.3 Mean Absolute Error (MAE)

So in this cost function, MAE is measured as the average of the sum of absolute differences between predictions and actual observations.

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

MAE = (sum of absolute errors)/n

It is robust to outliers thus it will give better results even when our dataset has noise or outliers.

2. Cost functions for Classification problems

Cost functions used in classification problems are different than what we use in the regression problem. A commonly used loss function for classification is the cross-entropy loss. Let us understand cross-entropy with a small example. Consider that we have a classification problem of 3 classes as follows.

Class(Orange,Apple,Tomato)

The machine learning model will give a probability distribution of these 3 classes as output for a given input data. The class with the highest probability is considered as a winner class for prediction.

The actual probability distribution for each class is shown below.

If during the training phase, the input class is Tomato, the predicted probability distribution should tend towards the actual probability distribution of Tomato. If the predicted probability distribution is not closer to the actual one, the model has to adjust its weight. This is where cross-entropy becomes a tool to calculate how much far the predicted probability distribution from the actual one is. In other words, Cross-entropy can be considered as a way to measure the distance between two probability distributions. The following image illustrates the intuition behind cross-entropy:

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

FIg 3: Intuition behind croos-entropy (credit – machinelearningknowledge.ai )

This was just an intuition behind cross-entropy. It has its origin in information theory. Now with this understanding of cross-entropy, let us now see the classification cost functions.

2.1 Multi-class Classification cost Functions

This cost function is used in the classification problems where there are multiple classes and input data belongs to only one class. Let us now understand how cross-entropy is calculated. Let us assume that the model gives the probability distribution as below for β€˜n’ classes & for a particular input data D.

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

And the actual or target probability distribution of the data D is

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Then cross-entropy for that particular data D is calculated as

Cross-entropy loss(y,p) = – y T log(p)

cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ cost function машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Cross-Entropy(y,P) = – (0*Log(0.1) + 0*Log(0.3)+1*Log(0.6)) = 0.51

The above formula just measures the cross-entropy for a single observation or input data. The error in classification for the complete model is given by categorical cross-entropy which is nothing but the mean of cross-entropy for all N training data.

Categorical Cross-Entropy = (Sum of Cross-Entropy for N data)/N

2.2 Binary Cross Entropy Cost Function

Binary cross-entropy is a special case of categorical cross-entropy when there is only one output that just assumes a binary value of 0 or 1 to denote negative and positive class respectively. For example-classification between cat & dog.

Let us assume that actual output is denoted by a single variable y, then cross-entropy for a particular data D is can be simplified as follows –

Cross-entropy(D) = – y*log(p) when y = 1

Cross-entropy(D) = – (1-y)*log(1-p) when y = 0

The error in binary classification for the complete model is given by binary cross-entropy which is nothing but the mean of cross-entropy for all N training data.

Binary Cross-Entropy = (Sum of Cross-Entropy for N data)/N

Conclusion

I hope you found this article helpful! Let me know what you think, especially if there are suggestions for improvement. You can connect with me on LinkedIn: https://www.linkedin.com/in/saily-shah/ and here’s my GitHub profile: https://github.com/sailyshah

The media shown in this article are not owned by Analytics Vidhya and is used at the Author’s discretion.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ ΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΉ

Π’Π°Ρˆ адрСс email Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½. ΠžΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ поля ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Ρ‹ *