валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

ΠšΡ€ΠΎΡΡ-валидация

ΠšΡ€ΠΎΡΡ-валидация ΠΈΠ»ΠΈ ΡΠΊΠΎΠ»ΡŒΠ·ΡΡ‰ΠΈΠΉ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒ β€” ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Π° эмпиричСского оцСнивания ΠΎΠ±ΠΎΠ±Ρ‰Π°ΡŽΡ‰Π΅ΠΉ способности Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ². Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ кросс-Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ эмулируСтся Π½Π°Π»ΠΈΡ‡ΠΈΠ΅ тСстовой Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ, которая Π½Π΅ участвуСт Π² ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ, Π½ΠΎ для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ извСстны ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹.

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠ°Π½ΠΈΠ΅

ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΠΈ обозначСния [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

ΠŸΡƒΡΡ‚ΡŒ [math] X [/math] β€” мноТСство ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΎΠΏΠΈΡΡ‹Π²Π°ΡŽΡ‰ΠΈΡ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, Π° [math] Y [/math] β€” ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠ΅ мноТСство ΠΌΠ΅Ρ‚ΠΎΠΊ.

[math]T^l = <(x_i, y_i)>_^, x_i \in X, y_i \in Y[/math] β€” ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°,

[math]Q[/math] β€” ΠΌΠ΅Ρ€Π° качСства,

[math]\mu: (X \times Y)^l \to A, [/math] β€” Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ обучСния.

Разновидности кросс-Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

Валидация Π½Π° ΠΎΡ‚Π»ΠΎΠΆΠ΅Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… (Hold-Out Validation) [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

ΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° ΠΎΠ΄ΠΈΠ½ Ρ€Π°Π· случайным ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ разбиваСтся Π½Π° Π΄Π²Π΅ части [math] T^l = T^t \cup T^ [/math]

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

ПослС Ρ‡Π΅Π³ΠΎ Ρ€Π΅ΡˆΠ°Π΅Ρ‚ΡΡ Π·Π°Π΄Π°Ρ‡Π° ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ:

ΠœΠ΅Ρ‚ΠΎΠ΄ Hold-out примСняСтся Π² случаях Π±ΠΎΠ»ΡŒΡˆΠΈΡ… датасСтов, Ρ‚.ΠΊ. Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ мСньшС Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… мощностСй ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ кросс-Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ. НСдостатком ΠΌΠ΅Ρ‚ΠΎΠ΄Π° являСтся Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ ΠΎΡ†Π΅Π½ΠΊΠ° сущСствСнно зависит ΠΎΡ‚ разбиСния, Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ ΠΆΠ΅Π»Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΎΠ½Π° Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΠΎΠ²Π°Π»Π° Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ обучСния.

Полная кросс-валидация (Complete cross-validation) [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Π—Π΄Π΅ΡΡŒ число Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΠΉ [math]C_l^[/math] становится слишком большим Π΄Π°ΠΆΠ΅ ΠΏΡ€ΠΈ ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΌΠ°Π»Ρ‹Ρ… значСниях t, Ρ‡Ρ‚ΠΎ затрудняСт практичСскоС ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π΄Π°Π½Π½ΠΎΠ³ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°.

k-fold кросс-валидация [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

КаТдая ΠΈΠ· [math]k[/math] частСй Π΅Π΄ΠΈΠ½ΠΎΠΆΠ΄Ρ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для тСстирования. Как ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, [math]k = 10[/math] (5 Π² случаС ΠΌΠ°Π»ΠΎΠ³ΠΎ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ).

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

tΓ—k-fold кросс-валидация [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

ΠšΡ€ΠΎΡΡ-валидация ΠΏΠΎ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹ΠΌ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌ (Leave-One-Out) [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

Π’Ρ‹Π±ΠΎΡ€ΠΊΠ° разбиваСтся Π½Π° [math]l-1[/math] ΠΈ 1 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ [math]l[/math] Ρ€Π°Π·.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

ΠŸΡ€Π΅ΠΈΠΌΡƒΡ‰Π΅ΡΡ‚Π²Π° LOO Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ Ρ€ΠΎΠ²Π½ΠΎ ΠΎΠ΄ΠΈΠ½ Ρ€Π°Π· участвуСт Π² ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»Π΅, Π° Π΄Π»ΠΈΠ½Π° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… ΠΏΠΎΠ΄Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ лишь Π½Π° Π΅Π΄ΠΈΠ½ΠΈΡ†Ρƒ мСньшС Π΄Π»ΠΈΠ½Ρ‹ ΠΏΠΎΠ»Π½ΠΎΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ.

НСдостатком LOO являСтся большая Ρ€Π΅ΡΡƒΡ€ΡΠΎΡ‘ΠΌΠΊΠΎΡΡ‚ΡŒ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒΡΡ приходится [math]L[/math] Ρ€Π°Π·. НСкоторыС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ обучСния ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‚ достаточно быстро ΠΏΠ΅Ρ€Π΅Π½Π°ΡΡ‚Ρ€Π°ΠΈΠ²Π°Ρ‚ΡŒ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΏΡ€ΠΈ Π·Π°ΠΌΠ΅Π½Π΅ ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° Π΄Ρ€ΡƒΠ³ΠΈΠΌ. Π’ этих случаях вычислСниС LOO удаётся Π·Π°ΠΌΠ΅Ρ‚Π½ΠΎ ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ.

Π‘Π»ΡƒΡ‡Π°ΠΉΠ½Ρ‹Π΅ разбиСния (Random subsampling) [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

Π’Ρ‹Π±ΠΎΡ€ΠΊΠ° разбиваСтся Π² случайной ΠΏΡ€ΠΎΠΏΠΎΡ€Ρ†ΠΈΠΈ. ΠŸΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Π° повторяСтся нСсколько Ρ€Π°Π·.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

ΠšΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠΉ цСлостности ΠΌΠΎΠ΄Π΅Π»ΠΈ (Model consistency criterion) [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

НС ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½Ρ‹ΠΉ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π΄ΠΎΠ»ΠΆΠ΅Π½ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΡƒΡŽ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΉ части.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Об ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ, Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ ΠΈ тСстовых Π½Π°Π±ΠΎΡ€Π°Ρ… Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

Π”Π°Ρ‚Π° ΠΏΡƒΠ±Π»ΠΈΠΊΠ°Ρ†ΠΈΠΈ Dec 6, 2017

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Π­Ρ‚ΠΎ дСлаСтся для Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΡ‚Π°Ρ‚ΡŒ ΠΊΡ€Π°Ρ‚ΠΊΠΈΠΌ ΡƒΡ‡Π΅Π±Π½ΠΈΠΊΠΎΠΌ для всСх, ΠΊΠΎΠΌΡƒ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Π·Π½Π°Ρ‚ΡŒ Ρ€Π°Π·Π½ΠΈΡ†Ρƒ ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ разбиСниями Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ модСлям машинного обучСния.

Для этой ΡΡ‚Π°Ρ‚ΡŒΠΈ я Π±Ρ‹ ΠΏΡ€ΠΎΡ†ΠΈΡ‚ΠΈΡ€ΠΎΠ²Π°Π» Π±Π°Π·ΠΎΠ²Ρ‹Π΅ опрСдСлСния ΠΈΠ·ΠžΡ‚Π»ΠΈΡ‡Π½Π°Ρ ΡΡ‚Π°Ρ‚ΡŒΡ ДТСйсона Π‘Ρ€Π°ΡƒΠ½Π»ΠΈΠ½Π° Ρ‚Ρƒ ΠΆΠ΅ Ρ‚Π΅ΠΌΡƒ, это довольно Π²ΡΠ΅ΠΎΠ±ΡŠΠ΅ΠΌΠ»ΡŽΡ‰ΠΈΠΉ, Ссли Π²Π°ΠΌ нравится большС Π΄Π΅Ρ‚Π°Π»Π΅ΠΉ, ΠΏΡ€ΠΎΠ²Π΅Ρ€ΡŒΡ‚Π΅ это.

Π£Ρ‡Π΅Π±Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ…

Π£Ρ‡Π΅Π±Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ…: ΠžΠ±Ρ€Π°Π·Π΅Ρ† Π΄Π°Π½Π½Ρ‹Ρ…, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Ρ… для соотвСтствия ΠΌΠΎΠ΄Π΅Π»ΠΈ.

ЀактичСский Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΡ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ для обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ (вСса ΠΈ смСщСния Π² случаС Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти). ΠœΠΎΠ΄Π΅Π»ΡŒΠ²ΠΈΠ΄ΠΈΡ‚Π° Ρ‚Π°ΠΊΠΆΠ΅ΡƒΠ·Π½Π°Π΅Ρ‚ΠΈΠ· этих Π΄Π°Π½Π½Ρ‹Ρ….

Набор Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ

Набор Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ: Π’Ρ‹Π±ΠΎΡ€ΠΊΠ° Π΄Π°Π½Π½Ρ‹Ρ…, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠ°Ρ для ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΠΉ ΠΎΡ†Π΅Π½ΠΊΠΈ соотвСтствия ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡƒΡ‡Π΅Π±Π½ΠΎΠΌΡƒ Π½Π°Π±ΠΎΡ€Ρƒ Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΈ настройкС Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ. ΠžΡ†Π΅Π½ΠΊΠ° становится Π±ΠΎΠ»Π΅Π΅ прСдвзятой, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π½Π°Π²Ρ‹ΠΊ Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² ΠΊΠΎΠ½Ρ„ΠΈΠ³ΡƒΡ€Π°Ρ†ΠΈΡŽ ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Набор ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для ΠΎΡ†Π΅Π½ΠΊΠΈ Π΄Π°Π½Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π½ΠΎ это для частой ΠΎΡ†Π΅Π½ΠΊΠΈ. ΠœΡ‹, ΠΊΠ°ΠΊ ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€Ρ‹ машинного обучСния, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ эти Π΄Π°Π½Π½Ρ‹Π΅ для Ρ‚ΠΎΡ‡Π½ΠΎΠΉ настройки Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ. ΠžΡ‚ΡΡŽΠ΄Π° ΠΈ модСль изрСдкавидитэти Π΄Π°Π½Π½Ρ‹Π΅, Π½ΠΎ Π½ΠΈΠΊΠΎΠ³Π΄Π° Π½Π΅ Π΄Π΅Π»Π°Π΅Ρ‚ ΡΡ‚ΠΎΠ£Ρ‡ΠΈΡ‚ΡŒΡΡ» ΠΈΠ· этого. ΠœΡ‹ (Π² основном люди, ΠΏΠΎ ΠΊΡ€Π°ΠΉΠ½Π΅ΠΉ ΠΌΠ΅Ρ€Π΅, ΠΏΠΎ ΡΠΎΡΡ‚ΠΎΡΠ½ΠΈΡŽ Π½Π° 2017 Π³.) ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½ΠΎΠ³ΠΎ Π½Π°Π±ΠΎΡ€Π° ΠΈ обновляСм Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ Π±ΠΎΠ»Π΅Π΅ высокого уровня. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Π½Π°Π±ΠΎΡ€ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΎΠΊ влияСт Π½Π° модСль, Π½ΠΎ косвСнно.

ВСстовый Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ…

ВСстовый Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ…: Π’Ρ‹Π±ΠΎΡ€ΠΊΠ° Π΄Π°Π½Π½Ρ‹Ρ…, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Ρ… для ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΠΉ ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΎΠΊΠΎΠ½Ρ‡Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, подходящСй для Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… обучСния.

Набор Π΄Π°Π½Π½Ρ‹Ρ… Test прСдоставляСт Π·ΠΎΠ»ΠΎΡ‚ΠΎΠΉ стандарт, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹ΠΉ для ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Он ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ послС Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ модСль ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ ΠΎΠ±ΡƒΡ‡Π΅Π½Π° (с использованиСм Π½Π°Π±ΠΎΡ€ΠΎΠ² ΠΏΠΎΠ΅Π·Π΄ΠΎΠ² ΠΈ Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ). Набор тСстов, ΠΊΠ°ΠΊ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΊΠΎΠ½ΠΊΡƒΡ€ΠΈΡ€ΡƒΡŽΡ‰ΠΈΡ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π½Π° ΠΌΠ½ΠΎΠ³ΠΈΡ… сорСвнованиях Kaggle Π½Π°Π±ΠΎΡ€ Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ выпускаСтся ΠΈΠ·Π½Π°Ρ‡Π°Π»ΡŒΠ½ΠΎ вмСстС с Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΌ Π½Π°Π±ΠΎΡ€ΠΎΠΌ, Π° фактичСский Π½Π°Π±ΠΎΡ€ тСстов выпускаСтся Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚ΠΎΠ³Π΄Π°, ΠΊΠΎΠ³Π΄Π° сорСвнованиС ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΈΡ‚ ΠΊ ΠΊΠΎΠ½Ρ†Ρƒ, ΠΈ это Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° тСстовом Π½Π°Π±ΠΎΡ€Π΅, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ опрСдСляСт побСдитСля). Много Ρ€Π°Π· Π½Π°Π±ΠΎΡ€ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΊΠ°ΠΊ Π½Π°Π±ΠΎΡ€ тСстов, Π½ΠΎ это Π½Π΅ ΠΎΡ‡Π΅Π½ΡŒ Ρ…ΠΎΡ€ΠΎΡˆΠ°Ρ ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ°. ВСстовый Π½Π°Π±ΠΎΡ€, ΠΊΠ°ΠΊ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, Ρ…ΠΎΡ€ΠΎΡˆΠΎ курируСтся. Он содСрТит Ρ‚Ρ‰Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΡ‚ΠΎΠ±Ρ€Π°Π½Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅, ΠΎΡ…Π²Π°Ρ‚Ρ‹Π²Π°ΡŽΡ‰ΠΈΠ΅ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ классы, с ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌΠΈ столкнСтся модСль ΠΏΡ€ΠΈ использовании Π² Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌ ΠΌΠΈΡ€Π΅.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

О коэффициСнтС раздСлСния Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ…

Π’Π΅ΠΏΠ΅Ρ€ΡŒ, ΠΊΠΎΠ³Π΄Π° Π²Ρ‹ Π·Π½Π°Π΅Ρ‚Π΅, Ρ‡Ρ‚ΠΎ Π΄Π΅Π»Π°ΡŽΡ‚ эти Π½Π°Π±ΠΎΡ€Ρ‹ Π΄Π°Π½Π½Ρ‹Ρ…, Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΠΈΡΠΊΠ°Ρ‚ΡŒ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊ Ρ€Π°Π·Π΄Π΅Π»ΠΈΡ‚ΡŒ ваш Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° Π½Π°Π±ΠΎΡ€Ρ‹ Train, Validation ΠΈ Test…

Π­Ρ‚ΠΎ Π² основном зависит ΠΎΡ‚ 2 Π²Π΅Ρ‰Π΅ΠΉ. Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, ΠΎΠ±Ρ‰Π΅Π΅ количСство ΠΎΠ±Ρ€Π°Π·Ρ†ΠΎΠ² Π² Π²Π°ΡˆΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…, Π° Π²ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, Π½Π° Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ Π²Ρ‹ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΡƒΠ΅Ρ‚Π΅.

НСкоторыС ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½ΡƒΠΆΠ΄Π°ΡŽΡ‚ΡΡ Π² сущСствСнных Π΄Π°Π½Π½Ρ‹Ρ… для обучСния, поэтому Π² этом случаС Π²Ρ‹ Π±Ρ‹ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ для Π±ΠΎΠ»ΡŒΡˆΠΈΡ… Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹Ρ… Π½Π°Π±ΠΎΡ€ΠΎΠ². МодСли с ΠΎΡ‡Π΅Π½ΡŒ нСбольшим количСством Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Π±ΡƒΠ΄Π΅Ρ‚ Π»Π΅Π³ΠΊΠΎ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΈΡ‚ΡŒ ΠΈ Π½Π°ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ, Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ Π²Ρ‹, вСроятно, смоТСтС ΡƒΠΌΠ΅Π½ΡŒΡˆΠΈΡ‚ΡŒ Ρ€Π°Π·ΠΌΠ΅Ρ€ своСго Π½Π°Π±ΠΎΡ€Π° ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ, Π½ΠΎ Ссли Π² вашСй ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠ½ΠΎΠ³ΠΎ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π²Ρ‹ Ρ‚Π°ΠΊΠΆΠ΅ Π·Π°Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΠΈΠΌΠ΅Ρ‚ΡŒ большой Π½Π°Π±ΠΎΡ€ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ (хотя Π²Ρ‹ Ρ‚Π°ΠΊΠΆΠ΅ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ пСрСкрСстная ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ°). ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, Ссли Ρƒ вас Π΅ΡΡ‚ΡŒ модСль Π±Π΅Π· Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΈΠ»ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Π»Π΅Π³ΠΊΠΎ настроСны, Π²Π°ΠΌ, вСроятно, Π½Π΅ понадобится ΠΈ Π½Π°Π±ΠΎΡ€ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ!

Π’ Ρ†Π΅Π»ΠΎΠΌ, ΠΊΠ°ΠΊ ΠΈ ΠΌΠ½ΠΎΠ³ΠΈΠ΅ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ Π²Π΅Ρ‰ΠΈ Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ, коэффициСнт раздСлСния обучСния ΠΈ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ достовСрности Ρ‚Π°ΠΊΠΆΠ΅ вСсьма спСцифичСн для вашСго Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Π° использования, ΠΈ Π²Π°ΠΌ становится Π»Π΅Π³Ρ‡Π΅ ΠΎΡ†Π΅Π½ΠΈΠ²Π°Ρ‚ΡŒ, ΠΊΠΎΠ³Π΄Π° Π²Ρ‹ ΠΎΠ±ΡƒΡ‡Π°Π΅Ρ‚Π΅ ΠΈ строитС всС большС ΠΈ большС ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

Π”Π°ΠΉΡ‚Π΅ ΠΌΠ½Π΅ Π·Π½Π°Ρ‚ΡŒ Π² коммСнтариях, Ссли Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΠΎΠ±ΡΡƒΠ΄ΠΈΡ‚ΡŒ Ρ‡Ρ‚ΠΎ-Π»ΠΈΠ±ΠΎ ΠΈΠ· этого дальшС. Π― Ρ‚Π°ΠΊΠΆΠ΅ ΡƒΡ‡ΡƒΡΡŒ, ΠΊΠ°ΠΊ ΠΈ ΠΌΠ½ΠΎΠ³ΠΈΠ΅ ΠΈΠ· вас, Π½ΠΎ я ΠΎΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΠΎΡΡ‚Π°Ρ€Π°ΡŽΡΡŒ ΠΏΠΎΠΌΠΎΡ‡ΡŒ всСм, Ρ‡Π΅ΠΌ смогу.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Validating your Machine Learning Model

Going beyond k-Fold Cross-Validation

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Sep 26, 2019 Β· 8 min read

I believe that one of the most underrated aspects of creating your Machine Learning Model is thorough validation. Using proper validation techniques helps you understand your model, but most importantly, estimate an unbiased generalization performance.

There is no single validation method that works in all scenarios. It is important to understand if you are dealing with groups, time-indexed data, or if you are leaking data in your validation procedure.

Which validation method is right for my use case?

When researching these aspects I found plenty of articles describing evaluation techniques, but validation techniques typically stop at k-Fold cross-validation.

I would lik e to show you the world that uses k-Fold CV and goes one step further into Nested CV, LOOCV, but also into model selection techniques.

The following methods for validation will be demonstrated:

1. Splitting your data

The basis of all validation techniques is splitting your data when training your model. The reason for doing so is to understand what would happen if your model is faced with data it has not seen before.

Train/test split

The most basic method is the train/test split. The principle is simple, you simply split your data randomly into roughly 70% used for training the model and 30% for testing the model.

The benefit of this approach is that we can see how the model reacts to previously unseen data.

However, what if one subset of our data only have people of a certain age or income levels? This is typically referred to as a sampling bias:

Sampling bias is systematic error due to a non-random sample of a population, causing some members of the population to be less likely to be included than others, resulting in a biased sample.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Before going into methods that help with the sampling bias (like k-Fold cross-validation), I would like to go into the additional holdout set.

Holdout set

When optimizing the hyperparameters of your model, you might overfit your model if you were to optimize using the train/test split.

Why? Because the model searches for the hyperparameters that fit the specific train/test you made.

To solve this issue, you can create an additional holdout set. This is often 10% of the data which you have not used in any of your processing/validation steps.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

After optimizing your model on the train/test split, you can check if you did not overfit by validating on your holdout set.

TIP: If only use a train/test split, then I would advise comparing the distributions of your train and test sets. If they differ significantly, then you might run into problems with generalization. Use Facets to easily compare their distributions.

2. k-Fold Cross-Validation (k-Fold CV)

To minimize sampling bias we can think about approach validation slightly different. What if, instead of making a single split, we make many splits and validate on all combinations of those splits?

This is where k-fold cross-validation comes in. It splits the data into k folds, then trains the data on k-1 folds and test on the one fold that was left out. It does this for all combinations and averages the result on each instance.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

The advantage is that all observations are used for both training and validation, and each observation is used once for validation. We typically choose either i=5 or k=10 as they find a nice balance between computational complexity and validation accuracy:

TIP: The scores of each fold from cross-validation techniques are more insightful than one may think. They are mostly used to simply extract the average performance. However, one might also look at the variance or standard deviation of the resulting folds as it will give information about the stability of the model across different data inputs.

3. Leave-one-out Cross-Validation (LOOCV)

A variant of k-Fold CV is Leave-one-out Cross-Validation (LOOCV). LOOCV uses each sample in the data as a separate test set while all remaining samples form the training set. This variant is identical to k-fold CV when k = n (number of observations).

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

It can be easily implemented using sklearn:

NOTE: LOOCV is computationally very costly as the model needs to be trained n times. Only do this if the data is small or if you can handle that many computations.

Leave-one-group-out Cross-Validation (LOGOCV)

The issue with k-Fold CV is that you might want each fold to only contain a single group. For example, let’s say you have a dataset of 20 companies and their clients and you want to predict the success of these companies.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

To keep the folds β€œpure” and only contain a single company you would create a fold for each company. That way, you create a version of k-Fold CV and LOOCV where you leave one company/group out.

Again, implementation can be done using sklearn:

4. Nested Cross-Validation

When you are optimizing the hyperparameters of your model and you use the same k-Fold CV strategy to tune the model and evaluate performance you run the risk of overfitting. You do not want to estimate the accuracy of your model on the same split that you found the best hyperparameters for.

Instead, we use a Nested Cross-Validation strategy allowing to separate the hyperparameter tuning step from the error estimation step. To do this, we nest two k-fold cross-validation loops:

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

The example below shows an implementation using k-Fold CV for both the inner and outer loop.

You are free to select the cross-validation approaches you use in the inner and outer loops. For example, you can use Leave-one-group-out for both the inner and outer loops if you want to split by specific groups.

5. Time Series CV

Now, what would happen if you were to use k-Fold CV on time series data? Overfitting would be a major concern since your training data could contain information from the future. It is important that all your training data happens before your test data.

One way of validating time series data is by using k-fold CV and making sure that in each fold the training data takes place before the test data.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Fortunately, sklearn is again to the rescue and has a Time Series CV builtin:

NOTE: Make sure to order your data according to the time index that you use seeing as you do not supply the TimeSeriesSplit with a time index. Thus, it will create the split simply based on the order in which the records appear.

6. Comparing Models

When do you consider one model to be better than another? If one model’s accuracy is insignificantly higher than another, is that a sufficient enough reason for choosing the best model?

As a Data Scientist, I want to make sure that I understand if a model is actually significantly more accurate than another. Fortunately, many methods exist that apply statistics to the selection of Machine Learning models.

Wilcoxon signed-rank test

One such method is the Wilcoxon signed-rank test which is the non-parametric version of the paired Student’s t-test. It can be used when the sample size is small and the data does not follow a normal distribution.

We can apply this significance test for comparing two Machine Learning models. Using k-fold cross-validation we can create, for each model, k accuracy scores. This will result in two samples, one for each model.

Then, we can use the Wilcoxon signed-rank test to test if the two samples differ significantly from each other. If they do, then one is more accurate than the other.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Валидация ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ машинного обучСния

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

На связи ΠΊΠΎΠΌΠ°Π½Π΄Π° Advanced Analytics GlowByte ΠΈ сСгодня ΠΌΡ‹ Ρ€Π°Π·Π±Π΅Ρ€Π΅ΠΌ Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΡŽ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.
Иногда Ρ‚Π΅Ρ€ΠΌΠΈΠ½ «валидация» ассоциируСтся с вычислСниСм ΠΎΠ΄Π½ΠΎΠΉ Ρ‚ΠΎΡ‡Π΅Ρ‡Π½ΠΎΠΉ статистичСской ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ROC AUC) Π½Π° ΠΎΡ‚Π»ΠΎΠΆΠ΅Π½Π½ΠΎΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ Π΄Π°Π½Π½Ρ‹Ρ…. Однако Ρ‚Π°ΠΊΠΎΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΌΠΎΠΆΠ΅Ρ‚ привСсти ΠΊ ряду ошибок.

Π’ ΡΡ‚Π°Ρ‚ΡŒΠ΅ Ρ€Π°Π·Π±Π΅Ρ€Π΅ΠΌ, ΠΎ ΠΊΠ°ΠΊΠΈΡ… ΠΎΡˆΠΈΠ±ΠΊΠ°Ρ… ΠΈΠ΄Π΅Ρ‚ Ρ€Π΅Ρ‡ΡŒ, ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½Π΅Π΅ рассмотрим процСсс Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ ΠΈ Π΄Π°Π΄ΠΈΠΌ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ Π½Π° вопросы:

Π Π°ΡΡˆΠΈΡ€ΡΠ΅ΠΌ понятиС Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ

Π§Ρ‚ΠΎ Π½Π΅ Ρ‚Π°ΠΊ с Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠ΅ΠΉ ΠΊΠ°ΠΊ вычислСниСм ΠΎΠ΄Π½ΠΎΠΉ Ρ‚ΠΎΡ‡Π΅Ρ‡Π½ΠΎΠΉ статистичСской ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ Π½Π° ΠΎΡ‚Π»ΠΎΠΆΠ΅Π½Π½ΠΎΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ Π΄Π°Π½Π½Ρ‹Ρ…?

АргумСнт ΠΏΡ€ΠΎΡ‚ΠΈΠ² β„– 1: ΠΎΠ΄Π½Π° ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ° Π½Π΅ ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΡ‡Π΅ΡΡ‚ΡŒ всС аспСкты качСства ΠΌΠΎΠ΄Π΅Π»ΠΈ. ΠšΠ°Ρ‡Π΅ΡΡ‚Π²ΠΎ ΠΌΠΎΠ΄Π΅Π»ΠΈ измСряСтся Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒΡŽ, Π½ΠΎ ΠΈ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒΡŽ Π²ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ.

АргумСнт ΠΏΡ€ΠΎΡ‚ΠΈΠ² β„– 2: количСствСнныС ΠΎΡ†Π΅Π½ΠΊΠΈ Π½Π΅ всСгда ΡΠΎΠ³Π»Π°ΡΡƒΡŽΡ‚ΡΡ с бизнСс-ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°ΠΌΠΈ ΠΈ поэтому вводятся Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅. НапримСр, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ модСль с Ρ…ΠΎΡ€ΠΎΡˆΠ΅ΠΉ ΠΈΠ½Ρ‚Π΅Π³Ρ€Π°Π»ΡŒΠ½ΠΎΠΉ ΠΎΡ†Π΅Π½ΠΊΠΎΠΉ, Π½ΠΎ ΠΏΡ€ΠΈ ΠΏΠΎΠΏΡ‹Ρ‚ΠΊΠ΅ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚Π°Ρ†ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² Ρ€Π°Π·Ρ€Π΅Π·Π΅ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ² ΠΌΠΎΠΆΠ΅Ρ‚ Π²Ρ‹ΡΡΠ½ΠΈΡ‚ΡŒΡΡ, Ρ‡Ρ‚ΠΎ Ρ„Π°ΠΊΡ‚ΠΎΡ€, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΠΎ бизнСс-Π»ΠΎΠ³ΠΈΠΊΠ΅ ΠΏΡ€ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠΈ значСния Π΄ΠΎΠ»ΠΆΠ΅Π½ ΡΠ½ΠΈΠΆΠ°Ρ‚ΡŒ ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·Π½Ρ‹ΠΉ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒ, Π² Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π½Π°ΠΎΠ±ΠΎΡ€ΠΎΡ‚, Π΅Π³ΠΎ ΠΏΠΎΠ²Ρ‹ΡˆΠ°Π΅Ρ‚.

АргумСнт ΠΏΡ€ΠΎΡ‚ΠΈΠ² β„– 3: точСчная ΠΎΡ†Π΅Π½ΠΊΠ° ΠΌΠΎΠΆΠ΅Ρ‚ Π²Π°Ρ€ΡŒΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π² зависимости ΠΎΡ‚ состава Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ, особСнно это касаСтся Π½Π΅ сбалансированных Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ (с ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ΠΌ классов 1:50 ΠΈΠ»ΠΈ Π±ΠΎΠ»Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΠΌΡ‹ΠΌ пСрСкосом). ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ стоит Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π΄Π΅Π»Π°Ρ‚ΡŒ ΠΈΠ½Ρ‚Π΅Ρ€Π²Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ†Π΅Π½ΠΊΠΈ.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

АргумСнт ΠΏΡ€ΠΎΡ‚ΠΈΠ² β„– 4: Π°ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΠΎΡ‚Π»ΠΈΡ‡Π°Ρ‚ΡŒΡΡ ΠΎΡ‚ историчСских, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π±Ρ‹Π»Π° построСна модСль, поэтому Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΡŽ стоит Π΄Π΅Π»Π°Ρ‚ΡŒ ΠΈ Π½Π° Π°ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠΌ срСзС Π΄Π°Π½Π½Ρ‹Ρ….

АргумСнт ΠΏΡ€ΠΎΡ‚ΠΈΠ² β„– 5: Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Ρ‹ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ собой Π½Π°Π±ΠΎΡ€ Π½Π΅ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½Ρ‹Ρ… (ΠΏΠΎ слоТности ΠΈ ΠΏΠ΅Ρ€Π΅Ρ‡Π½ΡŽ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Ρ… Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ) скриптов, Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ нСточности ΠΈΠ»ΠΈ Π½Π΅ΡƒΡ‡Ρ‚Π΅Π½Π½Ρ‹Π΅ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Ρ‹ повСдСния. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ для ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½ΠΎΠΉ Ρ€Π°Π±ΠΎΡ‚Ρ‹ всСго ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚ΡŒ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΡƒ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΏΠΎΠ΄Π³ΠΎΡ‚Π°Π²Π»ΠΈΠ²Π°Π΅ΠΌΠΎΠΉ ΠΊ Ρ€Π°Π·Π²Π΅Ρ€Ρ‚Ρ‹Π²Π°Π½ΠΈΡŽ, ΠΏΡ€ΠΈΡ‡Π΅ΠΌ стоит ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ зависимости ΠΌΠ΅ΠΆΠ΄Ρƒ скриптами Π² ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π΅, Π½ΠΎ ΠΈ порядок ΠΈΡ… запуска: ΠΏΡ€ΠΈ нСсоблюдСнии порядка ΠΎΠ½ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ ΠΎΡ‚Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ Π±Π΅Π· ошибок, Π½ΠΎ ΡΡ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π°Π±ΡΠΎΠ»ΡŽΡ‚Π½ΠΎ Π½Π΅ Π²Π΅Ρ€Π½Ρ‹ΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚.

Валидация ΠΈ ΠΆΠΈΠ·Π½Π΅Π½Π½Ρ‹ΠΉ Ρ†ΠΈΠΊΠ» ΠΌΠΎΠ΄Π΅Π»ΠΈ

Валидация β€” комплСксный процСсс, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ осущСствляСтся Π½Π° протяТСнии всСго ΠΆΠΈΠ·Π½Π΅Π½Π½ΠΎΠ³ΠΎ Ρ†ΠΈΠΊΠ»Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π•Π΅ ΠΌΠΎΠΆΠ½ΠΎ Π΄Π΅ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π½Π° составныС части Π² соотвСтствии с этапами ΠΆΠΈΠ·Π½Π΅Π½Π½ΠΎΠ³ΠΎ Ρ†ΠΈΠΊΠ»Π°. На схСмС Π½ΠΈΠΆΠ΅ ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π΅Π½ΠΎ:

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

ΠŸΡ€ΠΎΡ„ΠΈΠ»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ (Π°ΡƒΠ΄ΠΈΡ‚ Π²ΠΈΡ‚Ρ€ΠΈΠ½Ρ‹) осущСствляСтся Π½Π° этапС ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…. Π—Π΄Π΅ΡΡŒ провСряСтся соотвСтствиС собранных Π΄Π°Π½Π½Ρ‹Ρ… поставлСнной Π·Π°Π΄Π°Ρ‡Π΅, Π° Ρ‚Π°ΠΊΠΆΠ΅ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ простых ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, число пропусков Π² Π΄Π°Π½Π½Ρ‹Ρ…, Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Π² Ρ€Π°Π·Ρ€Π΅Π·Π΅ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚ΠΎΠ²) опрСдСляСтся качСство Π²ΠΈΡ‚Ρ€ΠΈΠ½Ρ‹.

Когда модСль построСна, выполняСтся пСрвичная валидация, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π΄ΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚ΠΎΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ ΠΈ ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ Ρ†Π΅Π»Π΅ΡΠΎΠΎΠ±Ρ€Π°Π·Π½ΠΎΡΡ‚ΡŒ внСдрСния Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ.

На этапС внСдрСния проводится Π΄Π²Π° Π²ΠΈΠ΄Π° ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΎΠΊ.

Π’ΡƒΡ‚ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠΎΡΠ²ΠΈΡ‚ΡŒΡΡ вопрос, Ρ‡Π΅ΠΌ валидация отличаСтся ΠΎΡ‚ ΠΌΠΎΠ½ΠΈΡ‚ΠΎΡ€ΠΈΠ½Π³Π°. Если ΠΊΠΎΡ€ΠΎΡ‚ΠΊΠΎ, Ρ‚ΠΎ ΠΌΠΎΠ½ΠΈΡ‚ΠΎΡ€ΠΈΠ½Π³ β€” Π±ΠΎΠ»Π΅Π΅ лСгковСсный процСсс, ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠΌΡ‹ΠΉ с большСй частотой.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

ΠœΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΠ° Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ

ВсС ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Π΅ ΠΏΡ€ΠΈ Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ тСсты ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°Π·Π΄Π΅Π»ΠΈΡ‚ΡŒ Π½Π° Π΄Π²Π΅ Π³Ρ€ΡƒΠΏΠΏΡ‹: количСствСнныС ΠΈ качСствСнныС.

Π’ качСствС Π°Ρ€Ρ‚Π΅Ρ„Π°ΠΊΡ‚Π° ΠΏΠΎ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌ Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ прСдоставляСтся ΠΎΡ‚Ρ‡Π΅Ρ‚:

Рассмотрим Π΄Π΅Ρ‚Π°Π»ΡŒΠ½Π΅Π΅ список тСстов для ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ классификации Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·Π° вСроятности Π΄Π΅Ρ„ΠΎΠ»Ρ‚Π° (PD-ΠΌΠΎΠ΄Π΅Π»ΠΈ) ΠΏΠΎ ΠΊΡ€Π΅Π΄ΠΈΡ‚Π½ΠΎΠΌΡƒ Π΄ΠΎΠ³ΠΎΠ²ΠΎΡ€Ρƒ (ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½Π΅Π΅ ΠΎ PD-модСлях см. [1]).

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²Π΅Π½Π½Π°Ρ ΠΎΡ†Π΅Π½ΠΊΠ°

К Π³Ρ€ΡƒΠΏΠΏΠ΅ относятся расчСты ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ ΠΈ статистичСскиС тСсты, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΎΡ†Π΅Π½ΠΈΠ²Π°ΡŽΡ‚ качСство ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° Ρ€Π°Π·Π½Ρ‹Ρ… этапах ΠΈ Ρ€Π°Π·Π½Ρ‹Ρ… уровнях (пСрСчисляСм Π½Π΅ всС, Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΠ΅).

1. Дискриминационная ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ

ПослС Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠ΅Ρ€Π²Ρ‹ΠΉ вопрос, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ интСрСсуСт бизнСс-Π·Π°ΠΊΠ°Π·Ρ‡ΠΈΠΊΠ°: Π° насколько Ρ…ΠΎΡ€ΠΎΡˆΠΎ модСль справляСтся со своСй Π·Π°Π΄Π°Ρ‡Π΅ΠΉ? Если ΠΌΡ‹ построили PD-модСль, Ρ‚ΠΎ этот вопрос Π·Π²ΡƒΡ‡ΠΈΡ‚ Ρ‚Π°ΠΊ: насколько Ρ…ΠΎΡ€ΠΎΡˆΠΎ модСль отдСляСт ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΡƒΠΉΠ΄ΡƒΡ‚ Π² Π΄Π΅Ρ„ΠΎΠ»Ρ‚, ΠΎΡ‚ Ρ‚Π΅Ρ…, ΠΊΡ‚ΠΎ Π² Π΄Π΅Ρ„ΠΎΠ»Ρ‚ Π½Π΅ ΡƒΠΉΠ΄Π΅Ρ‚, ΠΈ насколько Π»ΡƒΡ‡ΡˆΠ΅ эта модСль, Ρ‡Π΅ΠΌ случайноС ΡƒΠ³Π°Π΄Ρ‹Π²Π°Π½ΠΈΠ΅?

Π§Ρ‚ΠΎΠ±Ρ‹ ΠΎΡ‚Π²Π΅Ρ‚ΠΈΡ‚ΡŒ Π½Π° это вопрос, ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠΌ тСсты:

Π’ случаС Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠ³ΠΎ Ρ†Π΅Π»Π΅Π²ΠΎΠ³ΠΎ события коэффициСнт Π”ΠΆΠΈΠ½ΠΈ рассчитываСтся ΠΊΠ°ΠΊ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ ΠΏΠ»ΠΎΡ‰Π°Π΄Π΅ΠΉ Π΄Π²ΡƒΡ… Ρ„ΠΈΠ³ΡƒΡ€:

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

ΠΠ»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Π½Ρ‹ΠΉ способ опрСдСлСния ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ β€” ΠΏΡƒΠ·Ρ‹Ρ€ΡŒΠΊΠΎΠ²Π°Ρ сортировка (ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½Π΅Π΅ см. [2]). ΠŸΡƒΡΡ‚ΡŒ имССтся список Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Ρ†Π΅Π»Π΅Π²ΠΎΠ³ΠΎ события, порядок Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ совпадаСт с порядком Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ вСроятности, ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΈΡ€ΡƒΠ΅ΠΌΡ‹Ρ… модСлью. Π’ΠΎΠ³Π΄Π° ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒ Swaps Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π°Ρ‚ΡŒ количСство пСрСстановок сосСдних элСмСнтов для привСдСния списка Ρ†Π΅Π»Π΅Π²Ρ‹Ρ… событий ΠΊ отсортированному Π²ΠΈΠ΄Ρƒ Π±Π΅Π· инвСрсий.

На ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ Π½ΠΈΠΆΠ΅ число Ρ‚Π°ΠΊΠΈΡ… пСрСстановок Swaps = 2.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Π³Π΄Π΅: валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния– число пСрСстановок для Π²Π°Π»ΠΈΠ΄ΠΈΡ€ΡƒΠ΅ΠΌΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния– для случайной ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Однако, ΠΊΠ°ΠΊ Π²ΠΈΠ΄Π½ΠΎ ΠΈΠ· Ρ‚Π°ΠΊΠΎΠΉ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚Π°Ρ†ΠΈΠΈ, рост коэффициСнта Π”ΠΆΠΈΠ½ΠΈ Π½Π΅ всСгда ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΠΎΠ»ΡŒΠ·Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ для бизнСса, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π½Π΅ ΠΏΠΎΠ΄Ρ€Π°Π·ΡƒΠΌΠ΅Π²Π°Π΅Ρ‚ измСнСния Π² Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π² сСгмСнтС ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ интСрСсСн с Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния бизнСса. Π’Π΅Π΄ΡŒ ΠΏΡ€ΠΈ подсчСтС пСрСстановок Π½Π΅ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‚ΡΡ ΠΏΠΎΠ·ΠΈΡ†ΠΈΠΈ элСмСнтов: Π½Π° рисункС Π½ΠΈΠΆΠ΅ ΠΎΡ‚ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½Ρ‹ Π΄Π²Π΅ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΡƒΠ»ΡƒΡ‡ΡˆΠ°ΡŽΡ‚ Π±Π°Π·ΠΎΠ²ΡƒΡŽ Π½Π° ΠΎΠ΄Π½Ρƒ пСрСстановку: Π΄ΠΎ ΠΏΠΎΡ€ΠΎΠ³Π° отсСчки ΠΈ послС. ОбС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Ρ‚ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ Π”ΠΆΠΈΠ½ΠΈ, Π½ΠΎ с Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния бизнСс-постановки Π·Π°Π΄Π°Ρ‡ΠΈ пСрвая модСль Π»ΡƒΡ‡ΡˆΠ΅, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ послС ΠΏΠΎΡ€ΠΎΠ³Π°, срСди ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ Π±ΡƒΠ΄Π΅Ρ‚ Π²Ρ‹Π΄Π°Π½ ΠΊΡ€Π΅Π΄ΠΈΡ‚. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Π½Π°Ρ€Π°Π²Π½Π΅ с Π”ΠΆΠΈΠ½ΠΈ Π½ΡƒΠΆΠ½Ρ‹ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ β€” ΠΎ Π½ΠΈΡ… дальшС.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

О расчСтС коэффициСнта Π”ΠΆΠΈΠ½ΠΈ для Π½Π΅Π±ΠΈΠ½Π°Ρ€Π½Ρ‹Ρ… Ρ†Π΅Π»Π΅Π²Ρ‹Ρ… событий см. Π² ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΈΠ· Ρ†ΠΈΠΊΠ»Π° ΠΏΡ€ΠΎ риск-ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ([3]).

Если Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ Π½Π΅ сбалансированы, Ρ‚ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΈΠ½Ρ‚Π΅Ρ€Π²Π°Π»ΡŒΠ½Π°Ρ ΠΎΡ†Π΅Π½ΠΊΠ° с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ‚Π΅Ρ…Π½ΠΈΠΊΠΈ бутстрэп. На основС исходной Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ гСнСрируСтся B (

1000 ΠΈ Π±ΠΎΠ»Π΅Π΅) ΠΏΠΎΠ΄Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ, для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΠ· ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… рассчитываСтся коэффициСнт Π”ΠΆΠΈΠ½ΠΈ. Π—Π°Ρ‚Π΅ΠΌ провСряСтся, Ρ‡Ρ‚ΠΎ Π·Π°Π΄Π°Π½Π½Ρ‹ΠΉ Π·Π°Ρ€Π°Π½Π΅Π΅ ΠΏΠ΅Ρ€Ρ†Π΅Π½Ρ‚ΠΈΠ»ΡŒ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½ΠΎΠ³ΠΎ распрСдСлСния Π½Π΅ пСрСсСкаСт фиксированный ΠΏΠΎΡ€ΠΎΠ³ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Ссли 2.5% ΠΏΠ΅Ρ€Ρ†Π΅Π½Ρ‚ΠΈΠ»ΡŒ распрСдСлСния коэффициСнтов Π”ΠΆΠΈΠ½ΠΈ мСньшС 30%, Ρ‚ΠΎ ΠΏΠΎ тСсту ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ выставлСна ΠΎΡ†Π΅Π½ΠΊΠ° Π² Π²ΠΈΠ΄Π΅ красного сигнала).

Однако Ρ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΏΠΎΠ΄Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ бутстрэпа – Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ слоТная Π·Π°Π΄Π°Ρ‡Π°, которая ΠΌΠΎΠΆΠ΅Ρ‚ Π·Π°Π½ΡΡ‚ΡŒ Π΄Π»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ врСмя. Π‘ Ρ†Π΅Π»ΡŒΡŽ Π΅Π΅ ускорСния ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ пуассоновский бутстрэп.

Π˜Π·Π²Π»Π΅Ρ‡Π΅Π½ΠΈΠ΅ с ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π΅Π½ΠΈΠ΅ΠΌ элСмСнтов Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° n с фиксированной Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСниямоТно Π·Π°ΠΌΠ΅Π½ΠΈΡ‚ΡŒ Π½Π° сэмплированиС с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ биномиального распрСдСлСния валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСниячастот появлСния ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ элСмСнта Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ. ΠŸΡ€ΠΈ условии достаточно большого Ρ€Π°Π·ΠΌΠ΅Ρ€Π° Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ выполняСтся ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ ΠΎΡ‚ биномиального распрСдСлСния ΠΊ пуассоновскому [4]:

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

2. ΠžΡ†Π΅Π½ΠΊΠ° ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ

ΠœΡ‹ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π»ΠΈ модСль, ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΈΠ»ΠΈ Π΅Π΅ Π΄ΠΈΡΠΊΡ€ΠΈΠΌΠΈΠ½Π°Ρ†ΠΈΠΎΠ½Π½ΡƒΡŽ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ, Π·Π°Π΄Π΅ΠΏΠ»ΠΎΠΈΠ»ΠΈ, Π½ΠΎ спустя нСсколько мСсяцСв ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΠΈ нашСй ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡƒΡ…ΡƒΠ΄ΡˆΠΈΠ»ΠΈΡΡŒ. ПослС выяснСния ΠΏΡ€ΠΈΡ‡ΠΈΠ½ оказалось, Ρ‡Ρ‚ΠΎ для обучСния Π±Ρ‹Π»ΠΈ ΠΎΡ‚ΠΎΠ±Ρ€Π°Π½Ρ‹ Π½Π΅Ρ€Π΅ΠΏΡ€Π΅Π·Π΅Π½Ρ‚Π°Ρ‚ΠΈΠ²Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅. ВСрнСмся Π½Π°Π·Π°Π΄ Π²ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ, ΠΏΠΎΠΏΡ€ΠΎΠ±ΡƒΠ΅ΠΌ ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‚ΠΈΡ‚ΡŒ Ρ‚Π°ΠΊΡƒΡŽ ΡΠΈΡ‚ΡƒΠ°Ρ†ΠΈΡŽ ΠΈ Π΄ΠΎΠ±Π°Π²ΠΈΠΌ Π΅Ρ‰Π΅ ΠΎΠ΄ΠΈΠ½ Π±Π»ΠΎΠΊ Π² ΠΎΡ‚Ρ‡Π΅Ρ‚ ΠΎ Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ: ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Π³Π΄Π΅: валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния— доля наблюдСний с i-ΠΌ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠΌ Ρ„Π°ΠΊΡ‚ΠΎΡ€Π°; валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния— количСство наблюдСний, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… i-ΠΌΡƒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΡŽ Ρ„Π°ΠΊΡ‚ΠΎΡ€Π°; валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния— ΠΎΠ±Ρ‰Π΅Π΅ количСство наблюдСний Π² Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ ( валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния— валидационная Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°, валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния— Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ). (Если Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΠΏΠΎΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ, Π² ΠΊΠ°ΠΊΠΈΡ… случаях Π΅Ρ‰Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ PSI, см. Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΡΡ‚Π°Ρ‚ΡŒΡŽ ΠΏΡ€ΠΎ ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹ LGD ΠΈΠ· Ρ†ΠΈΠΊΠ»Π° ΠΏΡ€ΠΎ риск-ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ [3].)

Один ΠΈΠ· способов ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚Π°Ρ†ΠΈΠΈ PSI – Ρ‡Π΅Ρ€Π΅Π· Π΄ΠΈΠ²Π΅Ρ€Π³Π΅Π½Ρ†ΠΈΡŽ ΠšΡƒΠ»ΡŒΠ±Π°ΠΊΠ°β€“Π›Π΅ΠΉΠ±Π»Π΅Ρ€Π° [5], ΠΌΠ΅Ρ€Ρƒ удалСнности Π΄Π²ΡƒΡ… распрСдСлСний P ΠΈ Q:

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

ΠœΠ΅Ρ€Π° нСсиммСтрична (валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния) ΠΈ ΠΈΠ· Π΄Π²ΡƒΡ… срСзов Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΡ‹ Π½Π΅ ΠΌΠΎΠΆΠ΅ΠΌ Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ Π°ΠΏΡ€ΠΈΠΎΡ€Π½ΠΎΠ΅ распрСдСлСниС, с ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚ΡŒΡΡ сравнСниС, поэтому для симмСтричности ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ сумму Π΄Π²ΡƒΡ… ΠΌΠ΅Ρ€ ΠΎΡ‚ P Π΄ΠΎ Q ΠΈ ΠΎΡ‚ Q Π΄ΠΎ P:

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Когда ΠΌΡ‹ ΡƒΠ±Π΅Π΄ΠΈΠ»ΠΈΡΡŒ Π² ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π½Π°Π΄ΠΎ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ ΡƒΠ²Π΅Ρ€Π΅Π½Π½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² сформированных ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·Π°Ρ… соотвСтствуСт ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΡƒΠ΅ΠΌΡ‹ΠΌ значСниям Ρ†Π΅Π»Π΅Π²ΠΎΠ³ΠΎ события. Для этого примСняСтся ΠΊΠ°Π»ΠΈΠ±Ρ€ΠΎΠ²ΠΊΠ°. Π—Π΄Π΅ΡΡŒ ΠΌΡ‹ ΠΊΡ€Π°Ρ‚ΠΊΠΎ остановимся Π½Π° Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊ ΠΎΠ½Π° Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚, подробности Π±ΡƒΠ΄ΡƒΡ‚ описаны Π² ΡΡ‚Π°Ρ‚ΡŒΠ΅, которая Π²Ρ‹ΠΉΠ΄Π΅Ρ‚ Ρ‡ΡƒΡ‚ΡŒ ΠΏΠΎΠ·ΠΆΠ΅ (stay tuned).

МодСль считаСтся Ρ…ΠΎΡ€ΠΎΡˆΠΎ ΠΎΡ‚ΠΊΠ°Π»ΠΈΠ±Ρ€ΠΎΠ²Π°Π½Π½ΠΎΠΉ, Ссли фактичСский ΡƒΡ€ΠΎΠ²Π΅Π½ΡŒ Ρ†Π΅Π»Π΅Π²ΠΎΠ³ΠΎ события (доля наблюдСний с фактичСским Ρ†Π΅Π»Π΅Π²Ρ‹ΠΌ событиСм = 1) Π±Π»ΠΈΠ·ΠΎΠΊ ΠΊ срСднСй ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΈΡ€ΡƒΠ΅ΠΌΠΎΠΉ модСлью вСроятности. Для ΠΎΡ†Π΅Π½ΠΊΠΈ качСства ΠΊΠ°Π»ΠΈΠ±Ρ€ΠΎΠ²ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΡΡ‚ΡŒ ΠΏΠΎΠΏΠ°Π΄Π°Π½ΠΈΠ΅ наблюдаСмого уровня Ρ†Π΅Π»Π΅Π²ΠΎΠ³ΠΎ события Π² Π΄ΠΎΠ²Π΅Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΈΠ½Ρ‚Π΅Ρ€Π²Π°Π» прСдсказанных модСлью вСроятностСй Ρ†Π΅Π»Π΅Π²ΠΎΠ³ΠΎ события: Π² Ρ†Π΅Π»ΠΎΠΌ ΠΏΠΎ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ»ΠΈ Π² Ρ€Π°ΠΌΠΊΠ°Ρ… Π±Π°ΠΊΠ΅Ρ‚ΠΎΠ² прСдсказанной вСроятности.

ΠŸΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ тСстов ΠΈ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ:

Для провСдСния биномиального тСста Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½ всСх вСроятностСй Ρ†Π΅Π»Π΅Π²ΠΎΠ³ΠΎ события разбиваСтся Π½Π° Π±Π°ΠΊΠ΅Ρ‚Ρ‹ ΠΏΠΎ принятой Π² финансовой ΠΎΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ шкалС (мастСр-шкалС) ΠΈΠ»ΠΈ ΠΏΠΎ пСрцСнтилям. Для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π±Π°ΠΊΠ΅Ρ‚Π° рассчитываСтся Π΄ΠΎΠ²Π΅Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΈΠ½Ρ‚Π΅Ρ€Π²Π°Π» ΠΏΠΎ прСдсказаниям ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ опрСдСляСтся, ΠΏΠΎΠΏΠ°Π΄Π°Π΅Ρ‚ Π»ΠΈ фактичСский ΡƒΡ€ΠΎΠ²Π΅Π½ΡŒ Π΄Π΅Ρ„ΠΎΠ»Ρ‚Π° Π² Π΄ΠΎΠ²Π΅Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΈΠ½Ρ‚Π΅Ρ€Π²Π°Π».

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Для формирования ΠΈΡ‚ΠΎΠ³ΠΎΠ²ΠΎΠ³ΠΎ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΎ стратСгии взаимодСйствия с ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠΌ ΠΌΠΎΠΆΠ΅Ρ‚ Π²ΠΎΠ·Π½ΠΈΠΊΠ½ΡƒΡ‚ΡŒ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡ‚ΡŒ разряд ΠΏΠΎ Π·Π°Ρ€Π°Π½Π΅Π΅ Π·Π°Π΄Π°Π½Π½ΠΎΠΉ шкалС Π½Π° основС значСния вСроятности Π΄Π΅Ρ„ΠΎΠ»Ρ‚Π°, спрогнозированного модСлью. Π’ Ρ‚Π°ΠΊΠΎΠΌ случаС стоит ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π² распрСдСлСнии наблюдСний ΠΏΠΎ разрядам Ρ€Π΅ΠΉΡ‚ΠΈΠ½Π³ΠΎΠ²ΠΎΠΉ ΡˆΠΊΠ°Π»Ρ‹ отсутствуСт пСрСкос. Π˜Π½Ρ‹ΠΌΠΈ словами, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‚ΠΈΡ‚ΡŒ ΠΏΠΎΠΏΠ°Π΄Π°Π½ΠΈΠ΅ Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π° всСх наблюдСний Π² ΠΎΠ΄ΠΈΠ½-Π΄Π²Π° разряда ΠΈΠ· всСго Π½Π°Π±ΠΎΡ€Π°.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Для ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ ΠΊΠΎΠ½Ρ†Π΅Π½Ρ‚Ρ€Π°Ρ†ΠΈΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ индСкс Π₯Срфиндаля–Π₯ΠΈΡ€ΡˆΠΌΠ°Π½Π° ΠΊΠ°ΠΊ Π² Ρ†Π΅Π»ΠΎΠΌ ΠΏΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, Ρ‚Π°ΠΊ ΠΈ Π² Ρ€Π°Π·Ρ€Π΅Π·Π΅ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… сСгмСнтов.

РассчитываСтся ΠΏΠΎ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π΅:

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Подводя ΠΈΡ‚ΠΎΠ³ этого Ρ€Π°Π·Π΄Π΅Π»Π°, ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅ΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ²Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ классификации ΠΈ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΈΠΌ риск-Π·ΠΎΠ½Ρ‹. Π’ Ρ‚Π°Π±Π»ΠΈΡ†Π΅ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ ΡƒΠΊΠ°Π·Π°Π½Ρ‹ ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ²Ρ‹Π΅ значСния риск-Π·ΠΎΠ½.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

ΠœΡ‹ пСрСчислили тСсты, ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠΌΡ‹Π΅ ΠΊ модСлям Π² Ρ€Π°Π·Π½Ρ‹Ρ… Π΄ΠΎΠΌΠ΅Π½Π½Ρ‹Ρ… областях. Но ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΎΡ‚Ρ€Π°ΠΆΠ°ΡŽΡ‚ спСцифику ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Π°. НапримСр, ΠΏΡ€ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΎΠ½Π½Ρ‹Ρ… рисков ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ установлСно Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½ΠΈΠ΅, связанноС с пропускной ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒΡŽ подраздСлСния, проводящСго расслСдования ΠΏΠΎ ΠΏΡ€ΠΈΠ·Π½Π°Π½Π½Ρ‹ΠΌ модСлью ΠΏΠΎΠ΄ΠΎΠ·Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ наблюдСниям. ПослС Ρ‚ΠΎΠ³ΠΎ ΠΊΠ°ΠΊ модСль присвоила скоры всСм ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡΠΌ, Ρ‚ΠΎΠΏ 1% ΠΈΠ»ΠΈ 5% ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ ΠΏΠΎ скору пСрСдаСтся для ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ Ρ‚Π°ΠΊΠΎΠΌΡƒ ΠΏΠΎΠ΄Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΡŽ, Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΠΈ Π½Π΅ Π±ΡƒΠ΄ΡƒΡ‚ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΡΡ‚ΡŒΡΡ. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ максимальноС число ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² с y_true=1 ΠΏΠΎΠΏΠ°Π»ΠΈ Π² Ρ‚ΠΎΠΏ 1% ΠΈΠ»ΠΈ Ρ‚ΠΎΠΏ 5%.

Π’Π°ΠΊΠΆΠ΅ для ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ прСдусмотрСны спСцифичСскиС тСсты. НапримСр, для LGD-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Loss Shortfall.

Loss Shortfall – ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰Π°Ρ, насколько ΠΏΠΎΡ‚Π΅Ρ€ΠΈ ΠΎΡ‚ фактичСского Π΄Π΅Ρ„ΠΎΠ»Ρ‚Π° оказались Π½ΠΈΠΆΠ΅, Ρ‡Π΅ΠΌ Π±Ρ‹Π»ΠΎ прСдсказано модСлью (ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΠ° расчСта описана Π² [3]). По шкалС выставлСния ΠΎΡ†Π΅Π½ΠΊΠΈ для ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ Loss Shortfall Π²ΠΈΠ΄Π½ΠΎ (см. рисунок Π½ΠΈΠΆΠ΅), Ρ‡Ρ‚ΠΎ ΠΎΡ†Π΅Π½ΠΊΠ° риска Π² Π΄Π°Π½Π½ΠΎΠΌ случаС производится консСрвативно, модСль считаСтся Ρ…ΠΎΡ€ΠΎΡˆΠ΅ΠΉ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π² Ρ‚Π΅Ρ… случаях, ΠΊΠΎΠ³Π΄Π° прСдсказанныС ΠΏΠΎΡ‚Π΅Ρ€ΠΈ Π²Ρ‹ΡˆΠ΅, Ρ‡Π΅ΠΌ Π½Π°Π±Π»ΡŽΠ΄Π°Π΅ΠΌΡ‹Π΅.

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

ΠšΠ°Ρ‡Π΅ΡΡ‚Π²Π΅Π½Π½Ρ‹Π΅ тСсты

НС всС аспСкты качСства ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ количСствСнно, поэтому вмСстС с Π½ΠΈΠΌΠΈ ΠΏΡ€ΠΈ Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ качСствСнныС тСсты. Π§Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΡΡ‚ΡŒ с ΠΈΡ… ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ?

1. ΠšΠ°Ρ‡Π΅ΡΡ‚Π²ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ†ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Для обСспСчСния воспроизводимости ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠ° Ρ…ΠΎΡ€ΠΎΡˆΠ°Ρ докумСнтация.

ΠžΡ†Π΅Π½ΠΈΡ‚ΡŒ качСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ†ΠΈΠΈ ΠΌΠΎΠΆΠ½ΠΎ, ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠ², насколько Ρ…ΠΎΡ€ΠΎΡˆΠΎ Π·Π°Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Ρ‹:

2. Π”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΈΡ‚ΡŒ качСство ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΈ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ Π΄Π°Π½Π½Ρ‹Ρ…:

Π—Π°ΠΊΠ°Π·Ρ‡ΠΈΠΊ ΠΌΠΎΠΆΠ΅Ρ‚ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π·Π°ΠΏΡ€ΠΎΡΠΈΡ‚ΡŒ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚Π°Ρ†ΠΈΡŽ ΠΌΠΎΠ΄Π΅Π»ΠΈ: Ссли это рСгрСссионная модСль, Ρ‚ΠΎ коэффициСнты Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ²; Ссли decision tree/decision list, Ρ‚ΠΎ Π½Π°Π±ΠΎΡ€ ΠΏΡ€Π°Π²ΠΈΠ»; Ссли Π±ΠΎΠ»Π΅Π΅ слоТныС ΠΌΠΎΠ΄Π΅Π»ΠΈ, Ρ‚ΠΎ ΠΎΡ‚Ρ‡Π΅Ρ‚ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚Π°Ρ‚ΠΎΡ€ΠΎΠ² SHAP/LIME.

Π­Ρ‚Π° информация ΠΏΠΎΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΡ€ΠΎΠΉΡ‚ΠΈ ΠΏΡ€ΠΈΠ΅ΠΌΠΊΡƒ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ наглядно ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ всС Π²Π°ΠΆΠ½Ρ‹Π΅ Ρ„ΠΈΡ‡ΠΈ, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… модСль Π΄Π΅Π»Π°Π΅Ρ‚ Π²Ρ‹Π²ΠΎΠ΄Ρ‹, ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½Ρ‹ бизнСс-Π»ΠΎΠ³ΠΈΠΊΠΎΠΉ.

Model performance predictor (MPP)

Π’ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ… Π±Ρ‹Π²Π°Π΅Ρ‚ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ события, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΎΠΈΠ·ΠΎΠΉΠ΄ΡƒΡ‚ спустя мСсяцы. НапримСр, ΠΊΠ»ΠΈΠ΅Π½Ρ‚ Π½Π΅ Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚ свои ΠΎΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΡΡ‚Π²Π° ΠΏΠΎ ΠΊΡ€Π΅Π΄ΠΈΡ‚Π½ΠΎΠΌΡƒ Π΄ΠΎΠ³ΠΎΠ²ΠΎΡ€Ρƒ Π² Ρ‚Π΅Ρ‡Π΅Π½ΠΈΠ΅ Π³ΠΎΠ΄Π°. Из-Π·Π° этого Π»Π°Π³Π° Π²ΠΎΠ·Π½ΠΈΠΊΠ°Π΅Ρ‚ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ°: ΠΊΠ°ΠΊ ΠΏΠΎΠ½ΡΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ модСль стала Ρ…ΡƒΠΆΠ΅ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ, Π΄ΠΎ Ρ‚ΠΎΠ³ΠΎ ΠΊΠ°ΠΊ ΠΌΡ‹ смоТСм ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ это, Π΄ΠΎ получСния фактичСских Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Ρ†Π΅Π»Π΅Π²ΠΎΠ³ΠΎ события?

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Ρ‚Π°ΠΊΠΎΠΉ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ наряду с основной строится Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ модСль β€” Model Performance Predictor (MPP) [6].

Π‘Ρ…Π΅ΠΌΠ° обучСния MPP-ΠΌΠΎΠ΄Π΅Π»ΠΈ

валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. Π€ΠΎΡ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния

Для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ MPP-ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ тСстовая Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° основной ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π¨Π°Π³ΠΈ ΠΏΠΎ ΠΏΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΡŽ MPP-ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Π—Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅

Π’ Π·Π°Π²Π΅Ρ€ΡˆΠ΅Π½ΠΈΠ΅ сформулируСм ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΡ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π³Π°Ρ€Π°Π½Ρ‚ΠΈΡ€ΡƒΡŽΡ‚, Ρ‡Ρ‚ΠΎ валидация ΠΌΠΎΠ΄Π΅Π»ΠΈ Π±ΡƒΠ΄Π΅Ρ‚ эффСктивна:

Π‘ΠΈΠ½Π°Ρ€Π½ΠΎΠ΅ Ρ†Π΅Π»Π΅Π²ΠΎΠ΅ событиС:

ВСстБлокВиды тСстирования ΠΏΠΎ ΡƒΡ€ΠΎΠ²Π½ΡŽ «модСль/Ρ„Π°ΠΊΡ‚ΠΎΡ€Β»Π”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΡƒΡ€ΠΎΠ²Π½ΠΈ тСстирования
Π”ΠΆΠΈΠ½ΠΈ индСкс: Π°Π±ΡΠΎΠ»ΡŽΡ‚Π½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠŸΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒΠ½Π°Ρ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ / Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ²ΠŸΠΎ всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ / Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ сСгмСнтов
ВСст ΠšΠΎΠ»ΠΌΠΎΠ³ΠΎΡ€ΠΎΠ²Π°β€“Π‘ΠΌΠΈΡ€Π½ΠΎΠ²Π°ΠŸΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒΠ½Π°Ρ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ модСлиПо всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ / Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ сСгмСнтов
IVΠŸΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒΠ½Π°Ρ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ²ΠŸΠΎ всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ / Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ сСгмСнтов
ВСст Ρ…ΠΈ-ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠšΠ°Π»ΠΈΠ±Ρ€ΠΎΠ²ΠΊΠ°ΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ модСлиПо всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅
Π‘ΠΈΠ½ΠΎΠΌΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΉ Ρ‚Π΅ΡΡ‚ΠšΠ°Π»ΠΈΠ±Ρ€ΠΎΠ²ΠΊΠ°ΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ модСлиПо всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅
Π”ΠΆΠΈΠ½ΠΈ индСкс: ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅Π‘Ρ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈΠΠ±ΡΠΎΠ»ΡŽΡ‚Π½ΠΎΠ΅ / ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅Π³ΠΎ срСза
PSIΠ‘Ρ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ / Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ²ΠŸΠΎ всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ / Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ сСгмСнтов
ВСст ΠšΠΎΠ»ΠΌΠΎΠ³ΠΎΡ€ΠΎΠ²Π°β€“Π‘ΠΌΠΈΡ€Π½ΠΎΠ²Π°Π‘Ρ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ²ΠŸΠΎ всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ / Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ сСгмСнтов
ИндСкс Π₯Срфиндаля–Π₯ΠΈΡ€ΡˆΠΌΠ°Π½Π°ΠšΠΎΠ½Ρ†Π΅Π½Ρ‚Ρ€Π°Ρ†ΠΈΡΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ модСлиПо всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ / Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ сСгмСнтов
VIFΠ”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ² для Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… модСлСйПо всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅
ΠŸΠ°Ρ€Π½Π°Ρ ΠΊΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡΠ”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ² для Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… модСлСйПо всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅
Π—Π½Π°Ρ‡ΠΈΠΌΠΎΡΡ‚ΡŒ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ² (p-value)Π”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ² для Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… модСлСйПо всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅
ВСстБлокВиды тСстирования ΠΏΠΎ ΡƒΡ€ΠΎΠ²Π½ΡŽ «модСль/Ρ„Π°ΠΊΡ‚ΠΎΡ€Β»Π”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΡƒΡ€ΠΎΠ²Π½ΠΈ тСстирования
Π”ΠΆΠΈΠ½ΠΈ индСкс (Loss Capture Ratio): Π°Π±ΡΠΎΠ»ΡŽΡ‚Π½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠŸΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒΠ½Π°Ρ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ / Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ²ΠŸΠΎ всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ / Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ сСгмСнтов
ΠšΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡ Π‘ΠΏΠΈΡ€ΠΌΠ΅Π½Π°: Π°Π±ΡΠΎΠ»ΡŽΡ‚Π½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠŸΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒΠ½Π°Ρ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ / Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ²ΠŸΠΎ всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ / Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ сСгмСнтов
MAEΠšΠ°Π»ΠΈΠ±Ρ€ΠΎΠ²ΠΊΠ°ΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ модСлиПо всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅
ВСст ΠœΠ°Π½Π½Π°β€“Π£ΠΈΡ‚Π½ΠΈΠšΠ°Π»ΠΈΠ±Ρ€ΠΎΠ²ΠΊΠ°ΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ модСлиПо всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅
Π”ΠΆΠΈΠ½ΠΈ индСкс (Loss Capture Ratio): ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅Π‘Ρ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈΠΠ±ΡΠΎΠ»ΡŽΡ‚Π½ΠΎΠ΅ / ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅Π³ΠΎ срСза
ΠšΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡ Π‘ΠΏΠΈΡ€ΠΌΠ΅Π½Π°: ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅Π‘Ρ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈΠΠ±ΡΠΎΠ»ΡŽΡ‚Π½ΠΎΠ΅ / ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅Π³ΠΎ срСза
PSIΠ‘Ρ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ / Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ²ΠŸΠΎ всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ / Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ сСгмСнтов
ВСст ΠšΠΎΠ»ΠΌΠΎΠ³ΠΎΡ€ΠΎΠ²Π°β€“Π‘ΠΌΠΈΡ€Π½ΠΎΠ²Π°Π‘Ρ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ²ΠŸΠΎ всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ / Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ сСгмСнтов
VIFΠ”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ² для Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… модСлСйПо всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅
ΠŸΠ°Ρ€Π½Π°Ρ ΠΊΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡΠ”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ² для Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… модСлСйПо всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅
Π—Π½Π°Ρ‡ΠΈΠΌΠΎΡΡ‚ΡŒ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ² (p-value)Π”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΠ° ΡƒΡ€ΠΎΠ²Π½Π΅ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ² для Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… модСлСйПо всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅

ΠœΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π» ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΈΠ»ΠΈ: Илья Могильников (EienKotowaru), АлСксандр Π‘ΠΎΡ€ΠΎΠ΄ΠΈΠ½ (abv_gbc)

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ ΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΉ

Π’Π°Ρˆ адрСс email Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½. ΠžΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ поля ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Ρ‹ *