какой критерий используется для проверки моделей на адекватность
Проверка адекватности регрессионной модели и значимости показателей тесноты корреляционной связи
Информация, содержащаяся в эмпирических данных, извлекается с большей полнотой, чем полученная традиционными методами описательной статистики, и, что самое важное, может быть представлена с разных точек зрения. Тем самым перед исследователем открывается обширная область для теоретических выводов, формирования новых представлений и гипотез.
Особое внимание необходимо обратить на интерпретацию и оценку параметров уравнения. Параметры уравнения регрессии следует проверить на их значимость.
Для того чтобы получить оценку значимости коэффициентов регрессии при линейной зависимости у от х, и х2, используют t-кри- терий Стьюдента.
Значимость коэффициентов линейного уравнения регрессии а0 и ах оценивается с помощью ^-критерия Стьюдента (п /табл с уровнем значимости 0,05 и числом степеней свободы (п-т- 1).
Уравнение признают окончательным и применяют в качестве модели изучаемого показателя для последующего анализа в том случае, если в данном уравнении все коэффициенты регрессии значимы.
Показатели множественной регрессии и корреляции могут оказаться подверженными действию случайных факторов, поэтому только после проверки адекватности уравнения оно может быть пригодно.
Прежде всего, следует установить, соответствуют ли полученные данные тем гипотетическим представлениям, которые сложились в результате анализа, и показывают ли они причинно-следственные связи, которые ожидались. Для оценки адекватности модели можно вычислить отклонение теоретических данных от эмпирических, остаточную дисперсию, а также ошибку аппроксимации, которая определяется по формуле:
1) для однофакторной регрессионной модели:
2) для многофакторной регрессионной модели:
Общая оценка адекватности уравнения может быть получена с помощью дисперсионного F-критерия Фишера, на основании которого проводят проверку значимости регрессии:
1) для однофакторной регрессионной модели:
где т — число параметров в уравнении регрессии; п — число единиц наблюдения;
2) для многофакторной регрессионной модели:
Считается, что влияние факторного признака статистически существенно, для принятого уровня значимости 0,05 или 0,01, если Fp (расчетное) > FT (табличное), то влияние факторного признака считается существенным и данное уравнение регрессии будет статистически значимым.
FT зависит от трех параметров:
FT определяется по таблице критических значений критерия Фишера.
Вернемся к примеру 10.1.
Проведем оценку адекватности регрессионной модели:
выражающей зависимость между производительностью труда и выполнением плана реализации, с помощью F-критерия Фишера:
Эмпирическое значение Fбольше табличного, следовательно, уравнение регрессии можно признать адекватным.
Оценим значимость параметров уравнения регрессии с помощью /-критерия Стьюдента:
Значимость коэффициента корреляции оценим с помощью /-критерия Стьюдента по формуле
Эмпирическое значение / больше табличного, следовательно, коэффициент корреляции можно признать значимым.
Вычислим ошибку аппроксимации по формуле
На основании данных расчетов можно сделать заключение, что построенная регрессионная модель зависимости производительности труда от выполнения плана реализации может быть использована для анализа и прогноза.
Итак, в общем виде многообразие видов регрессионных моделей порождается формой связи изучаемых признаков (линейной или нелинейной) и представлениями о распределении остатков (ошибки, шума) модели. Кроме того, модели более высокого уровня включают не одно, а систему регрессионных уравнений. Поиск решений для множества моделей приводит исследователя к задаче преобразования этих моделей и получения форм с хорошо известными и реализуемыми алгоритмами оценивания, как, например, в описанном выше случае с нелинейными моделями. Реформирование моделей производится при помощи трансформационных изменений переменных (отклика предикторов) или введением особых ограничений на признаковые или параметрические значения.
Благодаря своей разработанности и гибкости метод регрессионного анализа в настоящее время широко распространен в аналитической практике. Он становится также неотъемлемой частью или обычным логическим дополнением многих методов многомерной статистики в факторном, дискриминантном анализе, методе канонических корреляций, многомерном шкалировании, кластерном анализе и т. д.
Дальнейшее развитие теории регрессионного анализа, прежде всего, видится в разработке новых нелинейных форм, позволяющих с высокой степенью адекватности описывать реальные процессы, расклассификации многочисленных регрессионных моделей и методов их решения, ориентированной на конкретные группы исследовательских задач, определении перспектив использования регрессионного анализа в сочетании с другими методами статистического анализа.
Пример 10.3. По территории регионов имеются следующие данные:
Прожиточный min в день одного трудоспособного, руб.
Среднедневная заработная плата, руб.
Проверка адекватности модели.
Модель, является адекватной, если она соответствует имеющимся экспериментальным данным. Здесь слово «соответствует» означает, что выбор более сложной модели не приведет к улучшению ее прогнозирующих свойств: существующая модель достаточна. При увеличении количества экспериментальных данных может случиться так, что модель утратит адекватность и возникнет необходимость ее усложнения.
Проверка адекватности сводится к сравнению погрешностей предсказания модели и погрешностей эксперимента. Если эти два вида погрешностей соизмеримы, то можно предполагать, что модель адекватна.
Погрешность предсказания характеризуется оценкой остаточной дисперсии а|:
Однако, как правило, Gg неизвестна. Тогда необходимо оценить дисперсию воспроизводимости отклика G 2 :
где N(n-l) = mB — число степеней свободы оценки дисперсии воспроизводимости; N — число опытов; п — число параллельных наблюдений в каждом опыте; уц — отклик при опыте; и наблюдении I; у; — среднее
по наблюдениям в опыте;, у,- = — У у<.
Модель адекватна, если отношение F = которое имеет распреде-
ление Фишера, не превышает критического значения Fa> m :
Проверка значимости коэффициентов регрессии.
Полученные в регрессионном анализе коэффициенты является функцией случайных результатов опыта, поэтому необходимо проверять их значимость. Если некоторый коэффициент bt значим, то можно утверждать, что фактор xt действительно влияет на отклику. Конечно, такое утверждение предполагает, что с вероятностью, равной уровню значимости а, возможна ошибка 1-го рода. Проверка значимости осуществляется посредством вычисления величины t< по уравнению
Если же мы знаем то вместо критерия t< следует пользоваться критерием
имеющим нормальное распределение.
Пусть отклику линейно зависит от факторов хг и х2. Исходные данные для проведения регрессионного анализа приведены в табл. 1.7. Пусть, кроме того, известно, что o^j = 1.
Значения переменных и отклики в 10 опытах
Таким образом, имеем Вычисляем:
После этого находим
Таким образом, b0 = 9,39; Ьг = 0,13; Ъ2 = 0,61, и уравнение регрессии имеет вид Формула (1.63) позволяет теперь рассчитать оценку дисперсии ошибок 6|:
При расчете были использованы табл. 1.7 и уравнение регрессии (1.72). Теперь проверим адекватность модели (1.68), используя критерий % [1] :
Критическое значение Хо,о5-,7 = 14,1.
Поскольку х [1] то модель (1.68) является адекватной.
Следующим шагом является проверка значимости коэффициентов регрессии. Ввиду того что значение известно, воспользуемся критерием (1.67): I Ь I
(1.69). Вычисления дают:
Мы видим, что значимым является только коэффициент b0 (и0 > иа). Повторное обращение к таблицам показывает, что коэффициент Ъ2 можно считать значимым только при а = 0,1 (что соответствует доверительной вероятности 0,90). Коэффициент Ъг незначим при любых разумных значениях а. При малом числе экспериментальных точек незначимость коэффициентов регрессии является обычным делом. Поэтому для практических целей надо брать объем выборки не менее нескольких десятков.
им. Н. Э. Баумана. Регрессионный подход обеспечивает возможность построения трактов обработки информации в реальном времени, обладающих свойствами робастности и непараметричности. Инвариантность к неинформативным параметрам сигналов допускает адаптацию этих систем к конкретным условиям применения. В дискретно-аналоговых регрессионных системах обнаружение и распознавание случайных процессов может проводиться при использовании нейросетевой технологии обработки интервалов между нулями входных реализаций. Те же системы, основываясь на обработке огибающих входных реализаций, могут обеспечивать распознавание случайных процессов по форме спектра. Регрессионные принципы лежат в основе построения различных, в том числе адаптивных систем обнаружения и распознавания радиосигналов, а также многоканальной пеленгации локализованных источников широкополосных и узкополосных излучений.
Проверка адекватности модели
Адекватность моделей определялась с помощью критерия Фишера F.
Два основных подхода к оценке адекватности:
1) по средним значениям откликов модели и системы
Проверяется гипотеза о близости средних значений каждой n-й компоненты откликов модели Yn известным средним значениям n-й компоненты откликов реальной систем.
2) по дисперсиям отклонений откликов модели от среднего значения откликов систем
Статистика теста так или иначе сводится к отношению выборочных дисперсий (сумм квадратов, деленных на «степени свободы»). Чтобы статистика имела распределение Фишера необходимо, чтобы числитель и знаменатель были независимыми случайными величинами и соответствующие суммы квадратов имели распределение Хи-квадрат. Для этого требуется, чтобы данные имели нормальное распределение. Кроме того, предполагается, что дисперсия случайных величин, квадраты которых суммируются, одинакова.
Расчетный критерий Фишера:
Расчетное значение критерия Фишера FN сравнивается с табличным FТ.
Если расчетное значение критерия меньше критического то модель адекватна.
Анализ результатов эксперимента показал, что Fн>Fк, следовательно, модель не адекватна. Необходимо провести повторный эксперимент.
В ОБЩЕМ СЛУЧАЕ МОДЕЛЬ БУДЕТ ИМЕТЬ ВИД:
Проверка адекватности и корректировка модели.
Адекватность означает совпадение исследуемых свойств системы (параметров, выходных характеристик и т.д.) и соответствующих свойств модели. Естественно, полного совпадения реальной системы и ее модели достичь не удается, речь идет лишь о требуемой степени совпадения, т.е. определении, насколько точно полученные результаты моделирования отражают истинное состояние системы-оригинала. В целом можно говорить об адекватности модели оригиналу, если поведение модели достаточно точно совпадает с поведением моделируемой системы в одинаковых ситуациях и модель убедительно представлена относительно тех свойств системы, которые прогнозируются с помощью модели. Оценка адекватности модели заключается в проверке степени совпадения модели и реальной системы.
Нарушение адекватности модели может определяться многими факторами, которые можно отнести к одной из двух групп. Первая группа факторов, порождающих так называемую случайную погрешность, обусловлена некоторой неопределенностью постановки задачи, связанной с неполнотой исходной информации, отсутствием точных сведений о внешних воздействиях, пренебрежением некоторыми случайными параметрами. Вторая группа факторов, порождающая систематические погрешности, является следствием принятых допущений и ограничений при разработке концептуальной и математической модели — исключение тех или иных параметров, аппроксимация, интерполяция, предположения и гипотезы, замена нелинейных элементов линейными, идеализация режимов функционирования системы и т.д.
Первый этап оценки адекватности заключается в проведении следующих проверок:
На данном этапе осуществляется предварительная проверка адекватности модели, позволяющая выявить ее грубые ошибки. Для этой проверки рекомендуется привлекать экспертов, не принимавших участия в разработке модели.
После завершения предварительного этапа оценки адекватности приступают к проведению дальнейших исследований. При этом может быть реализован прямой метод проверки адекватности, подразумевающий проведение натурного эксперимента на реальной системе и позволяющий получить истинные значения показателей системы. Однако натурный эксперимент возможен лишь в случае, когда речь идет о модернизации существующих систем или о вновь создаваемых, находящихся на материальных стадиях их жизненного цикла. Проверка адекватности в этом случае имеет очень высокую степень определенности. Для оценки близости результатов в этом методе могут быть использованы средние значения отклонений характеристик, полученных в системе и в модели:
где г/0 — значение некоторой характеристики системы; угп — значение той же характеристики модели; 5/у — отклонение значений рассматриваемой характеристики.
В этом случае за критерий адекватности модели можно принять вероятность того, что отклонение 5у не превышает заданной величины Д с вероятностью больше допустимой вероятности Рд: