Поиск по сайту:
Главная страница » Каталог статей » Статьи о средствах измерений » Испытания ПО СИ методом перекрестной проверки (кросс-валидации)

Испытания ПО СИ методом перекрестной проверки (кросс-валидации)




Ю.А. Кудеяров, д. ф.-м. н., профессор, главный научный сотрудник;

А. Н. Паньков, научный сотрудник ФГУП «ВНИИМС»

Главный метролог №6 2015 г.

 

 

В задачах, решаемых ПО, используемым в метрологии, часто возникает проблема подбора оптимальных модельно-зависимых параметров при применении различных моделей аппроксимации/интерполяции. Даже в случае использования одного и того же метода аппроксимации/интерполяции можно получить разные результаты в зависимости от выбора параметров модели. Выбор оптимальных параметров осуществляется в процессе исследования характера и структуры данных, при этом эффективным инструментом подбора модельных параметров в ряде случаев может служить метод перекрестной проверки (далее кросс-валидации).

Метод кросс-валидации или скользящего контроля широко используется в биоинформатике при распознавании образов, при оценке качества обучаемых моделей в кибернетике, а также в работах, связанных с многомерным статистическим анализом в финансовой статистике. Как правило, этот подход используется в случаях, где целью является оценка того, насколько предсказывающая модель способна работать на практике. Можно сказать, что метод кросс-валидации в определенном смысле может быть альтернативой методу наименьших квадратов.

В предлагаемой статье рассматривается возможность применения метода кросс-валидации для оценки значений модельно-зависимых параметров на примере использования цифровых технологий при обследовании качества передаваемой электроэнергии.

Метод основан на проведении оценки для части данных, выбранных из основного набора по остальным данным с последующим вычислением погрешности оценки. После оценок по всем наборам или выборкам оценивается среднее значение полученных оценок. По нему сравниваются
различные методы или выбираются наилучшие параметры модели.

Процедура кросс-валидации сводится к следующему [1]:

Исходная выборка XL разбивается N различными способами на две непересекающиеся подвыборки

XL = Хmn U Xnk

где: Хmn - обучающая подвыборка длины m,

Xnk - контрольная подвыборка длины k = L - m, n = 1, ...,N

Далее, для каждого разбиения строится алгоритм вычисления модельных параметров ci, cj по правилу ƒ (в качестве такового может выступать модельная функциональная зависимость в задаче регрессии или правило интерполяции), при этом an и bn обозначают результаты применения построенного алгоритма для обучающей и контрольной подвыборок, т. е.

an = ƒ (ci, Xmn), bn = ƒ (cj, Xkn)

что позволяет вычислить значение функционала качества Qn = Q(an,bn), под которым может пониматься, например, относительное отличие модельных параметров, оцененных по обучающей и контрольной подвыборкам (см. ниже).

Среднее арифметическое значение Qn по всем разбиениям называется оценкой скользящего контроля. Различные варианты кросс-валидации отличаются видами функционала качества и способами разбиения выборки. Так, например, различают кроссвалидацию по блокам, валидацию последовательным случайным сэмплированием и поэлементную кросс-валидацию [2] 

В качестве количественного критерия оценки качества, как уже отмечалось, может быть использовано относительное расхождение между параметрами модели, описывающими на n-ом разбиении обучающую и контрольную подвыборки

Qn = ( |ci - cj| /cj )100%


Рассмотрим применение кросс-валидация по К блокам для решения задачи подбора оптимальных модельно-зависимых параметров.

В этом случае все имеющиеся данные разделяют на К частей (блоков) (см. рисунок 1). Обычно К задают равным 5 или 10 и говорят о 5-кратной или 10-кратной кроссвалидации. Из К блоков один оставляется для тестирования модели (контрольная подвыборка), а остающиеся К-1 блока используются как тренировочный набор (обучающая подвыборка). Операция повторяется К раз, при этом, каждый из блоков используется один раз как тестовый набор. Полученные таким образом К результатов параметров качества усредняются и дают среднюю оценку. Преимущество такого способа в том, что все имеющиеся данные используются и для тренировки, и для тестирования модели.

Кросс-валидация по К блокам

 

Рассмотрим пример использования метода 10-кратной кросс-валидации для оценки качества подбора значений модельно-зависимых параметров.

При разработке опорного ПО для тестирования ПО СИ цифровых подстанций осуществляется применение алгоритмов, которые позволяют по считанным из потока мгновенным значениям (SV)  тока или напряжения воспроизвести параметры, используемые при их генерации. В качестве таких параметров выступают средне-квадратичные значения (СКЗ) тока и напряжения I, U, опорная частота - ω и фазовый угол сдвига - φ0. Для оценки качества получаемых параметров и будет использован метод кросс-валидации.

Для испытаний был выбран генератор SV сообщений, разработанный компаний ООО «Компания ДЕП». Через программный интерфейс были заданы опорные значения для генерации сигнала: I - 5 А, частота 50 Гц, начальная фаза колебаний 74 град (1.291543646... рад).

Страница 1 из 2 Следующая

Добавить комментарий


Главная страница » Каталог статей » Статьи о средствах измерений » Испытания ПО СИ методом перекрестной проверки (кросс-валидации)