студия web дизайна Центр Информационных Технологий
Центр  информационных технологий
полиграфия Студия дизайна Центр информационных технологий Отдел разработки ПО Центр тех. обслуживания
Главная
Обратная связь
О нас
Поиск
Карта сайта
Отдел разработки ПО» Разработка математических моделей»

Усовершенствованный метод Вальда




1. Осуществлять выбор границ разбиения параметров из условия одинакового количества объектов в каждом из диапазонов параметра.

2. Вести контроль отсутствия объектов каждой категории во всех диапазонах параметров.

3. Вести контроль отсутствия объектов в сглаженных и вероятных частностях.

4. При отсутствии объектов по пунктам 2 и 3 - уменьшать количество диапазонов параметра.

5. Осуществлять поиск значений границы разбиения выходного параметра на категории, в указанных допустимых пределах, максимизирующей общую информативность или качество распознавания модели.

6. Осуществлять поиск схемы сглаживания, обеспечивающей максимальное качество распознавания модели.
 Для оценки качества распознавания модели нами предлагается использовать формулу:
                                                                                                            (1)

где  КА - число верно распознанных объектов из категории А,
        КВ - число верно распознанных объектов из категории В,
        N_КА - число неверно отнесенных к категории А объектов
        N_КВ - число неверно отнесенных к категории В объектов
        N - число объектов обучающей выборки
Введение количественной оценки качества распознавания (КР) позволяет более точно и корректно оценивать качество распознавания по сравнению с использованием суммарной информативности. Это, кроме того, позволяет сравнивать КР при анализе разных выборок, при изменении количества параметров, участвующих в расчетах, т.к. осуществляется переход от косвенной оценки качества распознавания к прямой.
При исследовании влияния схемы сглаживания на качество распознавания модели рассматривались следующие схемы сглаживания:
                                                                                   (2)

                                                                                 (3)

                                                                                   (4)

                                                                                         (5)

                                                                                                                            (6)

                                                                                                                           (7)

                                                                                                                                                                    (8)

кроме того, для вычислений в крайних диапазонах исследовались схемы, предложенные В.Ю. Урбахом:

                                                                                                                  (9)

                                                                                                              (10)

Среди всех вариантов применения сглаживания осуществлялся выбор схемы, обеспечивающий наилучшее качество распознавания модели. Практика исследований (проведенные машинные эксперименты с реальными данными и математическими моделями) показала, что как максимальная информативность, так и максимальное качество распознавания, в большинстве случаев достигается при использовании вероятных частностей, т.е. когда сглаживания не производится, либо при использовании "слабого" сглаживания, т.е. при больших коэффициентах при центральном диапазоне и малых при соседних:
  1+2+6+2+1, 1+2+10+2+1, 1+2+12+2+1 и т.д.
При малых (порядка 30 - 100 объектов) и средних (100 - 700 объектов) объемах выборки предпочтительно использовать алгоритм выбора границ диапазонов из условия равенства количества объектов в каждом из диапазонов параметра. С увеличением объемов выборки до 3000 - 5000 объектов, выигрышным становится принцип деления параметра на равные диапазоны.

2. Усовершенствованный метод  последовательной диагностической процедуры Вальда

На рис.1 - 7 представлена подробная блок-схема предлагаемого метода (Алгоритм А3). В таблице 1 приведена расшифровка используемых в алгоритме обозначений.
Алгоритм А3.
Блоки 2-5 - ввод начальных условий.

2. Выбор зависимой переменной (выходного параметра).

3. Выбор объясняющих переменных.

4. Ввод  - допустимых вероятностей неправильного отнесения объектов, принадлежащих категории А к категории В и наоборот - так называемых ошибок первого и второго рода.

5. Ввод границы разбиения выходного параметра. Все объекты, имеющие значения выходного параметра, меньшего чем граница разбиения, будут относиться к категории А, остальные объекты - к категории В.

6. Определение начального количества диапазонов для всех параметров (NDP). По классической формуле Стерджесса количество диапазонов рассчитывается по формуле  . Предлагается использовать на пять диапазонов больше, т.е.  .

7, 8.  Первоначально в массив текущего количества диапазонов (Ndiap[m]) для всех параметров записывается начальное количество диапазонов NDP. В процессе выполнения алгоритма количество диапазонов у каждого параметра может уменьшаться.

9. Цикл по всем объясняющим параметрам - поиск диапазонов параметров, не содержащих объектов. Программно реализовано два способа выбора границ диапазонов параметров:
 
1) принцип равенства объектов в каждом из диапазонов, т.е. параметр разбивается на различные по длине диапазоны, но каждый из диапазонов содержит одинаковое количество объектов;
 
2) простое деление интервала значений параметра на текущее количество диапазонов Ndiap[i], т.е. параметр разбивается на равные диапазоны, каждый из которых может содержать произвольное количество объектов.
 
При использовании первого способа выбора границ диапазонов параметров, в данном цикле нет надобности, и он не выполняется.  При использовании второй схемы, данный цикл необходим для исключения "пустых" диапазонов параметров.

10. Если для текущего параметра количество диапазонов равно единице, то переход к блоку 11 - исключение из рассмотрения этого параметра, уменьшение количества объясняющих параметров (блок 12), и возврат к блоку 10 - Проверка очередного параметра.

13. Если текущий параметр количественный, то переход к пункту 14 - определение границ диапазонов для текущего параметра. По классическому методу, границы определяются равномерным делением параметра на Ndiap[i] диапазонов. Предлагается определять границы исходя из условия равного количество объектов в каждом из диапазонов. Для качественных параметров количество диапазонов равно числу состояний параметра.

15,16.  Цикл по всем диапазонам текущего параметра - подсчет количества объектов в каждом диапазоне текущего параметра.

17. Проверка на "пустые" диапазоны. Для улучшения качества распознавания модели осуществляется проверка, нет ли диапазонов, в которых отсутствуют объекты. Если текущий диапазон текущего параметра не содержит объектов, то выполнение Блока уменьшения количества диапазонов (БУД, блок 18) и переход к блоку 10.
Закрытие цикла по параметрам (блок 9).

19. Цикл по всем параметрам. Последовательно для каждого объясняющего параметра рассчитываются вероятные частности, сглаженные частности, диагностические коэффициенты, информативность параметров.

20. Цикл по всем диапазонам текущего параметра - поиск диапазонов, не имеющих объектов, принадлежащих категории А или В.

21-23. Подсчет количества объектов, принадлежащих к категории А и категории В в каждом диапазоне текущего параметра (n1[j], n2[j]).

22. Проверка - нет ли диапазонов текущего параметра, в которых нет объектов, принадлежащих к категории А или В. Если такие диапазоны есть, то выполнения Блока уменьшения количества диапазонов (БУД, блок 23) и переход к блоку 9.
Закрытие цикла по диапазонам (к блоку 20).

24. Подсчет количества объектов, принадлежащих к категории А и В для текущего параметра.

25, 26. Цикл по всем диапазонам текущего параметра - расчет вероятных частностей для всех диапазонов текущего параметра.
Закрытие цикла по диапазонам (к блоку 25).

27. Выбор начальной схемы сглаживания.

28 - 42. Цикл по всем схемам сглаживания - поиск наилучшей схемы сглаживания (формулы 2 - 10) для текущего параметра.

29 - 34. Цикл по всем диапазонам текущего параметра - расчет сглаженных частностей.

30. Если текущий параметр - количественный, то расчет сглаженных частностей Sa[j] и Sb[j] по текущей схеме сглаживания (блок 31). Если параметр качественный, то сглаживание не проводится.

33. Проверка - нет ли диапазонов текущего параметра, для которых сглаженная частность отнесения диапазона к категории А (Sa) или сглаженная частность отнесения диапазона к категории В (Sb) равны нулю. Если такие диапазоны есть, то выполнения Блока уменьшения количества диапазонов (БУД, блок 34) и переход к блоку 9.

35 - 37. Цикл по всем диапазонам текущего параметра - расчет диагностических коэффициентов (блок
36)  и информативности (блок 37) для всех диапазонов каждого параметра.

38. Расчет суммарной информативности текущего параметра при текущей схеме сглаживания.

39. Если рассчитанная в блоке 38 информативность больше максимальной, т.е. текущая схема сглаживания - лучшая из рассмотренных, то запоминание схемы сглаживания (блок 40) и максимальной информативности (блок 41).

42. Изменение схемы сглаживания - выбор очередной схемы.
Закрытие цикла по всем схемам сглаживания (к блоку 28).

43. Выбираем лучшую схему сглаживания. Запоминаем суммарную информативность параметра при наилучшей схеме сглаживания.
Закрытие цикла по всем параметрам (к блоку 19).

44. Расчет общей информативности модели - сумма информативностей всех параметров.

45. Вычисление порогов отнесения объектов к категории А и В.

46. Вычисление суммы диагностических коэффициентов для каждого объекта. Проверяется, в какой диапазон попадает значение каждого параметра объекта, и суммируются диагностические коэффициенты этих диапазонов.

47. Определение количества объектов, попадающих по модели (по основному диагностическому условию) в категории А, В, и для которых при заданных ошибках первого и второго рода категория не была определена.

48. Определение количества неверно распознанных объектов, т.е. объектов, по модели неверно отнесенных не к своим категориям.

49. Расчет качества распознавания модели по обучающей выборке.

Рисунок 1. Алгоритм А3. Усовершенствованный метод последовательной диагностической процедуры Вальда.

Рисунок 2. Продолжение алгоритма А3

Рисунок 3. Продолжение алгоритма А3

Рисунок 4. Продолжение алгоритма А3

Рисунок 5. Продолжение алгоритма А3

Рисунок 6. Окончание алгоритма А3


Рисунок 7. Блок уменьшения количества диапазонов (БУД),
к алгоритму А3

                                                                                        Таблица 1
Расшифровка используемых в алгоритме А3 обозначений

Переменная Назначение переменной
1 2
a, b допустимые вероятности неправильного отнесения объектов, принадлежащих категории А к категории В, и наоборот
NDP начальное количество диапазонов параметров
m количество объясняющих параметров
Ndiap[NDP] массив текущих количеств диапазонов параметров
i, j, k  переменные цикла
ly[m,Ndiap[i]] двумерный массив числа объектов в каждом диапазоне каждого параметра
БУД блок уменьшения количества диапазонов параметров
n1[Ndiap[i]],n2[Ndiap[i]]  массивы числа объектов, принажлежащих категориям А и В для каждого диапазона текущего параметра
Na, Nb количество объектов, принадлежащих категориям А и В
Ca[Ndiap[i]+4],Cb[Ndiap[i]+4] массивы вероятных частностей отнесения диапазона к категориям А и В для всех диапазонов текущего параметра
N_SGL количество схем сглаживания
Sa[Ndiap[i]],Sb[Ndiap[i]] массивы сглаженных частностей отнесения диапазона к категориям А и В для всех диапазонов текущего параметра
DK[m,Ndiap[i]] двумерный массив диагностических коэффициентов для всех диапазонов всех параметров
J[m,Ndiap[i]] двумерный массив значений информативности для всех диапазонов всех параметров
SumJ[m] суммарная информативность текущего параметра
maxSumJ текущая максимальная информативность
SJ общая информативность модели
PA, PB пороги отнесения объектов к категории А и В


Заказать сайт








Тел./факс: (347) 292 63 07 | E-mail: itcentre@itcentre.ru© 2005-2013, Разработка сайта — студия «3 Грани Дизайна»

Наш адрес:
450078, Республика Башкортостан,
г. Уфа, ул. Владивостокская, д. 2/1, оф. 208А


статистика