|
ОглавлениеОрганизационно-экономическое моделирование: теория принятия решений. Предисловие Часть I. Основы теории принятия решений. Глава 1. Введение в теорию принятия решений Глава 2. Простые методы принятия решений Глава 3. Основы теории управления Глава 5. Регрессия, корреляция и прогнозирование Глава 6. Анализ динамики цен и использование индексов инфляции при принятии управленческих решений Часть III. Экспертные технологии принятия решений. Глава 7. Процедуры экспертных оценок Глава 8. Организация работы экспертной комиссии Глава 9. Теория измерений и экспертные оценки Глава 10. Методы средних рангов Глава 11. Математические методы анализа экспертных оценок Глава 12. Бинарные данные и парные сравнения Глава 13. Рейтинги (обобщенные показатели) Глава 14. Примеры разработки управленческих решений на основе экспертных оценок Часть IV. Моделирование в теории принятия решений. Глава 15. Основы моделирования Глава 16. Экономико-математические модели и принятие решений Глава 17. Принятие решений на основе моделей обеспечения качества Для бесплатного чтения доступна только часть главы! Для чтения полной версии необходимо приобрести книгуГлава 12. Бинарные данные и парные сравнения12.1. Теоретическое обоснование «турнирного» метода ранжирования вариантовПарное сравнение — это сравнение двух объектов экспертизы, когда эксперт выбирает из них лучший. В таблице 12.1 приведены результаты попарных сравнений шести объектов одним экспертом. Результат сравнения i-го и j-го объектов кодируется символом 1, если i-й объект лучше j-го, и символом 0 — в противном случае. Таблица 12.1 Ранжирование шести объектов путем попарного сравнения Бинарные данные — данные, которые могут принимать два значения. На основе парных сравнений можно решить многие задачи анализа экспертных данных. Например, можно упорядочить объекты по рассматриваемому признаку. Для этого достаточно, например, подсчитать, сколько раз определенный объект доминирует над другими, т.е. рассмотреть число единиц в строке. Эти величины приведены в последнем столбце табл. 12.1. Затем упорядочиваем объекты по указанным значениям. Получаем кластеризованную ранжировку 4 < 5 < 6 < {1, 2} < 3, отражающую мнение эксперта. Итак, самым хорошим является объект 3, а самым плохим — объект 4. В главе 12 рассмотрены различные методы анализа результатов парных сравнений и иных видов бинарных экспертных данных, т.е. данных, принимающих одно из двух значений: 0 или 1. В статье [126] предложен оригинальный метод ранжирования вариантов, названный «турнирным». Он напоминает метод построения кластеризованной ранжировки на основе данных табл. 12.1 и подробно описан далее. Но сразу можно сформулировать естественные вопросы, на которые необходимо получить ответы. Каковы статистические свойства этого метода? Позволяет ли он выявить истинное упорядочение вариантов? Другими словами, является ли состоятельной оценка упорядочения (ранжировки) вариантов, рассчитываемая с помощью «игрового» метода? Для ответа на эти вопросы необходимо изучить свойства расчетной процедуры анализа данных. Как известно [89], такое изучение, как правило, состоит из двух этапов: 1) построения вероятностно-статистической модели порождения данных; 2) математико-статистическое изучения свойств расчетной процедуры анализа данных. Пусть рассматривается k вариантов технического решения. В соответствии с описанием процедуры в статье [126] будем считать, что влияние i-го варианта, i = 1, 2, ..., k, на изучаемый параметр описывается (числовой) случайной величиной Xi с функцией распределения F(x). Таким образом, сравнение двух вариантов — это сравнение функций распределения. Такое сравнение можно проводить разными способами — по тем или иным характеристикам (математическим ожиданиям, медианам, дисперсиям, квантилям порядка 0,999999, коэффициентам вариации и др.) или непосредственно с целью обнаружения различия между функциями распределения. Выбор того или иного вероятностно-статистического способа сравнения зависит от решаемой задачи. На примере оценки рисков (аварий, загрязнения окружающей среды, дефектности и др.) в [89] продемонстрирован подобный выбор. Согласно [126] сравнивать надо математические ожидания. Лучше тот вариант, у которого математическое ожидание больше. Тогда результаты сравнения k вариантов технического решения описываются кластеризованной ранжировкой. Другими словами, варианты разбиты на группы. В каждой группе математические ожидания совпадают, между группами — различаются. Группы упорядочены в порядке возрастания математических ожиданий. Теоретическую кластеризованную ранжировку, соответствующую математическим ожиданиям, необходимо оценить по эмпирическим данным. Поскольку функции распределения и их математические ожидания при сравнении конкретных вариантов технического решения неизвестны, то сравнения приходится проводить на основе выборок. Принимаем, что влияние i-го варианта, i = 1, 2, ..., k, на изучаемый параметр оценивается с помощью выборки объема ni, т.е. набора реализаций щ независимых случайных величин с общей функцией распределения F(x). Выборки предполагаются независимыми. Могут использоваться как экспертные оценки, так и объективные результаты измерения. Итак, вероятностно-статистическая модель порождения данных описана. В соответствии с «турнирным» методом ранжирования сравнение двух вариантов состоит в статистической проверке нулевой гипотезы о равенстве соответствующих математических ожиданий. Если нулевая гипотеза принимается, то каждому варианту присваивается по 0,5 очка. Если нулевая гипотеза отклоняется, то варианту с большим выборочным средним арифметическим присваивается 1 очко, а с меньшим — 0 очков. Проводятся все k(k - 1)/2 парных сравнений, полученные очки суммируются, варианты упорядочиваются в порядке возрастания набранных сумм. Получаем эмпирическую кластеризованную ранжировку. В соответствии с рекомендациями [77, 89] для проверки равенства математических ожиданий в работе [126] применяется критерий Крамера — Уэлча. Граничное значение для модуля статистики принято равным 1,645, что соответствует уровню значимости 0,1 (точнее, асимптотическому уровню значимости при безграничном росте объемов выборок). При решении задачи выбора конструкции коллектора для трибоэлектрического генератора в [126] получена следующая эмпирическая кластеризованная ранжировка типов коллекторов: {игольчатый} < {кисточкообразный; ленточный с изгибом} < {штыковой} < {пилообразный; Г-образный}. Качество вариантов убывает при движении справа налево. Самыми лучшими являются такие варианты, как пилообразный и Г-образный (причем по данным [126], эти варианты надо считать эквивалентными, они образуют кластер). Хуже по качеству штыковой коллектор, и т.д. Эмпирическая кластеризованная ранжировка используется как оценка теоретической. Каковы математико-статистические свойства этой оценки? Поскольку кластеризованная ранжировка — это объект нечисловой природы, то для изучения свойств процедуры, предложенной в статье [126], необходимо применить подходы и результаты статистики объектов нечисловой природы [77; 89]. Теорема 12.1. При безграничном росте объемов выборок (т.е. при min{ni, i = 1, 2, ..., k} → ∞) и фиксированном числе k вариантов вероятность того, что эмпирическая кластеризованная ранжировка совпадает с теоретической, стремится к 1. В соответствии с теоремой 12.1 предложенная в работе [126] оценка теоретической кластеризованной ранжировки является состоятельной. Доказательство теоремы 12.1 проводится методами, разработанными в главе 8 монографии [89]. Как измерить степень близости эмпирической и теоретической кластеризованных ранжировок? В соответствии с известным в статистике объектов нечисловой природы аксиоматическим подходом целесообразно использовать расстояние Кемени или, что эквивалентно, коэффициент ранговой корреляции Кендалла (см. главу 11, подраздел 11.5). Справедливы следующие теоремы. Теорема 12.2. При справедливости условий теоремы 12.1 расстояние Кемени между эмпирической кластеризованной ранжировкой и теоретической стремится к 0. Теорема 12.3. При справедливости условий теоремы 12.1 коэффициент ранговой корреляции Кендалла между эмпирической кластеризованной ранжировкой и теоретической стремится к 1. Доказательства теорем 12.2 и 12.3 проводятся методами, развитыми в [77, 89]. Таким образом, с точки зрения асимптотической математической статистики предложенный в работе [126] «турнирный» метод ранжирования вариантов получил обоснование. Что же касается конечных объемов выборок, особенно столь малых, как в [126], где все ni = 3, то необходимы дальнейшие исследования, прежде всего методом статистических испытаний. Различные методы оценки близости допредельных и предельных распределений статистик проанализированы в [89, глава 10.3]. Приходится констатировать, что простые рекомендации отсутствуют. 12.2. Теория случайных толерантностейТолерантность как вид бинарных отношений. В прикладных исследованиях обычно используют три конкретных вида бинарных отношений — ранжировки, разбиения и толерантности. Статистические теории ранжировок [28] и разбиений [76] достаточно сложны с математической точки зрения. Поэтому продвинуться удается не очень далеко. Теория случайных ранжировок, в частности, изучает в основном равномерные распределения на множестве ранжировок. Теория случайных толерантностей позволяет рассмотреть принципиально более общие ситуации. Это объясняется, грубо говоря, тем, что для теории толерантностей оказываются полезными суммы некоторых независимых случайных величин, а для теории ранжировок и разбиений аналогичные случайные величины зависимы, а потому изучение их сумм затруднено. Теория случайных толерантностей является частным случаем теории люсианов, рассматриваемой в подразделе 12.4. Здесь приводим результаты, специфичные именно для толерантностей. Пусть X — конечное множество из k элементов. Толерантность А на множестве Х, как и любое бинарное отношение, однозначно описывается матрицей ||a(i, j)||, 1 ≤ i, j ≤ k, где a(i, j) = 1, если элементы с номерами i и j связаны отношением толерантности, и a(i, j) = 0 — в противном случае. Поскольку толерантность — это рефлексивное и симметричное бинарное отношение, то достаточно рассматривать часть матрицы, лежащую над главной диагональю: ||a(i, j), 1 ≤ i ≤ j ≤ k||. Между наборами ||a(i, j), 1 ≤ i ≤ j ≤ k|| из 0 и 1 и толерантностями на Х имеется взаимнооднозначное соответствие. Пусть А = А(ω) — случайная толерантность, равномерно распределенная на множестве всех толерантностей на Х. Легко видеть, что в этом случае a(i, j), 1 ≤ i ≤ j ≤ k — независимые случайные величины, принимающие значения 0 и 1 с вероятностями 0,5. Этот факт, несмотря на свою математическую тривиальность, является решающим для построения базовой части теории толерантностей. Для аналогичных постановок в теории ранжировок и разбиений величины a(i, j) оказываются зависимыми. Следовательно, случайная величина имеет биномиальное распределение с параметрами k(k - 1)/2, S и асимптотически нормальна при k → ∞. Проверка гипотез о согласованности. Рассмотрим s независимых толерантностей А1, А2, ..., As, равномерно распределенных на множестве всех толерантностей на Х. Рассмотрим вектор где d(Ap, Aq) — расстояние между толерантностями Ap и Aq, аксиоматически введенное в главу 11. В подразделе 12.1 предполагается, что пары (p, q), p < q, располагаются в раз и навсегда установленном порядке, для определенности — в лексиграфическом (т.е. пары упорядочиваются в соответствии со значением р, а при одинаковых р — по значению q). Вектор ξks является суммой k(k - 1)/2 независимых одинаково распределенных случайных векторов, а потому асимптотически нормален при k → ∞. Координаты этого вектора независимы, поскольку, как нетрудно видеть, координаты каждого слагаемого независимы (это свойство не сохраняется при отклонении от равномерности распределения). Распределения случайных величин ap(i, j) и |ap(i, j) - a (i, j)| совпадают, поэтому распределения В(А) и d(Ap, Aq) также совпадают. В силу многомерной центральной предельной теоремы распределение вектора сходится при k → ∞ к распределению многомерного нормального вектора ηs, ковариационная матрица которого совпадает с ковариационной матрицей вектора ηks, а математическое ожидание равно 0. Таким образом, координаты случайного вектора ηs независимы и имеют стандартное нормальное распределение с математическим ожиданием 0 и дисперсией 1. В соответствии с теоремами о наследовании сходимости [77, подраздел 4.3] распределение f(ηks) сходится при k → ∞ к распределению f(ηs) для достаточно широкого класса функций f, в частности для всех непрерывных функций. В качестве примеров рассмотрим статистики: При k → ∞ распределения случайных величин сходятся соответственно к стандартному нормальному распределению с математическим ожиданием 0 и дисперсией 1 и распределению хи-квадрат с s(s - 1)/2 степенями свободы. Статистики W и N могут быть использованы для проверки гипотезы о равномерности распределения толерантностей. Как известно, в теории ранговой корреляции, т.е. в теории случайных ранжировок, в качестве единой выборочной меры связи нескольких признаков используется коэффициент согласованности W = W(R), называемый также коэффициентом конкордации. Его распределение затабулировано в предположении равномерности распределения на пространстве ранжировок (без связей). Непосредственным аналогом коэффициента конкордации W(R) в случае толерантностей является только что введенная статистика W. Статистики W и N играют ту же роль для толерантностей, что W(R) для ранжировок, однако математико-статистическая теория в случае толерантностей гораздо проще, чем для ранжировок. Обобщением равномерно распределенных толерантностей являются толерантности с независимыми связями. В этой постановке предполагается, что a(i, j), 1 ≤ i ≤ j ≤ k — независимые случайные величины, принимающие значения 0 и 1. Обозначим P[a(i, j) = 1] = p(i, j). Тогда P[a(i, j) = 0] = 1 - p(i, j). Таким образом, распределение толерантности с независимыми связями задается нечеткой толерантностью, т.е. вектором Нечеткая толерантность — частный случай нечеткого множества. В свою очередь, нечеткие множества — один из видов объектов нечисловой природы, рассматриваемых в статистике нечисловых данных [77, 89]. Пусть имеется s независимых случайных толерантностей A1, A2, ..., As с независимыми связями, распределения которых задаются векторами Р1, Р2, ..., Ps соответственно. Рассмотрим проверку гипотезы согласованности Н0 : Р1 = Р2 = … = Рs. Она является более слабой, чем гипотеза равномерности для проверки которой используют статистики W и N (см. ранее). Пусть сначала s = 2. Тогда где Следовательно, расстояние d(A1, A2) между двумя случайными толерантностями с независимыми связями есть сумма k(k - 1)/2 независимых случайных величин, принимающих значения 0 и 1, причем математическое ожидание и дисперсия d(A1, A2) таковы: Пусть k → ∞. Если Dd(A1, A2) → ∞, то условие Линденберга Центральной предельной теоремы теории вероятностей выполнено и распределение нормированного расстояния сходится к стандартному нормальному распределению с математическим ожиданием 0 и дисперсией 1. Если существует число δ > 0 такое, что при всех k, i, j, 1 ≤ i < j ≤ k, вероятности p1(i, j) и p2(i, j) лежат внутри интервала (δ; 1 - δ), то Dd(A1, A2) → ∞. Соотношения (12.2), (12.3) и им подобные позволяют рассчитать мощность критериев, основанных на статистиках W и N, при k → ∞, подобно тому, как это сделано в [88, подраздел 4.5]. Поскольку подобные расчеты не требуют новых идей, не будем приводить их здесь. Обычно Р1 и Р2 неизвестны. Для проверки гипотезы Р1 = Р2 в некоторых случаях можно порекомендовать отвергать гипотезу на уровне значимости α, если d(A1, A2) ≥ d0, где d0 есть (1 - α) — квантиль распределения расстояния между двумя независимыми равномерно распределенными случайными толерантностями, т.е. квантиль биномиального распределения В(А). Укажем достаточные условия такой рекомендации. Пусть тогда Если существует число δ > 0 такое, что при всех k, i, j, то гипотеза Р1 = Р2 будет отвергаться с вероятностью, стремящейся к 1 при k → ∞. Из формулы (12.4) следует, что при фиксированном р существует ∆ такое, что условие (12.5) будет выполнено тогда и только тогда, когда 0,25 < p < 0,75. Своеобразие постановки задачи проверки гипотезы состоит в том, что при росте k число неизвестных параметров, т.е. координат векторов Pi, растет пропорционально объему данных. Поэтому и столь далекая от оптимальности процедура, как описанная в двух предыдущих абзацах, представляет некоторый практический интерес. Для случая s ≥ 4 в теории люсианов (см. подраздел 12.4) разработаны методы проверки гипотезы согласованности Н0 : Р1 = Р2 =...= Ps. Нахождение группового мнения. Пусть А1, А2, ..., As — случайные толерантности, описывающие мнения s экспертов. Для нахождения группового мнения будем использовать медиану Кемени, т.е. эмпирическое среднее относительно расстояния Кемени, введенного в главе 11. Медианой Кемени является Внимание! Авторские права на книгу "Организационно-экономическое моделирование: теория принятия решений" (Орлов А.И.) охраняются законодательством! |