booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 54

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf

Предыдущая << 1 .. 48 49 50 51 52 53 < 54 > 55 56 57 58 59 60 .. 97 >> Следующая

функция ^равномерно непрерывна на Я, то на точки замыкания ф?Я,
естественно, она доопределяется по непрерывности.
§ 8.5. ДОСТАТОЧНЫЕ КООРДИНАТЫ
1. Отыскание оптимальных рисков и оптимальных решений облегчается
введением достаточных координат.
Определение 8.5. Пусть существуют:
1) такое семейство { Я( со), t?T} ok*-измеримых функций Я (со);
2) такое семейство -измеримых функций xt (со), t? Т
со значениями из некоторого измеримого пространства (X, X) что разность
R (О) I и*У*т) - Mq [с* (со) I (CD I WyvU)) (8.33)
является Xt-измеримой. Здесь Xt = xt ' (X )^1У}У'9(п. Указанную разность
обозначаем St{(?>\Xt) и называем урезанным условным риском. Пространство
(X, X) называем пространством достаточных координат, а его точки -
достаточными координатами.
Урезанный условный риск можно представить как
St (со | Xt) = St (xt (со)) (t^T фиксировано),
т. е. рассматривать X -измеримую функцию 5г(л;) от достаточных координат.
Таким образом, урезанный условный риск зависит от со (от и, у) не иначе,
как через посредство достаточных координат x = xt(со). Удобство
использования достаточных координат в том и заключается, что вместо
функций, заданных в сложном и не наглядном пространстве элементарных
событий или функциональном пространстве, рассматриваются функции
значительно более простого аргумента - достаточных координат.
Функции Я (со) можно назвать функциями прошлых штрафов, а с (со)-Я (со)-
функцией будущих штрафов. При такой интерпретации урезанный условный риск
является условным математическим ожиданием будущих штрафов.
Удобно наложить на достаточные координаты несколько более сильные
требования, чем сформулированные в определении.
Определение 8.6. Пусть задано семейство прошлых штрафов Я(со), t?T (Я(
со) является -измеримой). Достаточные координаты хг(со) это такое
семействоДХУ^-измеримых функций, что
8.6.А. они достаточны для определения средних штрафов:
Mq [Я (со) - cs (со) I У/У^Щ - Mq [Я (со) - Я (со) \xs], s<t)
179
Mq [с (со) -с* (со) I Uby^b)] =MQ [с (со)-с* (со) I ХьУ,
8.6.Б. они достаточны для определения собственной будущей эволюции-.
Q(A(j?,|2W<s>) =Q(A|j?s). (8.34)
Покажем, что достаточные координаты, определенные в соответствии с
определением 8.6, удовлетворяют условиям
определения 8.5 (т. е. 8.5 вытекает из 8.6). Записывая (8.33)
для t и для s<t, из формулы
R (USU^S)) = Mq [R (и*У4(r)) I У/У4(tm)]
имеем
Ss (со | Usy^s)) = MQ [с( (со) - с* (со) | USV^S)] +
+ MQ [St (co | и*У*(r)) I (8.35)
Полагая здесь t = b, получаем
Ss ФШУ^) = Mq [Cb - Cs\Usy^s)\ + Mq [S6 {Uby^b))\Usy^b)}. Ho
Sb {иьУ^Ь)) = M [c - cb \ иьУчФ)] =Щс - сь \Хь\\
Mq [Cb - Cs\Ul У9{&) J = Mq Us [Cb - cs | %$] согласно 8.6.А, поэтому
Ss (Usy^s)) = Mq \cf> - C* \%s] +
+ f M [c - cb!%b] Q (dco ( xb\Usy^s))¦
Согласно 8.6.Б сюда вместо Q.(A.\Usyy{-s'>) можно подставить Q(A|j?s),
что окончательно доказывает ^-измеримость функции
Ss ('и*уф(3))-
2. Приведенные выше определения достаточных координат относились к
фиксированному индексу и фиксированному решению. При рассмотрении
практических задач, однако, вопрос о выборе достаточных координат
решается до того, как найдено само решение. Поэтому удобнее иметь дело с
такими признаками достаточных координат, которые не требуют знания
решения и даже не требуют фиксации индекса. Сформулируем их:
Определение 8.7. Признаки достаточных координат:
8.7.А. Координаты Хг(со) достаточны для определения средних штрафов-.
МР [с1 (со) - cs (со) | ЧУУ^Щ = МР [с* (со) - cs (со) | и{Х3]\ (8.36)
МР [с (со) - сь (со) | иьУ*Щ = МР [с (со) - с" (со) | Хъ\ (8.37) (s, t
любые из Т, но s<t).
180
Это значит, что при фиксированном управлении и\ условные средние штрафы М
[с*-cs\UsU<f{t)] зависят от иД Pa{s) не иначе, как через посредство
*s(co).
8.7.Б. Они достаточны для вероятностного определения собственной будущей
эволюции:
р [X, (со) ? ГI = Р (Г | UlXs), г$%.
Это значит, что при фиксированном управлении и\ указанные условные
вероятности, а значит и условные матема-
s ,,4>(s)
тические ожидания, зависят от иа, Уа только через посредство х3(а>).
8.7.В. Они достаточны для указания ограничений выбора управления на
каждом отдельном интервале. Используя обозначения, введенные в п. 1 §
8.1, это требование можно записать
Us m = U? (Xs) (^ ("а) = U's (xs))
ИЛИ
иаю = и1 [Xs),{s<t).
Если избегать использования понятий условной а-алгебры, то данное
требование можно выразить в терминах условной минимизации:
min /(со) - min/lco),
какова бы ни была Ui^-измеримая функция /(со).
Покажем, что из приведенных признаков достаточных координат вытекает Xt -
измеримость функции (8.33), т. е. вытекает, что они являются достаточными
координатами в смысле определения 8.5.
Пусть разбиение {^, . ..Длт) порождает ступенчатую аппроксимацию индекса
ф (<pfe = <р(tk), k = 0, 1, . .., N). Для ф/7 и функции (8.33)
рекуррентные преобразования (8.12) записываются в виде
St (со | и*к,У*к) = min МР [с^+> (со) - с*к (oil -f "I U^y^k
+ Vi (" \UtM+1U4+l) I Utk^k\. (8.38)

Предыдущая << 1 .. 48 49 50 51 52 53 < 54 > 55 56 57 58 59 60 .. 97 >> Следующая