Ограничиваем кривую сверху, справа и слева. Случайным образом распределяем точки в прямоугольнике поиска. Обозначим через N 1 количество точек, принятых для испытаний (то есть попавших в прямоугольник, эти точки изображены на рис. 21.1 красным и синим цветом), и через N 2 количество точек под кривой, то есть попавших в закрашенную площадь под функцией (эти точки изображены на рис. 21.1 красным цветом). Тогда естественно предположить, что количество точек, попавших под кривую по отношению к общему числу точек пропорционально площади под кривой (величине интеграла) по отношению к площади испытуемого прямоугольника. Математически это можно выразить так:

Рассуждения эти, конечно, статистические и тем более верны, чем большее число испытуемых точек мы возьмем.

Фрагмент алгоритма метода Монте-Карло в виде блок-схемы выглядит так, как показано на рис. 21.2 .

Значения r 1 и r 2 на рис. 21.2 являются равномерно распределенными случайными числами из интервалов (x 1 ; x 2) и (c 1 ; c 2) соответственно.

Метод Монте-Карло чрезвычайно эффективен, прост, но необходим «хороший» генератор случайных чисел. Вторая проблема применения метода заключается в определении объема выборки, то есть количества точек, необходимых для обеспечения решения с заданной точностью. Эксперименты показывают: чтобы увеличить точность в 10 раз, объем выборки нужно увеличить в 100 раз; то есть точность примерно пропорциональна корню квадратному из объема выборки:

Схема использования метода Монте-Карло при исследовании
систем со случайными параметрами

Построив модель системы со случайными параметрами, на ее вход подают входные сигналы от генератора случайных чисел (ГСЧ), как показано на рис. 21.3 . ГСЧ устроен так, что он выдает равномерно распределенные случайные числа r рр из интервала . Так как одни события могут быть более вероятными, другие менее вероятными, то равномерно распределенные случайные числа от генератора подают на преобразователь закона случайных чисел (ПЗСЧ), который преобразует их в заданный пользователем закон распределения вероятности, например, в нормальный или экспоненциальный закон. Эти преобразованные случайные числа x подают на вход модели. Модель отрабатывает входной сигнал x по некоторому закону y = φ (x ) и получает выходной сигнал y , который также является случайным.

В блоке накопления статистики (БНСтат) установлены фильтры и счетчики. Фильтр (некоторое логическое условие) определяет по значению y , реализовалось ли в конкретном опыте некоторое событие (выполнилось условие, f = 1 ) или нет (условие не выполнилось, f = 0 ). Если событие реализовалось, то счетчик события увеличивается на единицу. Если событие не реализовалось, то значение счетчика не меняется. Если требуется следить за несколькими разными типами событий, то для статистического моделирования понадобится несколько фильтров и счетчиков N i . Всегда ведется счетчик количества экспериментов N .

Далее отношение N i к N , рассчитываемое в блоке вычисления статистических характеристик (БВСХ) по методу Монте-Карло, дает оценку вероятности p i появления события i , то есть указывает на частоту его выпадения в серии из N опытов. Это позволяет сделать выводы о статистических свойствах моделируемого объекта.

Например, событие A совершилось в результате проведенных 200 экспериментов 50 раз. Это означает, согласно методу Монте-Карло, что вероятность совершения события равна: p A = 50/200 = 0.25 . Вероятность того, что событие не совершится, равна, соответственно, 1 0.25 = 0.75 .

Обратите внимание: когда говорят о вероятности, полученной экспериментально, то ее называют частостью ; слово вероятность употребляют, когда хотят подчеркнуть, что речь идет о теоретическом понятии.

При большом количестве опытов N частота появления события, полученная экспериментальным путем, стремится к значению теоретической вероятности появления события.

В блоке оценки достоверности (БОД) анализируют степень достоверности статистических экспериментальных данных, снятых с модели (принимая во внимание точность результата ε , заданную пользователем) и определяют необходимое для этого количество статистических испытаний. Если колебания значений частоты появления событий относительно теоретической вероятности меньше заданной точности, то экспериментальную частоту принимают в качестве ответа, иначе генерацию случайных входных воздействий продолжают, и процесс моделирования повторяется. При малом числе испытаний результат может оказаться недостоверным. Но чем более испытаний, тем точнее ответ, согласно центральной предельной теореме.

Заметим, что оценивание ведут по худшей из частот. Это обеспечивает достоверный результат сразу по всем снимаемым характеристикам модели.

Пример 1 . Решим простую задачу. Какова вероятность выпадения монеты орлом кверху при падении ее с высоты случайным образом?

Начнем подбрасывать монетку и фиксировать результаты каждого броска (см. табл. 21.1).

Приложение 1. МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА И ПРОГНОЗИРОВАНИЯ В БИЗНЕСЕ

2. Математические модели как необходимый инструмент статистического анализа и прогнозирования в бизнесе

Начнем с простого примера демонстрирующего различия чисто статистического, чисто вероятностного и вероятностно-статистического подходов к выработке прогнозного решения. Одновременно на этом примере достаточно прозрачно видна роль математических моделей в технологии формирования прогнозного решения.

Статистический способ принятия решения. Пусть читатель представит себя бизнесменом, наблюдающим за игрой двух его приятелей-бизнесменов (А и В ) в кости. Игра идет по следующим правилам. Производится четыре последовательных бросания игральной кости. Игрок А получает одну денежную единицу от игрока В , если в результате этих четырех бросаний хотя бы один раз выпало шесть очков (назовем этот исход «шесть»), и платит одну денежную единицу игроку В в противном случае (назовем этот исход «не шесть»). После ста туров читатель должен сменить одного из игроков, причем он имеет право выбрать ситуацию, на которую он будет ставить свою денежную единицу в следующей серии туров: за появление хотя бы одной «шестерки» или против. Правильное осуществление этого выбора определяется, естественно, качеством его прогноза по поводу результата игры при ставке на исход «шесть»: если вероятность этого исхода правильно оценивается величиной, превосходящей половину, то игрок должен поставить именно на этот исход. Итак, задача наблюдателя – сделать достоверный прогноз.

Статистический способ решения этой задачи диктуется обычным здравым смыслом и заключается в следующем. Пронаблюдав сто туров игры предыдущих партнеров и подсчитав относительные частоты их выигрыша, казалось бы, естественно поставить на ту ситуацию, которая чаще возникала в процессе игры. Например, было зафиксировано, что в 52 партиях из 100 выиграл игрок В , т.е. в 52 турах из 100 «шестерка» не выпадала ни разу при четырехкратном выбрасывании кости (соответственно в остальных 48 партиях из ста осуществлялся исход «шесть»). Следовательно, делает вывод читатель, применивший статистический способ рассуждения, выгоднее ставить на исход «не шесть», т.е. на тот исход, относительная частота появления которого равна 0,52 (больше половины).

Теоретико-вероятностный способ решения . Этот способ основан на определенной математической модели изучаемого явления: полагая кость правильной (т. е. симметричной), а следовательно, принимая шансы выпадения любой грани кости при одном бросании равными между собой (другими словами, относительная частота, или вероятность, выпадения «единицы» равна относительной частоте выпадения «двойки», «тройки» и т. д. и равна 1/6), можно подсчитать вероятность P {«не шесть»} осуществления ситуации «не шесть», т. е. вероятность события, заключающегося в том, что при четырех последовательных бросаниях игральной кости ни разу не появится «шестерка». Этот расчет основан на следующих фактах, вытекающих из принятых нами предпосылок модели. Вероятность не выбросить шестерку при одном бросании кости складывается из шансов появиться в результате одного бросания «единице», «двойке», «тройке», «четверке»и «пятерке» и, следовательно, составляет (в соответствии с определением вероятности любого события) величину 5/6. Затем используем правило умножения вероятностей, в соответствии с которым вероятность наступления нескольких независимых событий равна произведению вероятностей этих событий. В нашем случае мы рассматриваем факт наступления четырех независимых событий, каждое из которых заключается в невыпадении «шестерки» при одном бросании и имеет вероятность осуществления, равную 5/6. Поэтому

Как видно, вероятность ситуации «не шесть» оказалась меньше половины, следовательно, шансы ситуации «шесть» предпочтительнее (соответствующая вероятность равна: 1-0,482 = 0,518). А значит, читатель, использовавший теоретико-вероятностный способ рассуждения, придет к диаметрально противоположному по сравнению с читателем со статистическим образом мышления решению и будет ставить в игре на ситуацию «шесть».

Вероятностно-статистический (или математико-статистический) способ принятия решения. Этот способ как бы синтезирует инструментарий двух предыдущих, так как при выработке с его помощью окончательного вывода используются и накопленные в результате наблюдения за игрой исходные статистические данные (в виде относительных частот появления ситуаций «шесть» и «не шесть», которые, как мы помним, были равны соответственно 0,48 и 0,52), и теоретико-вероятностные модельные соображения . Однако модель, принимаемая в данном случае, менее жестка, менее ограничена, она как бы настраивается на реальную действительность, используя для этого накопленную статистическую информацию . В частности, эта модель уже не постулирует правильность используемых костей, допуская, что центр тяжести игральной кости может быть и смещен некоторым особым образом. Характер этого смещения (если оно есть) должен как-то проявиться в тех исходных статистических данных, которыми мы располагаем. Однако читатель, владеющий вероятностно-статистическим образом мышления, должен отдавать себе отчет в том, что полученные из этих данных величины относительных частот исходов «шесть» и «не шесть» дают лишь некоторые приближенные оценки истинных (теоретических) шансов той и другой ситуации: ведь подбрасывая, скажем, 10 раз даже идеально симметричную монету, мы можем случайно получить семь выпадений «гербов»; соответственно относительная частота выпадения «герба», подсчитанная по этим результатам испытаний, будет равна 0,7; но это еще не значит, что истинные (теоретические) шансы (вероятности) появления «герба» и другой стороны монеты оцениваются величинами соответственно 0,7 и 0,3, – эти вероятности, как мы знаем, равны 0,5. Точно так же установленная нами в серии из ста игровых туров относительная частота исхода «не шесть» (равная 0,52) может отличаться от истинной (теоретической) вероятности того же события и, значит, может не быть достаточным основанием для выбора этой ситуации в игре!

Получается, что весь вопрос заключается в том, насколько сильно может отличаться наблюденная (в результате осуществления n испытаний) относительная частота интересующего нас события от истинной вероятности появления этого события, и как это отличие, т. е. погрешность , зависит от числа имеющихся в нашем распоряжении наблюдений (интуитивно ясно, что чем дольше мы наблюдали за игрой, т. е. чем больше общее число использованных нами наблюдений, тем больше доверия заслуживают вычисленные нами эмпирические относительные частоты , т. е. тем меньше их отличие от неизвестных нам истинных значений вероятностей ). Ответ на этот вопрос можно получить в нашем случае, если воспользоваться рядом дополнительных модельных соображений : а) предположить, что результат каждого тура никак не зависит от результатов предыдущих туров, а неизвестная нам вероятность осуществления ситуации «не шесть» остается одной и той же на протяжении всех туров игры; б) использовать тот факт, что поведение случайно меняющейся (при повторениях эксперимента) погрешности приближенно описывается законом нормального распределения вероятностей со средним значением, равным нулю, и дисперсией, равной (см. , п. 3.1.5).

Эти соображения, в частности, позволяют оценить абсолютную величину погрешности , заменяя неизвестную величину вероятности интересующего нас события (в нашем случае – исход «не шесть») относительной частотой этого события, зафиксированной в серии из испытаний (в нашем случае , а ). Если же мы смогли численно оценить абсолютную величину возможной погрешности , то естественно применить следующее правило принятия решения: если относительная частота появления исхода «не шесть» больше половины и продолжает превышать 0,5 после вычитания из нее возможной погрешности , то выгоднее ставить на «не шесть»; если относительная частота меньше половины и продолжает быть меньше 0,5 после прибавления к ней возможной погрешности , то выгоднее ставить на «шесть»; в других случаях у наблюдателя нет оснований для статистического вывода о преимуществах того или иного выбора ставки в игре (т. е. надо либо продолжить наблюдения, либо участвовать в игре с произвольным выбором ставки, ожидая, что это не может привести к сколько-нибудь ощутимому выигрышу или проигрышу).

Приближенный подсчет максимально возможной величины этой погрешности, опирающийся на модельное соображение б) (т. е. теорему Муавра-Лапласа, см. и п. 4.3), дает в рассматриваемом примере, что с практической достоверностью, а именно с вероятностью 0,95, справедливо неравенство

Возведение этого неравенства в квадрат и решение получившегося квадратного неравенства относительно неизвестного параметра дает

или, с точностью до величин порядка малости выше, чем ,

В данном случае (при и ) получаем:

Следовательно,

Таким образом, наблюдения за исходами ста партий дают нам основания лишь заключить, что интересующая нас неизвестная величина вероятности исхода «не шесть» на самом деле может быть любым числом из отрезка , т. е. может быть как величиной, меньшей 0,5 (и тогда надо ставить в игре на ситуацию «шесть»), так и величиной, большей 0,5 (и тогда надо ставить в игре на ситуацию «не шесть»).

Иначе говоря, читатель, воспользовавшийся вероятностно-статистическим способом решения задачи и указанными выше модельными предпосылками, должен прийти к следующему «осторожному» выводу: ста партий в качестве исходного статистического материала оказалось недостаточно для вынесения надежного заключения о том, какой из исходов игры является более вероятным . Отсюда решение: либо продолжить роль «зрителя» до тех пор, пока область возможных значений для вероятности , полученная из оценок вида (4), не окажется целиком лежащей левее или правее 0,5, либо вступить в игру, оценивая ее как близкую к «безобидной», т. е. к такой, в которой в длинной серии туров практически останешься «при своих».

Приведенный пример иллюстрирует роль и назначение теоретико-вероятностных и математико-статистических методов, их взаимоотношения. Если теория вероятностей предоставляет исследователю набор математических моделей , предназначенных для описания закономерностей в поведении реальных явлений или систем, функционирование которых происходит под влиянием большого числа взаимодействующих случайных факторов, то средства математической статистики позволяют подбирать среди множества возможных теоретико-вероятностных моделей ту, которая в определенном смысле наилучшим образом соответствует имеющимся в распоряжении исследователя статистическим данным , характеризующим реальное поведение конкретной исследуемой системы.

Математическая модель . Математическая модель – это некоторая математическая конструкция, представляющая собой абстракцию реального мира: в модели интересующие исследователя отношения между реальными элементами заменены подходящими отношениями между элементами математической конструкции (математическими категориями). Эти отношения, как правило, представлены в форме уравнений и (или) неравенств между показателями (переменными), характеризующими функционирование моделируемой реальной системы. Искусство построения математической модели состоит в том, чтобы совместить как можно большую лаконичность в ее математическом описании с достаточной точностью модельного воспроизводства именно тех сторон анализируемой реальности, которые интересуют исследователя.

Выше, анализируя взаимоотношения чисто статистического, чисто теоретико-вероятностного и смешанного – вероятностно-статистического способа рассуждения, мы, в действительности, пользовались простейшими моделями, а именно:

статистической частотной моделью интересующего нас случайного события, заключающегося в том, что в результате четырех последовательных бросаний игральной кости ни разу не выпадет «шестерка»; оценив по предыстории относительную частоту этого события и приняв ее за вероятность появления этого события в будущем ряду испытаний , мы, тем самым, используем модель случайного эксперимента с известной вероятностью его исхода (см. и п. 1.1.3);

теоретико-вероятностной моделью последовательности испытаний Бернулли (см. и п. 3.1.1), которая никак не связана с использованием результатов наблюдений (т. е. со статистикой); для подсчета вероятности интересующего нас события достаточно принятия гипотетического допущения о том, что используемая игральная кость идеально симметрична. Тогда в соответствии с моделью серии независимых испытаний и справедливой, в рамках этой модели, теоремой умножения вероятностей подсчитывается интересующая нас вероятность по формуле ;

вероятностно-статистической моделью , интерпретирующей оцененную в чисто статистическом подходе относительную частоту как некую случайную величину (см. и п. 2.1), поведение которой подчиняется правилам, определяемым так называемой теоремой Муавра–Лапласа; при построении этой модели были использованы как теоретико-вероятностные понятия и правила, так и статистические приемы, основанные на результатах наблюдений.

Обобщая этот пример, можно сказать, что:

вероятностная модель – это математическая модель, имитирующая механизм функционирования гипотетического (не конкретного) реального явления (или системы) стохастической природы; в нашем примере гипотетичность относилась к свойствам игральной кости: она должна была быть идеально симметричной;

вероятностно-статистическая модель – э то вероятностная модель, значения отдельных характеристик (параметров) которой оцениваются по результатам наблюдений (исходным статистическим данным), характеризующим функционирование моделируемого конкретного (а не гипотетического) явления (или системы).

Вероятностно-статистическая модель, описывающая механизм функционирования экономической или социально-экономической системы, называется эконометрической .

Прогностические и управленческие модели в бизнесе . Вернемся к задачам статистического анализа механизма функционирования предприятия (фирмы) и связанным с ними прогнозами. Вновь рассматривая «фазовое пространство » этих задач, нетрудно описать общую логическую структуру необходимых для их решения моделей. Эта структура прямо следует из сформулированного выше определения стратегии бизнеса .

Для того чтобы формализовать (т. е. записать в терминах математической модели) задачи оптимального управления и построения прогноза в бизнесе, введем следующие обозначения:

– вектор-столбец результирующих показателей (объем продаж и т. п.);

– вектор-столбец «поведенческих» (управляемых) переменных (вложения в развитие основных фондов, в службы маркетинга и т. п.);

– вектор-столбец так называемых «статусных» переменных, т. е. показателей, характеризующих состояние фирмы (число работников, основные фонды, возраст фирмы и т. п.);

– вектор-столбец гео-социо-экономико-демографичес-ких характеристик внешней среды (показатели общей экономической ситуации, характеристики клиентов и поставщиков и т. п.);

– вектор-столбец случайных регрессионных остатков (подробнее о них ниже).

Тогда система уравнений, на базе которых может осуществляться оптимальное управление предприятием и выполнение необходимых прогнозных расчетов , в самом общем виде может быть представлена в форме:

, (5)

где – некоторая векторнозначная ( -мерная) функция от , структура (значения параметров) которой, вообще говоря, зависит от того, на каких уровнях зафиксированы величины переменных «состояния» фирмы и «внешней среды» .

Тогда базовая проблема статистического анализа и прогнозирования в бизнесе состоит в построении наилучшей (в определенном смысле) оценки для неизвестной функции по имеющейся в распоряжении исследователя исходной статистической информации вида

где – значения соответственно поведенческих, «статусных», внешних и результирующих переменных, характеризующие -й такт времени (или измеренных на -м статистически обследованном предприятии), . Соответственно параметр (объем выборки ) интерпретируется как общая длительность наблюдений за значениями анализируемых переменных на исследуемом предприятии, если наблюдения регистрировались во времени , и как общее число статистически обследованных однотипных предприятий, если наблюдения регистрировались в пространстве (т. е., переходя от одного предприятия к другому). При этом описание функции должно сопровождаться способом расчета гарантированных погрешностей аппроксимации (ошибок прогноза ), т. е. таких векторных ( -мерных) значений и , которые для любых заданных значений и гарантировали бы выполнение неравенств (с вероятностью, не меньшей, чем , где – наперед заданная, достаточно близкая к единице положительная величина) , т.е. соответственно поведенческих (управляемых), «статусных» и переменных внешней среды для момента времени классической модели регрессии, величина тождественно равна нулю (см ).

Некоторые общие сведения о математическом инструментарии решения задач (9) и (10) см. ниже, в п. 4 .


Понятие экономико-статистической модели. Статистическая модель. Сущность статистического моделирования Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Южный федеральный университет»

Наиболее широкое распространение при построении прогнозов развития в практике коммерческой деятельности получили экономико-статистические модели , которые описывают зависимость исследуемого экономического показателя от одного или нескольких факторов, оказывающих на него существенное влияние.

Закономерности в экономике могут выражаться в виде математических моделей связей и зависимостей экономических показателей. Такие зависимости и модели получают только путем обработки реальных статистических данных с учетом внутренних механизмов связи и случайных факторов. Наличие и качество информационного обеспечения, реальные возможности сбора и обработки первичной информации во многом определяют как сферу практического применения статистического моделирования в экономике, так и выбор различных видов прикладных моделей.

Строить экономико-статистические модели и оценивать их параметры, проверять гипотезы о свойствах экономических показателей и формах их связей помогает математическая статистика - теория обработки и анализа данных. Ее применение в экономике служит основой для экономического анализа и прогнозирования, что в конечном счете создает возможности для принятия обоснованных экономических решений.

Экономические данные обычно делят на два вида: перекрестные данные и временные ряды. Особенности их формирования впоследствии определяют выбор тех или иных методов обработки и анализа данных, построения моделей, отражающих связи и зависимости показателей.

Перекрестные данные - это данные по какому-либо экономическому показателю, полученные для разных однотипных объектов (фирм, регионов, отдельных видов товаров и др.). При этом либо все данные относятся к одному и тому же моменту времени, либо их временная принадлежность несущественна. Такие данные особенно ценны при изучении конкурентных преимуществ экономического объекта, сравнительной оценке его эффективности с целью определения реального положения на рынке, а также для выявления общей, характерной для всей совокупности отобранных объектов, зависимости какого-либо экономического показателя от действия заданных факторов в конкретный момент времени. Примером перекрестных данных может быть набор сведений (объем реализации, количество работников, уровень доходов и т.д.) о разных торговых предприятиях в один и тот же момент времени.

Временные ряды - это данные, характеризующие один и тот же объект, но в различные моменты времени, т.е. в качестве признака упорядочения данных в таких рядах берется время. Примером временных рядов могут быть ежеквартальные данные об объеме товарооборота, средней заработной плате, данные об инфляции, уровне доходов, затрат за последние несколько лет. Временной ряд, состоящий из n -уровней у 1 , y 2 , …, y n может быть записан в компактной форме: y t , t = 1, 2, ..., n , где t - порядковый номер наблюдения.

Основными требованиями, предъявляемыми к исходным данным, являются требования сопоставимости, достаточной представительности для выявления закономерности, однородности и устойчивости. Невыполнение одного из этих требований делает бессмысленным применение математического аппарата.

Сопоставимость данных достигается в результате одинакового подхода к наблюдениям на разных этапах формирования ряда динамики. Данные каждого ряда должны выражаться в одних и тех же единицах, иметь одинаковый шаг наблюдений, рассчитываться для одного и того же интервала времени, по одной и той же методике, охватывать одни и те же элементы, принадлежащие одной территории, относящейся к неизменной совокупности.

Представительность данных характеризуется их полнотой. Достаточное число наблюдений определяется в зависимости от цели проводимого исследования. Если целью является описательный статистический анализ, то в качестве изучаемого интервала времени можно выбрать любой, по своему усмотрению. Если же цель исследования - построение модели динамики, то число уровней исходного динамического ряда должно не меньше, чем в 3 раза превышать период упреждения прогноза и быть не менее 7. В случае использования квартальных или помесячных данных для исследования сезонности и прогнозирования сезонных процессов исходный временной ряд должен содержать квартальные либо помесячные данные не менее, чем за 4 года, даже если требуется прогноз на 1-2 квартала (месяца).

Однородность данных предполагает отсутствие нетипичных, аномальных наблюдений, а также изломов сложившихся тенденций. Аномальность приводит к смещению оценок и, следовательно, к искажению результатов анализа. Изломы тенденций свидетельствуют об изменении закономерностей протекания процесса.

Устойчивость данных отражает преобладание закономерности над случайностью в изменении уровней ряда. Свойство устойчивости легче всего проследить графически. На графиках устойчивых временных рядов даже визуально прослеживается закономерность, а на графиках неустойчивых рядов изменения последовательных уровней представляются хаотичными, и поэтому поиск закономерностей в формировании значений уровней таких рядов лишен смысла.

2 Основные инструменты анализа экономических данных

MS Excel предлагает широкий диапазон средств для изучения экономической информации. Множество встроенных статистических функций (СРЗНАЧ, МЕДИАНА, МОДА и др.) используют для проведения несложного анализа данных. Если возможностей встроенных функций недостаточно, то обращаются к пакету анализа, который содержит большой набор соответствующих инструментов и значительно расширяет аналитические возможности Excel. Его можно использовать для ранжирования данных, извлечения случайных или периодических выборок из набора данных, проведения корреляционного анализа, получения основных статистических характеристик для выборки и т.п.

В частности, пакет анализа MS Excel позволяет произвести Описательную статистику , содержащую информацию о центральной тенденции и изменчивости входных данных.

Инструмент Описательная статистика , имеющийся в пакете «Анализ данных» MS Excel, предназначен для оценки выборки экономических данных, когда есть необходимость проследить характер распределения и оценить меру разброса фактических величин вокруг среднего значения. Описательная статистика предлагает таблицу основных статистических характеристик для одного или нескольких множеств входных значений. Выходной диапазон этого инструмента содержит следующие статистические характеристики для каждой переменной из входного диапазона: среднее, стандартная ошибка, медиана, мода, стандартное отклонение, дисперсия, коэффициент эксцесса, коэффициент асимметрии, размах (интервал), максимальное значение, минимальное значение, сумма, число значений, k -e наибольшее и наименьшее значения (для любого заданного значения k ) и уровень значимости (надежности) для среднего.

Среднее значение (у ср ) является основной характеристикой центра распределения. Для него характерно то, что все отклонения от него (положительные и отрицательные) в сумме равняются нулю. Excel вычисляет среднее значение по средней арифметической, суммируя ряд данных с последующим делением результата на количество значений ряда.

Стандартная ошибка оценивает меру ошибки рассчитанного на основе сформированной выборки среднего значения и снижается при увеличении массива отобранных данных.

Стандартное отклонение и дисперсия выборки являются статистическими характеристиками изменчивости (разброса) множества измерений. Стандартное отклонение - это квадратный корень из дисперсии. Как правило, приблизительно 68 % значений случайной величины, имеющей нормальное распределение, находятся в пределах одного стандартного отклонения от среднего и около 95 % - в пределах двух. Большое стандартное отклонение указывает на то, что значения сильно разбросаны относительно среднего, а малое - на то, что значения сосредоточены около среднего.

Размах (интервал) есть разность между максимальным и минимальным значениями ряда данных, т.е. длина интервала, которому принадлежат все данные выборки. Чем больше эта длина, тем более рассеяна кривая распределения, тем больше колеблемость изучаемого признака.

Минимум характеризует наименьшее значение во входном диапазоне данных.

Максимум отражает наибольшее значение во входном диапазоне данных.

Мода (Мо ) определяет значение, которое чаще других встречается в массиве данных.

Медиана (Me ) - это значение, разделяющее заданное множество данных (выборку) на две равные части, т.е. половина чисел оказывается больше и половина - меньше медианы. Если количество данных четное, то значение медианы равно среднему из двух чисел, находящихся в середине множества.

Соотношение среднего значения, моды и медианы указывает на характер распределения изучаемого признака в совокупности, позволяет оценить его асимметрию. В симметричных распределениях все три характеристики совпадают. Чем больше расхождение между модой и средним значением, тем более асимметричен ряд.

Оценку отклонения фактического распределения каждого набора входных данных (выборки) от нормального распределения проводят также с помощью коэффициентов асимметрии и эксцесса . Для нормального распределения асимметрия и эксцесс равны нулю. При отклонении от нормального распределения асимметрия положительна, если «длинная» и более пологая часть кривой распределения расположена справа от точки на оси абсцисс, соответствующей моде. Для правосторонней асимметрии характерно неравенство Mo. Если «длинная» и более пологая часть кривой расположена слева от моды, то асимметрия отрицательна. Для левосторонней асимметрии показатели центра имеют соотношение Mo>Me>у ср . Принято считать, что асимметрия выше 0,5 (независимо от знака) считается значительной; если она меньше 0,25 - незначительной. Эксцесс характеризует «крутизну» подъема кривой распределения по сравнению с нормальной кривой: если эксцесс положителен, то кривая имеет более высокую и острую вершину; в случае отрицательного эксцесса сравниваемая кривая имеет более низкую и пологую вершину. Наличие значительного отрицательного эксцесса может указывать на качественную неоднородность исследуемой совокупности.

Увеличение количества наблюдений и соответственно размера совокупности данных значительно повышает практическую ценность проводимого на основе Описательной статистики исследования. Поэтому широкое применение этот инструмент анализа находит при проведении экономических исследований территориального и отраслевого масштаба, когда требуются расчет и оценка статистических характеристик множества различных экономических показателей на основе больших массивов данных по каждому их них.

3 Применение корреляционного анализа для решения экономических задач

Любая экономическая политика заключается в регулировании определенных экономических параметров и поэтому должна основываться на знании того, как эти параметры влияют на другие составляющие экономической среды.

Связь одного из показателей с другими описывается с помощью функций одной у = f(x) или нескольких у = f(x 1 , х 2 , …, х n) переменных.

На исследуемый показатель, кроме явно учитываемых объясняющих признаков, влияет еще множество других факторов, существующих в действительности, но не учитываемых явно в модели. Большинство этих факторов - случайные, незначимые или не поддающиеся количественному выражению, но они приводят к вариации реальных данных, их несовпадению с величинами, рассчитанными по формуле связи переменной с объясняющими признаками. Это обусловливает стохастическую природу как экономических показателей, так и взаимосвязей между ними. Стохастические взаимосвязи экономических переменных можно описать с помощью так называемых корреляционных характеристик.

Корреляционный анализ – это раздел математической статистики, посвященный изучению взаимосвязей между случайными величинами. Аппарат корреляционного анализа объединяет специальные статистические методы и, соответственно, показатели, значения которых определенным образом (и с определенной вероятностью) свидетельствуют о присутствии или отсутствии связи между переменными.

Основной целью корреляционного анализа является установление характера влияния факторной переменной на исследуемый показатель и определение тесноты их связи с тем, чтобы с достаточной степенью надежности строить модель развития исследуемого показателя.

Учитывая то обстоятельство, что на любой результирующий экономический показатель оказывает воздействие множество факторов, важно грамотно и обоснованно подойти к выбору наиболее значимых из них. От правильности сделанного выбора во многом будет зависеть и достоверность полученных на основе построенной модели прогнозов.

Предварительный отбор факторов для корреляционного анализа производится логически на основе содержательных экономических оценок. При этом все факторы, воздействующие на исследуемый показатель, подразделяются на два вида - формализуемые и неформализуемые. Формализуемые факторы допускают аналитический расчет с использованием экономико-математических методов по определенным алгоритмам с применением вычислительной техники или без нее. Именно такие факторы могут быть отобраны для корреляционного анализа. Неформализуемые факторы не поддаются количественному измерению и поэтому включить их в экономико-математическую модель не представляется возможным. К ним относятся политические, моральные, этические факторы, социально-психологические мотивы, привычки, традиции, опыт и др.

Поскольку корреляционная связь с достаточной выразительностью и полнотой проявляется только в массе наблюдений, объем выборки данных должен быть достаточно большим. В условиях нестабильности экономики построение длинных динамических рядов на основе годовых данных представляется нецелесообразным вследствие несопоставимости условий функционирования экономического объекта (в том числе и торгового предприятия). Поэтому число наблюдений можно увеличить за счет данных о динамике исследуемых показателей по кварталам и месяцам.

С технической точки зрения проведение корреляционного анализа сводится к расчету коэффициентов парной корреляции, значения которых помогут судить о характере и тесноте связи между исследуемым показателем и каждой отобранной факторной переменной.

Коэффициент парной корреляции используется в качестве меры, характеризующей степень линейной связи двух переменных. Значение коэффициента корреляции лежит в интервале от -1 (в случае строгой линейной отрицательной связи) до +1 (в случае строгой линейной положительной связи). Соответственно, положительное значение коэффициента корреляции свидетельствует о прямой связи между исследуемым и факторным показателем, а отрицательное - об обратной. Чем ближе значение коэффициента корреляции к 1, тем теснее связь. Качественно оценить тесноту связи позволяет специальная шкала значений коэффициентов корреляции, разработанная профессором Колумбийского университета США Чеддоком (таблица 3.1).

Таблица 3.1 - Оценка тесноты связи двух переменных на основе коэффициента корреляции

Из кн.: Плавинский С.Л. Биостатистика.Планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS . СПб: Издательский дом СПб МАПО.- 2005

При проведении любого научного исследования достоверности выводов угрожают три основных причины:

1. Систематические ошибки

2. Случайные ошибки

3. Влияние третьих переменных (конфаундинг)

Воздействие систематических ошибок минимизируется на этапе выбора дизайна исследования, статистическая обработка, направленная на тестирование статистических гипотез пытается устранить влияние случайных ошибок (минимизация случайных ошибок - соответствующий объем выборки), а вот попытка описания влияния третьих переменных часто является причиной для работы со статистическими моделями.

Статистические модели построены на том, что вначале делается предположение о характере связей между анализируемыми переменными, затем проверяется соответствие данных модели и в зависимости от степени этого соответствия делаются определенные выводы.

Простейшей формой статистической модели является линейная регрессия. При ее использовании делается предположение о том, что два показателя связаны друг с другом линейно и именно эта гипотеза и проверяется (кроме того делается предположение о том, что одна переменная зависит от другой). Таким образом, статистические модели базируются на двух типах допущений - как и методы тестирования статистических гипотез они предполагают, что данные распределены определенным образом (чаще всего по нормальному закону распределения), и в дополнение к этому делается предположение о характере связи. Поэтому сделать ошибку при использовании статистических моделей в два раза легче и они обычно рассматриваются как инструментарий требующий дополнительной подготовки в области статистики.

Точно также, как и в случае с тестированием гипотез, для простоты понимания нам следует рассмотреть отдельно модели для качественных и количественных переменных. Хотя медицинские исследователи сейчас чаще работают с качественными показателями, статистические модели лучше разработаны для количественных переменных.

В принципе возможны следующие варианты при которых мы можем захотеть использовать статистические модели:

1. Зависимая переменная количественная, независимые переменные тоже количественные - основной тип модели - множественная (линейная) регрессия

2. Зависимая переменная количественная, независимые переменные качественные - основной тип модели - многофакторный дисперсионный анализ

3. Зависимая переменная количественная, независимые переменные как количественные, так и качественные - основной тип модели - общая линейная модель

4. Зависимая переменная качественная, независимые переменные тоже качественные - основной тип модели - логлинейный анализ

5. Зависимая переменная качественная, независимые переменные количественные - основной тип модели - дискриминантный анализ

6. Зависимая переменная качественная, независимые переменные как качественные, так и количественные - основной тип модели - логистическая регрессия.

Как видно из приведенного выше списка, в целом существуют две наиболее общие процедуры - общая линейная модель для зависимых количественных переменных и логистическая регрессия для зависимых качественных переменных, а все остальные модели являются частными случаями этих двух.

Для ряда приложений, например анализа выживаемости пациентов в проспективном исследовании, описанные выше методики оказались недостаточно приемлемыми, поскольку в этом случае имеется более одной зависимой переменной (одна - что произошло с пациентом, вторая - когда это произошло). Поэтому для анализа выживаемости были разработаны специальные формы статистических моделей, наиболее известными из них являются параметрические регрессионные методы (Вейбулла) и непараметрические регрессионные модели (модель Кокса).

Существуют еще специальные формы статистических моделей, которые пытаются найти скрытые связи между включенными в анализ переменными и наблюдениями. Эти методики пришли в биостатистику из психометрии и к ним относятся:

1. Факторный анализ - методика обнаружения ненаблюдаемых напрямую факторов, отвечающих за связи между количественными переменными

2. Кластерный анализ - методика объединения наблюдений или переменных в группы на основании "одинаковости" измеренных количественных характеристик

3. Корреспондентский анализ - аналог факторного анализа для многомерных таблиц

4. Многомерное шкалирование - методика, пытающаяся расположить переменные друг относительно друга в пространстве меньшей размерности (создать аналог географической карты)

В последнее время, в связи с переходом в хранении данных на компьютерные носители и, в связи с этим, с резким увеличением рутинно собираемых данных, появились новые статистические модели, направленные на выявление закономерностей в крупных и плохоструктурированных базах данных. К ним относятся:

1. Древовидное моделирование (regression trees) - методика сегментирования данных, нахождения точек, которые наилучшим образом разделяют наблюдения на группы в зависимости от значения итоговой переменной (например, определение группы риска больничной летальности в зависимости от большого набора биохимических показателей, измеренных при госпитализации)

2. Нейросетевое моделирование (neural networks) - методика определения связей между набором входных параметров и зависимой переменной, которая не делает предположений об истинной форме этих связей (как, например, линейная регрессия). Для статистиков нейросетевое моделирование - это множественная нелинейная регрессия. Программы нейросетевого моделирования формируют структуру, которая, работая по принципу "черного ящика" может достаточно точно предсказать выходные параметры на основании набора входных величин.

Надо заметить, что эти методики, особенно нейросетевого моделирования, нашли широкое применение в технических приложениях. Системы машинного видения, оптического распознавания символов, биометрические системы безопасности, почти все они используют алгоритмы нейросетевого моделирования. Однако в медицинских исследованиях использование этих методов, после короткого периода увлечения, широко не распространилось. Причиной тому является необходимость наличия огромных массивов данных если есть желание получить реальную, работающую модель. Обычно для нейросетевой и древовидной моделей требуются тысячи наблюдений, причем наблюдения должны быть достаточно гомогенными. В случае небольших групп, часто возникает т.н. Подгонка модели под данные (overfitting), когда модель прекрасно описывает данный набор результатов, но абсолютно неприменима на людом другом наборе данных.

Очень легко представить себе, почему это происходит. Нейросетевое моделирование базируется на попытке разделить данные на группы при условии наличия большого количества входных параметров. Предположим, что мы хотим научить компьютер отличать мужчин от женщин, и представляем ему группу, состоящую из преподавателя биостатистики и трех аспиранток. Тогда, проанализировав данные, компьютер легко найдет правило, дифференцирующее мужчин и женщин: если некто преподаватель, то он мужчина. В данной группе разделение будет лучшим, нежели по любым другим параметрам, таким как тембр голоса, охват талии и бедер, длина волос и т.п. Однако будет ли подобный результат генерализуем?

Именно по причине зависимости от большого количества наблюдений, методы нейросетевого и древовидного моделирования не находят большого распространения в медицинской науки, а учитывая тот грустный факт, что отечественная наука в последнее время вообще предпочитает работать с небольшими выборками, до широкого применения их еще можно ждать достаточно долго (возможно, ситуация изменится с повсеместным внедрением компьютеризированных регистров заболеваний, например раковых регистров).

Этот раздел предполагает, что у читателя есть некоторые познания в статистической методологии, в особенности в регрессионном анализе и дисперсионном анализе. Позже сделаем некоторые более честолюбивые предположения, а именно, что что-то известно об общей линейной модели и нелинейной регрессии.
Требования для подгонки статистической модели достаточно хорошо определены для разработки универсального, применимого для широкого спектра задач инструментария.
R обеспечивает набор взаимосвязанных инструментов, который делает очень простой подгонку статистических моделей. Как упоминалось во введении, по умолчанию отображается минимальный набор результатов, и нужно запрашивать подробности при обращении к функциям вывода.
Определение статистических моделей; формулы

Шаблон для статистической модели - линейная регрессионная модель с независимыми, гомоскедастичными ошибками:
В матричном виде можно записать:
y = Xβ + e
где y - вектор отклика,X матрица модели или матрица проекта и имеет столбцыx 0 ; x 1 …. ; x p определяющих переменных. Очень частоx 0 будет столбцом, дающий параметр смещения.
Примеры
Прежде чем дать формальное определение, несколько примеров помогут составить общее представление. Предположим, что y, x, x0, x1, x2 ... числовые переменные,X матрица иA, B, C ...
являются факторами. Ниже следующие формулы задают статистические модели, справа даны описания моделей.
y ~ x y ~ 1 + x
Обе подразумевают одинаковую простую линейную регрессионную модель y на
x . У первой есть неявный параметр смещения, а у второй - явный.
y ~ 0 + x y ~-1 + x y ~ x - 1
Простая линейная регрессия y наx через источник (то есть, без параметра смещения).log (y) ~ x1 + x2
Множественная регрессия преобразованной переменной log(y) наx1 иx2 (с неявным параметром смещения).
y ~ poly (x, 2) y ~ 1 + x + I(x^2) Параболическая регрессияy наx степени 2. Первая форма использует ортогональные полиномы, вторая использует явную степень, как основание.y ~ X + poly (x, 2)
Множественная регрессия y с модельной матрицей, состоящей из матрицыX , включая параметр полиномаx степени 2.y ~ A
Модель дисперсионного анализа одиночной классификации y с классами, определенными A.y ~ A+ x
Модель ковариационного анализа одиночной классификации y с классами, определеннымиA , и с ковариантомx .
y ~ A*B y ~ + B + A:B y ~ B %in % A y ~ A/B
Модель двух факторного дисперсионного анализа y поA иB . Первые две специфицируют одинаковую кросс классификацию, а вторые две специфицируют одинаковую вложенную классификацию.
В абстрактных понятиях все четыре специфицируют одинаковое подмножество моделей. y ~ (A+ B + C) ^2 y ~ A*B*C - A:B:C
Трех факторный эксперимент, но с моделью, содержащей основные эффекты и факторы попарного взаимодействия. Обе формулы специфицируют одинаковую модель. y ~ A * x y ~ A/x y ~ A / (1 + x) - 1
Изолированные модели простой линейной регрессии y наx в пределах уровней заданных вA различными метками. В последнем виде производит четко столько вычислений различных отсекаемых отрезков и коэффициентов наклона, сколько имеется уровнейA.
y ~ A*B + Error(C)
Эксперимент с двумя факторами воздействия A и B, и стратифицированной ошибкой, определяемой факторомC . Например, разделить отображение эксперимента на участки (и, следовательно, части рисунка), определяемые факторомC .
Оператор ~ используется для определения формулы модели в R . Форма для простой линейной модели:response ~ op_1 term_1 op_2 term_2 op_3 term_3 ... где:
response - вектор или матрица (или оценка выражения к вектору или матрице), определяющая переменную (ые) отклика.
op_i - оператор, или “+” или “-“, подразумевая включение или исключение параметра в модели (первое является дополнительным).term_i также является либо:
векторным или матричным выражением, или 1, либо
фактор, либо
выражением формулы, состоящей из факторов, векторов или матриц, соединенных операторами формулы.

Во всех случаях каждый параметр определяет набор столбцов либо для добавления к матрице модели, либо для удаления из матрицы модели. 1 устанавливается для столбца смещения и по умолчанию включена в матрицу модели, если явно не удалена.
Операторы формулы подобны нотации Уилкинсона и Роджерса, используемой такими программами как Glim и Genstat. Одно неизбежное изменение то, что оператор "." становится ‘:’ так как точка является допустимым символом имени в R.
В итоге ниже получена нотация (основано на Chambers & Hastie, 1992, p.29):
Y ~ М Y смоделирован как М.
M_1 + M_2 Включают М_1 и М_2.
M_1 - M_2 Включают М_1 и исключают параметр М_2.
M_1: M_2 Тензорное произведение М_1 и М_2. Если оба параметра - факторы, то фактор "подклассов". M_1 %in % M_2
Подобно M_1:M_2, но с различным синтаксисом.
M_1 * M_2 M_1 + M_2 + M_1:M_2. M_1 / M_2 M_1 + M_2 %in % M_1.
M^n Все параметры вМ вместе со "взаимодействиями" до порядка nI(M) ИзолированноеМ. ВнутриМ все операторы имеют свое обычное арифметическое значение, и этот параметр появляется в матрице модели.
Заметим, что в круглых скобках, которые обычно включают аргументы функции, у всех операторов есть свое нормальное арифметическое значение. Функция I() является зеркальным отображением, используемым для придания определенности параметрам в формулах модели, используя арифметические операторы.
В частности заметим, что формулы модели описывают столбцы матрицы модели, определение подразумевающихся параметров. Дело обстоит не так в других контекстах, например в определении нелинейных моделей.

Статистическое моделирование базовый метод моделирования, заключающийся в том, что модель испытывается множеством случайных сигналов с заданной плотностью вероятности. Целью является статистическое определение выходных результатов. В основе статистического моделирования лежит метод Монте-Карло . Напомним, что имитацию используют тогда, когда другие методы применить невозможно.

Метод Монте-Карло

Рассмотрим метод Монте-Карло на примере вычисления интеграла, значение которого аналитическим способом найти не удается.

Задача 1 . Найти значение интеграла:

На рис. 21.1 представлен график функции f (x ) . Вычислить значение интеграла этой функции значит, найти площадь под этим графиком.

Рис. 21.1. Определение значения интеграла
методом Монте-Карло

Рис. 21.2. Фрагмент алгоритма реализации
метода Монте-Карло

Рис. 21.3. Общая схема метода статистического моделирования

Таблица 21.1.
Результаты испытаний бросания монеты

Количество опытов N	1	2	3	4	5	6	7	8	9	10	11	12	13	14
Значение счетчика выпадения орла N о	0	0	1	1	2	3	4	…	…	…	…	…	…	…
Значение счетчика выпадения решки N р	1	2	2	3	3	3	3	…	…	…	…	…	…	…
Частость выпадения орла P о =N о /N	0	0	0.33	0.25	0.4	0.5	0.57	…	…	…	…	…	…	…
Частость выпадения решки P р =N р /N	1	1	0.66	0.75	0.6	0.5	0.43	…	…	…	…	…	…	…

Будем подсчитывать частость выпадения орла как отношение количества случаев выпадения орла к общему числу наблюдений. Посмотрите в табл. 21.1. случаи для N = 1 , N = 2 , N = 3 сначала значения частости нельзя назвать достоверными. Попробуем построить график зависимости P о от N и посмотрим, как меняется частость выпадения орла в зависимости от количества проведенных опытов. Разумеется, при различных экспериментах будут получаться разные таблицы и, следовательно, разные графики. На рис. 21.4 показан один из вариантов.

Рис. 21.4. Экспериментальная зависимость частости появления случайного события
от количества наблюдений и ее стремление к теоретической вероятности

Сделаем некоторые выводы.

Видно, что при малых значениях N , например, N = 1 , N = 2 , N = 3 ответу вообще доверять нельзя. Например, P о = 0 при N = 1 , то есть вероятность выпадения орла при одном броске равна нулю! Хотя всем хорошо известно, что это не так. То есть пока мы получили очень грубый ответ. Однако, посмотрите на график: в процессе накопления информации ответ медленно, но верно приближается к правильному (он выделен пунктирной линией). К счастью, в данном конкретном случае правильный ответ нам известен: в идеале, вероятность выпадения орла равна 0.5 (в других, более сложных задачах, ответ нам, конечно, будет неизвестен). Допустим, что ответ нам надо знать с точностью ε = 0.1 . Проведем две параллельные линии, отстоящие от правильного ответа 0.5 на расстояние 0.1 (см. рис. 21.4 ). Ширина образовавшегося коридора будет равна 0.2. Как только кривая P о (N ) войдет в этот коридор так, что уже никогда его не покинет, можно остановиться и посмотреть, для какого значения N это произошло. Это и есть экспериментально вычисленное критическое значение необходимого количества опытов N кр э для определения ответа с точностью ε = 0.1 ; ε -окрестность в наших рассуждениях играет роль своеобразной трубки точности. Заметьте, что ответы P о (91) , P о (92) и так далее уже не меняют сильно своих значений (см. рис. 21.4 ); по крайней мере, у них не изменяется первая цифра после запятой, которой мы обязаны доверять по условиям задачи.
Причиной такого поведения кривой является действие центральной предельной теоремы (см. лекцию 25 и лекцию 34). Пока здесь мы сформулируем ее в самом простом варианте «Сумма случайных величин есть величина неслучайная». Мы использовали среднюю величину P о , которая несет в себе информацию о сумме опытов, и поэтому постепенно эта величина становится все более достоверной.
Если проделать еще раз этот опыт сначала, то, конечно, его результатом будет другой вид случайной кривой. И ответ будет другим, хотя примерно таким же. Проведем целую серию таких экспериментов (см. рис. 21.5 ). Такая серия называется ансамблем реализаций . Какому же ответу в итоге следует верить? Ведь они, хоть и являются близкими, все же разнятся. На практике поступают по-разному. Первый вариант вычислить среднее значение ответов за несколько реализаций (см. табл. 21.2).

Рис. 21.5. Экспериментально снятый ансамбль случайных зависимостей
частости появления случайного события от количества наблюдений

Мы поставили несколько экспериментов и определяли каждый раз, сколько необходимо было сделать опытов, то есть N кр э . Было проделано 10 экспериментов, результаты которых были сведены в табл. 21.2. По результатам 10-ти экспериментов было вычислено среднее значение N кр э .

Таблица 21.2.
Экспериментальные данные
необходимого количества бросков монеты
для достижения точности ε = 0.1
при вычислении вероятности выпадения орла

Опыт	N кр э
1	288
2	95
3	50
4	29
5	113
6	210
7	30
8	42
9	39
10	48
Среднее N кр. э	94

Таким образом, проведя 10 реализаций разной длины, мы определили, что достаточно в среднем было сделать 1 реализацию длиной в 94 броска монеты.

Еще один важный факт. Внимательно рассмотрите график на рис. 21.5 . На нем нарисовано 100 реализаций 100 красных линий. Отметьте на нем абсциссу N = 94 вертикальной чертой. Есть какой-то процент красных линий, которые не успели пересечь ε -окрестность, то есть (P эксп ε ≤ P теор ≤ P эксп + ε ), и войти в коридор точности до момента N = 94 . Обратите внимание, таких линий 5. Это значит, что 95 из 100, то есть 95%, линий достоверно вошли в обозначенный интервал.

Таким образом, проведя 100 реализаций, мы добились примерно 95%-ного доверия к полученной экспериментально величине вероятности выпадения орла, определив ее с точностью 0.1. Для сравнения полученного результата вычислим теоретическое значение N кр т теоретически. Однако для этого придется ввести понятие доверительной вероятности Q F , которая показывает, насколько мы готовы верить ответу. Например, при Q F = 0.95 мы готовы верить ответу в 95% случаев из 100. Формула теоретического расчета числа экспериментов, которая будет подробно изучаться в лекции 34 , имеет вид: N кр т = k (Q F ) · p · (1 p )/ε 2 , где k (Q F ) коэффициент Лапласа, p вероятность выпадения орла, ε точность (доверительный интервал). В табл. 21.3 показаны значения теоретической величины количества необходимых опытов при разных Q F (для точности ε = 0.1 и вероятности p = 0.5 ).

Как видите, полученная нами оценка длины реализации, равная 94 опытам очень близка к теоретической, равной 96. Некоторое несовпадение объясняется тем, что, видимо, 10 реализаций недостаточно для точного вычисления N кр э . Если вы решите, что вам нужен результат, которому следует доверять больше, то измените значение доверительной вероятности. Например, теория говорит нам, что если опытов будет 167, то всего 1-2 линии из ансамбля не войдут в предложенную трубку точности. Но имейте в виду, количество экспериментов с ростом точности и достоверности растет очень быстро.

Второй вариант, используемый на практике провести одну реализацию и увеличить полученное для нее N кр э в 2 раза . Это считают хорошей гарантией точности ответа (см. рис. 21.6 ).

Рис. 21.6. Иллюстрация экспериментального определения N кр э по правилу «умножь на два»

Если присмотреться к ансамблю случайных реализаций , то можно обнаружить, что сходимость частости к значению теоретической вероятности происходит по кривой, соответствующей обратной квадратичной зависимости от числа экспериментов (см. рис. 21.7 ).

Рис. 21.7. Иллюстрация скорости схождения экспериментально получаемой частости
к теоретической вероятности

Это действительно так получается и теоретически. Если изменять задаваемую точность ε и исследовать количество экспериментов, требуемых для обеспечения каждой из них, то получится табл. 21.4.

Построим по табл. 21.4 график зависимости N кр т (ε ) (см. рис. 21.8 ).

Рис. 21.8. Зависимость числа экспериментов, требуемых для достижения
заданной точности ε при фиксированном Q F = 0.95

Итак, рассмотренные графики подтверждают приведенную выше оценку:

Заметим, что оценок точности может быть несколько. Некоторые из них будут еще обсуждаться в лекции 34 .

Пример 2. Нахождение площади фигуры методом Монте-Карло . Определите методом Монте-Карло площадь пятиугольника с координатами углов (0, 0), (0, 10), (5, 20), (10, 10), (7, 0).

Нарисуем в двухмерных координатах заданный пятиугольник, вписав его в прямоугольник, чья площадь, как нетрудно догадаться, составляет (10 0) · (20 0) = 200 (см. рис. 21.9 ).

Рис. 21.9. Иллюстрация к решению задачи
о площади фигуры методом Монте-Карло

Используем таблицу случайных чисел для генерации пар чисел R , G , равномерно распределенных в интервале от 0 до 1. Число R X (0 ≤ X ≤ 10) , следовательно, X = 10 · R . Число G будет имитировать координату Y (0 ≤ Y ≤ 20) , следовательно, Y = 20 · G . Сгенерируем по 10 чисел R и G и отобразим 10 точек (X ; Y ) на рис. 21.9 и в табл. 21.5.

Таблица 21.5.
Решение задачи методом Монте-Карло

Номер точки	R	G	X	Y	Точка (X; Y) попала в прямоугольник?	Точка (X; Y) попала в пятиугольник?
1	0.8109	0.3557	8.109	7.114	Да	Да
2	0.0333	0.5370	0.333	10.740	Да	Нет
3	0.1958	0.2748	1.958	5.496	Да	Да
4	0.6982	0.1652	6.982	3.304	Да	Да
5	0.9499	0.1090	9.499	2.180	Да	Нет
6	0.7644	0.2194	7.644	4.388	Да	Да
7	0.8395	0.4510	8.395	9.020	Да	Да
8	0.0415	0.6855	0.415	13.710	Да	Нет
9	0.5997	0.1140	5.997	2.280	Да	Да
10	0.9595	0.9595	9.595	19.190	Да	Нет
Всего:					10	6

Статистическая гипотеза заключается в том, что количество точек, попавших в контур фигуры, пропорционально площади фигуры: 6:10 = S :200 . То есть, по формуле метода Монте-Карло, получаем, что площадь S пятиугольника равна: 200 · 6/10 = 120 .

Проследим, как менялась величина S от опыта к опыту (см. табл. 21.6).

Таблица 21.6.
Оценка точности ответа

Количество испытаний N	Оценка вероятности попадания случайной точки в испытуемую область	Оценка площади S методом Монте-Карло
1	1/1 = 1.00	200
2	1/2 = 0.50	100
3	2/3 = 0.67	133
4	3/4 = 0.75	150
5	3/5 = 0.60	120
6	4/6 = 0.67	133
7	5/7 = 0.71	143
8	5/8 = 0.63	125
9	6/9 = 0.67	133
10	6/10 = 0.60	120

Поскольку в ответе все еще меняется значение второго разряда, то возможная неточность составляет пока больше 10%. Точность расчета может быть увеличена с ростом числа испытаний (см. рис. 21.10 ).

Рис. 21.10. Иллюстрация процесса сходимости определяемого
экспериментально ответа к теоретическому результату