1 Рис Рис Рис 3 icon

1 Рис Рис Рис 3



Название1 Рис Рис Рис 3
Дата конвертации25.05.2013
Размер207.77 Kb.
ТипДокументы
источник

1
Рис.1.

Рис.2.

Рис.3.

3. признак фиксирован

объект

время

Рис.4.
. Основные структуры данных и соответствующие им задачи.


Рассмотрим систему координат, изображенную на рис. 1.Возможны три ситуации (рис.2,3,4):





Соответственно различают три структуры данных:

  1. матрица типа “объект-признак”;

  2. временной ряд;

  3. матрица близостей.

3. Стандартизация матрицы данных.





Пусть

X называется стандартизированной матрицей данных

^ 5. Геометрическая интерпретация матрицы данных.

Под матрицей будем понимать стандартизованную матрицу данных.

  1. Каждому признаку (вектору - столбцу) поставим в соответствие ось координат => матрица X - набор из N-точек в p- мерном пространстве - это пространство называется пространством признаков, т.е. объект - это точка в пространстве признаков.

  2. Каждому объекту поставим в соответствие ось некоторой системы координат в N - мерном пространстве => каждому признаку будет соответствовать в этом пространстве некоторая точка - это тоже вектор. Матрица данных - это p точек в N- мерном пространстве объектов. В силу того, что матрица стандартизована и длина всех признаков = часто задача взаимосвязи между признаками сводится к определению углов между признаками в N- мерном пространстве объектов.

^ 8. Оценка сверху модуля ковариации.



В (*) сделаем замену с1=х, с2=1. Тогда будем иметь D(х*+)=х2++2*х

C другой стороны, если х не константа, то это парабола у которой ветви направлены вверх, т.к. >0, значение параболы для любого х больше или равно 0, поэтому дискриминант этого квадратного трехчлена меньше или равен нуля:

(**)

  1. ^ Анализ матриц «объект-признак».

Пусть матрица Х - матрица типа “ объект-признак ”.



р - число признаков, n - число объектов, хij – значение j-го признака на i-ом объекте, i=[1,..,N], j=[1,..,p].

^ Основные задачи:

1) Сжатие информации.

Содержательная постановка задачи: найти небольшое число наиболее важных свойств исследуемого явления (например: рост, размер, полнота). Формальная постановка задачи: устранить дублирующие друг друга признаки или построить новые признаки (меньшее число) описывающие данные. Построение новых признаков должно производится без потери информации. Они объективно существуют, но не измеряются непосредственно. Этими задачами занимается факторный анализ.

2) Задача исследования зависимости одного признака от других (этот признак называется целевым).

Содержательная постановка: описать зависимость избранного свойства исследуемых объектов от остальных свойств (например, прогноз погоды по набору народных примет).Формальная постановка: найти функциональную зависимость, приближенно описывающую изменение целевого признака при изменении других признаков. Такими задачами занимается регрессионный анализ.

3) Задачи классификации.

а) Кластерный анализ.

Содержательная постановка: среди множества исследуемых объектов найти естественные группы с похожими свойствами. Например, создание классификации животных и растений по классам, родам и видам.Формальная постановка: обнаружить в пространстве описаний компактное скопление точек.

б) Классификация с обучением.

Содержательная постановка: найти правило, пользуясь которым можно определить принадлежность любого объекта к одному из заданных образов или классов.Формальная постановка: найти в пространстве описания поверхность, разделяющую группы точек, соответствующих различным образам, и описать ее как функцию исходных признаков или найти к какой группе точек (образу) относятся данные точки-объекты.



^ 22. МНК – оценки параметров уравнения регрессии.

Суть МНК состоит в следующем: неизвестные параметры выбираются из условия минимума суммы квадратов отклонений фактических значений от расчетных. Сумму квадратов отклонений фактических значений обозначают Q().









Можно показать, что

Иначе:

Q()=(y-x)T *(y-x)=yT*y-yT*(x-(x)T*y+(x)T*(x)=

=yT*y-2T*xT*y+T*xT*x - должно быть минимально по , поэтому берем производную по 



2xT y=2xT x

xT y=xT x

a - оценка 

- МНК оценка вектора 

Свойства МНК оценки вектора 

Оценка МНК линейная по y.

Оценка МНК несмещенная.

Определение: Оценка b параметра  называется несмещенной, если М(b)=

Доказательство:

Надо доказать, что , где y=x

М(у)=М(х+)=М(х)+Мх

Так как хконстанта

В классе линейных по у несмещенных оценок МНК-оценка обладает минимальной дисперсией, т.е. оценка эффективная.


^ 16. Положительная полуопределенность корреляционной матрицы.

Определение 1: Матрица А(pp) - называется положительно полуопределенной, если для любого p - мерного вектора =( …t) скалярное произведение (А, )0.

Определение 2: Матрица А(pp) - называется положительно определенной, если для любого ненулевого p - мерного вектора =(…p) скалярное произведение (А, )>0.

Свойство КМ:

  1. корреляционная матрица - положительно полуопределенная. Т.е. надо доказать, что (R, )0.











Замечание 1:

Линейная комбинация равняется нулю, если столбцы линейно зависимы. Т.е. при не нулевом  может быть равно нулю только в случае линейной зависимости признаков. Так как все признаки измеряются, т.е. имеется случайная погрешность измерения и на практике должно быть N>>p ,то линейная зависимость столбцов практически не возможна. Из вышеизложенного следует, что матрицу R можно считать положительно определенной.

^ 7. Теорема о дисперсии линейной комбинации случайных величин и её следствия.

Теорема: Пусть для случайных величинn существуют ковариации: cov(i,j)=ij, i=1,..,n, j=1,..,n. Тогда для любых постоянных с1, с2,... ,сn существует дисперсия линейной комбинации случайных величин с этими весами и эта дисперсия равна .

Доказательство:

DxM(x Mx)2, х – случайная величина.









(Использована формула ).

Следствие 1:

Если c 1 ,c 2,…,c n - константы, а случайные величины …n независимы, то дисперсия их линейной комбинации .

Доказательство:

По пятому свойству  ii=Di, а если i не равно j , то ij=0 , (по второму свойству), т.о. остаются те слагаемые, где индексы совпадают: .

Следствие 2:




^ 9. Ковариационная матрица, её свойства.

Заданы n случайных величин …,n и cov(i,j)=ij. Из них сформируем матрицу.



Свойства ковариационной матрицы:

  1. матрица  - симметричная.

  2. на главной диагонали матрицы стоят дисперсии.

^ 24. Метод главных компонент: предпосылки появления.

1) Многие признаки существенно коррелированы.

2) Некоторые признаки обладают достаточно малой дисперсией, т.е. при переходе от одного объекта к другому почти не изменяются, и, поэтому, малоинформативны.

3) Возможно существуют новые признаки (может быть даже непосредственно не измеряемые).







^ 10. Выборочная ковариация.

Пусть существуют случайные величины х и у. Например, x – путь пройденный автомобилем, y – расход топлива. Между х и у существует стохастическая связь. Как определить эту связь?

Возьмем набор наблюдений (х11), (х22), …, (хnn).

,

Пусть S - оценка ковариации, тогда - это аналог определения ковариации.

Недостатки ковариации, как меры связи:

  1. размерность ковариации может быть очень большой.

  2. ковариация - величина не нормированная.

Поэтому вводится понятие корреляции.

^ 6. Ковариация и её свойства.

Ковариация - это количественная мера связи двух случайных величин.

Пусть 1 и  2 - случайные величины, тогда

cov(M[(M)*(-M)]=

=M(MMM)=

=M()-MMMMMMM()-MM

Свойства:

  1. cov()=M() - MM

  2. Если случайные величины независимы, то их ковариация равна нулю.

  3. cov()=cov()

  4. Если а и b - некоторые константы, то cov(a*+b*)=a*cov()+b*cov().

cov()=D

^ 25. Главные компоненты: определения и свойства.

Пусть дана матрица «объект – признак»

Векторы x1, x2, ..., xp - это измеряемые признаки. Главными компонентами называются новые признаки y1, y2, ..., yp, обладающие свойствами:

1) Главная компонента - это линейная комбинация исходных измеряемых признаков

2) Главные компоненты ортогональны между собой, т.е. некоррелированы cov(yi, yj)=0, если ij.

3) Главные компоненты упорядочены по мере убывания дисперсии D(y1)D(y2)…D(yp).

^ 29. Основные понятия временных рядов.

Определение. Совокупность наблюдений некоторого признака, осуществляемых последовательно во времени через равные его промежутки называется временным рядом.

Пусть x1, x2,..,xn- временной ряд.

Текущее значение временного ряда в какой-то момент времени – xt.

Основной моделью временного ряда является xt=at+t, где t=1,2,… ,

t -последовательность независимых, одинаково распределенных случайных величин, с математическим ожиданием равным нулю и дисперсией, равной константе. Величины t называют белым шумом.

Часто требование независимости ослабляют и оставляют требование некоррелированности случайных величин t.

a t-уровень ряда. Эволюция at во времени называется трендом. Задачи анализа временных рядов: построение тренда, выделение помехи, фиксация временного ряда от помехи. Иногда at может быть детерминированной компонентой, t- всегда случайная величина.

^ 11. Коэффициент корреляции, его свойства.

Определение: Коэффициентом корреляции (KK) двух случайных величин называется.

Свойства KK:

  1. - величина безразмерная.

  2. ||1, в силу (**).

  3. Модуль коэффициента корреляции равен единице тогда и только тогда, когда связаны линейной функциональной зависимостью, т.е. ||=1  a+b.

  4. если независимы, то =0 (но не наоборот, так как мера линейной связи между двумя случайными величинами, может быть, что связь существенно нелинейная, =0).

  5. еслиподчиняются двумерному нормальному закону распределения, то понятия некоррелированности и независимости идентичны.

|| не изменится, если в отдельности подвергнуть линейному преобразованию: т.е. если 1= а11+b1 , 2 =a22+b2, то |(1,2)|=|(1,2)|.

^ 13. Корреляционный анализ.

Под корреляционным анализом совокупности признаков будем понимать вычисление различных мер связи между этими признаками и проверку статистических гипотез относительно этих мер.

^ Коэффициент корреляции как мера связи двух признаков.

Пусть X, Y- признаки, тогда

Мы пользуемся оценкой

Пусть имеется n наблюдений (х11), (х22), ..., (хnn).

Принято считать, что:

  • если |r|<0.3, то X и Y практически не коррелированы

  • если 0.3≤|r|<0.6, то корреляция слабая

  • если 0.6<|r|<0.8, то говорят, что имеется корреляция

если 0.8<|r|, имеется сильная корреляция.

^ 15. Корреляционная матрица, её свойства.

Пусть X(np) - стандартизованная матрица данных.

Тогда

Матрица, состоящая из коэффициентов корреляции, называется корреляционной матрицей и обозначается R(pp).

Матрица R получается умножением матриц X и XT. R(pp)=XT(pN)*X(Np)

Свойства корреляционной матрицы:

  1. R- симметричная матрица.

  2. Элементы диагонали rii = cos(ii) = 1, т.е. на главной диагонали корреляционой матрицы стоят единицы.

^ 4. Свойства стандартизованной матрицы данных.

Свойства X:

  1. в матрице X все признаки безразмерны.









Оценка дисперсии всех признаков в стандартизированной матрице равна единице.



^ 12. Выборочный коэффициент корреляции.

Пусть X и Y - случайные величины. Берем наблюдения (х11), (х22), …, (хnn) и оцениваем коэффициент корреляции (x,y), r(x,y) - оценка (x,y). Тогда .

Следствие определения выборочного коэффициента корреляции:

Пусть в роли X и Y выступают произвольные столбцы стандартизованной матрицы данных (их средние равны нулю, а дисперсии - единице). , тогда выборочный коэффициент корреляции между i- ым и j- ым столбцами.


^ 14. Оценка значимости коэффициента корреляции.

Пусть статистические гипотезы H0 и H1 состоят в следующем:

H0: (x,y) = 0, связи между признаками нет.

Н1: (x,y)  0 , связь есть.

Действие/состояние природы

^ H0 отвергаем

H0 принимаем

H0 истинна



верное решение

^ H1 истинна

верное решение



Пусть  вероятность ошибки первого рода, т.е. вероятность отвергнуть истинную гипотезу. Пусть вероятность ошибки второго рода, т.е. вероятность принять неверную гипотезу. Нужно сформулировать такое правило, чтобы и  были малыми. Пусть . В математической статистике показано, что статистика t при условии, что H0 справедлива, подчиняется закону распределения Cтьюдента с (n-2) степенями свободы.

^ 21. Уравнение линейной множественной регрессии.

y=1x1+2x2+...+mxm+ - вектор независимых переменных,

i =1,..., m, m  p-1 - вектор неизвестных параметров. - вектор, играющий роль случайной помехи.

(*)- векторное равенство. yk=1xk1+2xk2+...+mxkm+k, k =1,..., n

- случайная компонента, комплексно характеризующая наличие случайных ошибок, неучтенных признаков и т.д. Введем в рассмотрение матрицу X:


Тогда уравнение линейной множественной регрессии можно записать в матричном виде: y=X+ 




^ 17. Свойства корреляционной матрицы в терминах собственных чисел и собственных векторов.

Рассмотрим равенство R, где  - число, =( …p) - неизвестный вектор, R(рр) - корреляционная матрица.

R=0  (RЕ), где Е - единичная матрица (pp).

Это система р-линейных однородных уравнений с р-неизвестными имеет нетривиальное решение, если определитель |RE|=0, где RЕ - полином степени p относительно  Он имеет p корней, они могут быть как различными, так и одинаковыми.

Замечание

Полином



где ki- кратность корня i ,

i – корень полинома.

Если некоторый корень полинома i имеет кратность ki , то нам удобнее считать, что данный полином имеет ki корней, равных i. И далее будем считать, что полином n-ой степени имеет ровно n корней, только некоторые из них могут быть равными между собой.

Определение 4: Число i, которое является решением уравнения |RЕ|=0 называется собственным числом (собственным значением) матрицы R, i=1,...,p (в общем случае эти числа могут быть как действительными, так и собственными).

Свойство №4 корреляционной матрицы:

Все собственные числа симметричной положительно- полуопределенной матрицы, а следовательно (в силу свойств 1-3) все собственные числа корреляционной матрицы являются действительными неотрицательными числами. Если матрица положительно определена, то все числа строго положительны.

Замечание:

В замечании к свойству 3 мы говорили, что на практике R является положительно определенной, следовательно в силу свойства 4 все ее собственные числа положительны. Отсутствие среди собственных чисел матрицы R равных нулю, означает, что определитель такой матрицы не равен нулю, а следовательно такая матрица имеет обратную матрицу.

Рассмотрим (R-Е)*=0 и выберем =i, где i – одно из собственных значений матрицы R. Как известно из линейной алгебры, множество решений однородной системы уравнений есть линейное подпространство, размерность которого равна разности между числом уравнений и рангом матрицы, т.е.

n-(n-ki)=ki , где ki – кратность собственного числа i. Система уравнений Rсреди прочих имеет и такие решения, для которых

(единичная длина).

Определение: любой вектор i единичной длины, являющийся решением системы R= называется собственным вектором R, соответствующим собственному числу i.

5. Свойство КМ (без доказательства):

Собственные векторы симметричной матрицы, а следовательно и собственные векторы матрицы R, соответствующие различным собственным числам, ортогональны между собой.

Пусть сначала все собственные числа матрицы R различны, тогда имеем p ортогональных между собой собственных векторов. Поскольку они p-мерные, то система векторов  …p образует базис в пространстве всех p - мерных векторов. Рассмотрим случай, когда некоторые собственные числа кратные. Пусть i имеет кратность ki>1.

6. Из множества собственных векторов корреляционной матрицы (поскольку она симметричная) можно выбрать p – векторов, образующих ортогональный базис пространства p - мерных векторов. В этом базисе каждому собственному числу соответствует столько векторов, какова кратность этого собственного числа.

^ 26. Вычислительная процедура МГК.

Введем вектор

Это вектор весов i-ой главной компоненты. Тогда i-ая главная компонента в векторной форме выглядит следующим образом:

yi(N1)=X(Np)*Ci(p1)

yi=X*Ci

Рассмотрим первую главную компоненту:

y1=X*C1



Пусть ковариационная матрица  имеет вид: , ij- ковариация между xi и xj

Тогда можно доказать, что: D(y1)= C1 В общем виде: D(yi)=Ci

На вектор весов наложим ограничение, состоящее в том, что сумма квадратов весов каждой компоненты = 1.



CiTCi=1, i = 1,...,p.

Шаг 1:Задача определения первой главной компоненты. Найти такой не нулевой в-р , что D(y1)=C1 max по С1, при условии Ci=1.

Эта задача на условный экстремум решается с помощью метода Лагранжа.

Г(1)=С1-1(С1-1)

Это выражение должно быть максимальным по С1.

Берем производную по С1.

С1-1С1=0  (-1E)С1= 0

Однородная система р-линейных уравнений с р- неизвестными. Она имеет нетривиальное решение с1, если -1E=0. Таким образом, 1- это собственное число ковариационной матрицы.

Из предыдущего уравнения получаем:

С1=1С1 умножим равенство на .

С1=1С1

1=С1=D (y1).

Шаг 2:Определение второй главной компоненты. Ищем вектор С2= с условиями :

1) D(y2)= С2

2) C2=1

3) cov(y2,y1)=0

Можно сказать, что вектор С2 является собственным вектором матрицы . Он отвечает наибольшему из оставшихся собственных чисел ковариационной матрицы, т.е. собственному числу 2.

Шаг i:Определение i-ой главной компоненты Ci= такой, что:

1) D(yi)=Сi,

2) Ci=1,

3) cov(yi,yj)=0, j=.

^ 28. Другая формулировка СМГК.

Рассмотрим 1=S2()+S2(j) и просуммируем по j, получим



В силу предположения 2 общие факторы и факторы нагрузки выбираются из условия, чтобы суммарная дисперсия вычисленных признаков была максимальна, поэтому можно сделать вывод:

или это эквивалентно:



Вывод 2-го условия:



Основное соотношение факторного анализа, дополненное предположением 1 и предположением 2* называется СМГК.

При этом факторные нагрузки выбираются из условия (fk,j)=0 или kj=rxj,fk). Таким образом, в СМГК близость между совокупностью измеряемых признаков и совокупностью общих факторов может пониматься в смысле суммы квадратов парных коэффициентов корреляции.

^ 30. Сглаживание временных рядов с постоянным уровнем.

Временным рядом с постоянным уровнем называется временной ряд вида xt=a+t, где

a=const – уровень или модель ряда, t - белый шум. М(xt)=М(a+t)=a+M(t)=а

D(xt) =M(xt-М(xt))2=D(a+t)=M(а+t-a)2=M(t)2=M(t-M(t))2=Dt=

М(xt)=а D(xt)= (*)

Обратимся к экспоненциальной средней St.

St=xt+St-1 .

Для этой величины мы получили выражение в виде временного ряда.



, т.к. М(t-i)=0







М(S t) = a

D(S t) = (**)

Из сравния (*) и (**) следует, что математические ожидания M(Xt) и M(St) в момент t одинаковы, а соответствующие дисперсии - разные, причем дисперсия D(Xt) больше, чем D(S t), т.е.

М(S t) = М(x t)

D(x t) >D(S t).

Разделим числитель и знаменатель в формуле для D(S t) на :

,

т.е. экспоненциальное сглаживание подавляет случайную компоненту в исходном временном ряде. Чем больше , тем больше дисперсия S t и тем слабее фильтруется помеха в исходных наблюдениях.

^ 32. Экспоненциальное среднее как модель, служащая для предсказания.

Предиктор - модель, служащая для предсказания.

1. Постановка задачи прогнозирования.

Проблему прогнозирования можно определить как задачу оценивания по данной последовательности чисел, взятых из какого либо временного ряда последующих значений того же ряда.

Пусть в последовательности дискретных наблюдений каждое значение представляет собой сумму : хtt+t (1)

t - момент времени измерения t=1,2,.. аt – уровень ряда (модель ряда), t - случайная помеха (“белый шум”), имеющая нормальный закон распределения М(t )=0, D(t )=.

Будем задавать аt в виде полинома n-го порядка.



Задача предсказания значения , отстоящего на m шагов от последнего наблюдавшегося значения xt , включает следующие этапы:

1) Выбор дискретности наблюдения t и интервала наблюдения Т.

2) Выбор модели процесса , т.е. определение порядка полинома в формуле (2).

3) Вычисление оценок коэффициентов модели по заданным значениям ряда, наблюдаемым на интервале Т.

4) Использование полученной модели для предсказания значений

5) Оценивание точности предсказания.

Основной этап задачи прогнозирования - этап сглаживания.

В случае, когда веса наблюдений убывают по экспоненте, сглаживание называется экспоненциальным.


^ 27. Статистическая модель главных компонент.

Определение: основное соотношение факторного анализа:

,

xj- стандартизированные измеряемые признаки (M=0, D=1);

fk- стандартизированные общие факторы;

j- центрированые, но не нормированые специфические факторы (М=0, D1),

дополненное следующими двумя предположениями:

1) общие факторы не коррелированы между собой.



2) общие факторы и факторные нагрузки таковы, что суммарная дисперсия специфических факторов минимальна.



-называется статистической моделью главных компонент (СМГК).



Таким образом, близость между совокупностью измеряемых признаков и совокупностью общих факторов в СМГК понимается в смысле суммы квадратов евклидовых расстояний между соответ-ими векторами.










Похожие:

1 Рис Рис Рис 3 iconЗадача С2
А шарнир или жесткая заделка; в точке в гладкая плоскость (рис. 0 и 1) или невесомый стержень вв' (рис. 2 и 3), или шарнир (рис....
1 Рис Рис Рис 3 iconИнструкция по активации Kaspersky! Открываем окно антивируса правой кнопкой Настройка. (рис. 1) Рис. 1 В настройках выбираем, с левой стороны, пункт «Дополнительные параметры» (рис. 2)
Скопируйте ссылку и вставьте в окна, адрес, браузера
1 Рис Рис Рис 3 iconЦели: Ход урока: Организационная часть
В соответствии с разметкой (см рис. 14) за­пилите шипы и проушины (см рис. 17, 18)
1 Рис Рис Рис 3 iconЛабораторная работа №4 инструкции обработки цепочек
Рис Количество слов = 2, счетчик уменьшился до 7 Рис Посчитаны все слова, их 3
1 Рис Рис Рис 3 iconРис. "Кровавый" узел: а Первый способ вязки; б второй способ вязки
Рис Устричный узел: а-схема вязки; б-узел-орнамент. Рис Многократная восьмерка
1 Рис Рис Рис 3 icon10-20. 10 Класс. Электр0магнетизм
На рис дан проводник с током, текущем от нас за плоскость листа (слева). Указать направление вектора магнитной индукции в точке,...
1 Рис Рис Рис 3 icon1. В какую сторону будет двигаться заряд №2? (см рис.)
При столкновении гамма-квантов (заряд их равен 0) появляются электроны (см рис.). Какие ещё частицы должны при этом появятся?
1 Рис Рис Рис 3 iconМир цвета в мире психологии как цвет влияет на осознание
Девочка на шаре” и др., рис. 1 – “Контуры”, рис. 2- “Предметы”, – “Психологическое проявление цвета”), набор цветных кругов, альбомные...
1 Рис Рис Рис 3 iconИнструкция по изменению ip-адреса Вызовите контекстное меню «Континент-ап» щелчком правой кнопки мыши на значке «Континент-ап в системном трее (Рис. 1)
В открывшемся окне на вкладке «Общие», пункт «Номер телефона», нажмите кнопку «Другие» (Рис. 2)
1 Рис Рис Рис 3 iconРис. Путешествие Ч. Дарвина на «Бигле»
Знакомясь с биографией великого английского биолога Ч. Дарвина, вы узнали о его пятилетнем путешествии. Проследите по карте (рис....
Разместите кнопку на своём сайте:
Документы


База данных защищена авторским правом ©lib2.podelise.ru 2000-2013
При копировании материала обязательно указание активной ссылки открытой для индексации.
обратиться к администрации
Документы