Параметрический анализ - Страница 5

LOVe · 10.11.2012, 17:22

Цитата:

Сообщение от Дмитрий В.

Совета по 10.02.21, увы, у нас не имеется. И не исключаю, что в дальнейшем (на стадии обработки полученных данных) диссертация вернется обратно в лоно святой церкви будет все-таки ближе к 10.02.04.

Если Вам защищаться по 10.02.04, то диссертация должна быть не ближе к специальности10.02.04, чем к 10.02.01, а непосредственно по 10.02.04. Именно по той, по которой защищаться. Или же, если она вышла по 10.02.21, нужно искать другой диссовет.

Цитата:

Сообщение от Дмитрий В.

или ограничивается "Почему исключаете из рассмотрения местоимения, наречия и т.п.?" - "Изучаем лексико-семантический уровень, поэтому ограничиваемся существительными, прилагательными и глаголами"

Даже для конференции это не ответ, потому как и наречие, и местоимение обладают своей собственной семантикой. И если Вы говорите, что изучаете лексико-семантический уровень, то довольно странно не включать в него частей речи, обладающих семантикой. Так что аргументы искать нужно какие-то другие. К наречиям и местоимениям еще, кстати, можете числительное добавить. Оно тоже имет семантический аспект, просто в прошлый раз что-то из головы вылетело, когда Вам ответ писала.

Цитата:

Сообщение от Дмитрий В.

Если именно про наречия и служебные слова - то за них скажу еще, что они неизменяемые, поэтом в предложении обладают ограниченной функциональностью.

Ну, при чем тут служебные слова? О них вообще речи не шло. Не нужно, отвечая на вопрос, давать ту информацию, о которой не спрашивают. Кроме того, речь шла о семантике, а не о функциональности. И вот при таком ответе напрашиватся одно из двух: либо Вы уходите в сторону от ответа, либо мы с Вами под функциональностью понимаем что-то разное. Вообще, насколько помню, в классической модели распределения частей речи по классам во внимание берутся три критерия: семантический (значение), формальный (все формы слов, словообразовательные и словоизменительные аффиксы и т.д.), функциональный (синтаксические характеристики). И вот о первом мы с Вами, вроде как, разговор и вели.

Цитата:

Сообщение от Дмитрий В.

*догадливо* Вы предлагаете бить пяткой в грудь членов Совета?

Я вообще никогда не предлагаю кого-либо бить, потому как имею миролюбивую внешнюю политику. А предлагаю я аргументировать ответы, только и всего

Ну, сами представьте, что выходит пред ясны очи членов диссовета какой-то диссертант и, отвечая на вопрос, почему что-то так-то у него, а не иначе, говорит что-то типа: "Верую я в это, верую. Всей душою своею верую". Неплохо, правда?

Последнее не о Вас, если что, просто пришло в голову.

Дмитрий В. · 10.11.2012, 18:05

Цитата:

Сообщение от LOVe

Даже для конференции это не ответ, потому как и наречие, и местоимение обладают своей собственной семантикой. И если Вы говорите, что изучаете лексико-семантический уровень, то довольно странно не включать в него частей речи, обладающих семантикой. Так что аргументы искать нужно какие-то другие. К наречиям и местоимениям еще, кстати, можете числительное добавить. Оно тоже имет семантический аспект, просто в прошлый раз что-то из головы вылетело, когда Вам ответ писала.

Собственной, но полнозначной ли? Просто мне, когда я начал заниматься своей тематикой, было твердо сказано, что остальные части речи (не сущ., не прил. и не глаг.) нас интересуют в меньшей степени, поскольку у них семантика неполнозначная, местоимения и числительные выполняют больше указательную функцию, а наречия - лишь модифицируют значения полнозначных слов.
А также - что реально представлены морфологические и синтаксические классы слов, а части речи - лишь "некое семантическое тождество слов высокой степени абстракции".
Хотя этот аспект изучу повнимательнее и НР потрясу на эту тему покапитальнее.

Цитата:

Сообщение от LOVe

Ну, при чем тут служебные слова?

Так, на всякий случай.

Цитата:

Сообщение от LOVe

либо мы с Вами под функциональностью понимаем что-то разное. Вообще, насколько помню, в классической модели распределения частей речи по классам во внимание берутся три критерия: семантический (значение), формальный (все формы слов, словообразовательные и словоизменительные аффиксы и т.д.), функциональный (синтаксические характеристики). И вот о первом мы с Вами, вроде как, разговор и вели.

А, тогда, похоже, получается, что в нашей методике мы в итоге работаем лишь с теми из слов, которые соответствуют всем трем критериям - полнозначные, обладают системой словоизменения и могут быть любым членом предложения. Хотя (скажу по секрету) вопрос наречий - болезненный.

Цитата:

Сообщение от LOVe

Я вообще никогда не предлагаю кого-либо бить, потому как имею миролюбивую внешнюю политику.

Ну вот, а я-то надеялся, что смогу на защите выйти и сказать "LOVe разрешила!"

Цитата:

Сообщение от LOVe

говорит что-то типа: "Верую я в это, верую. Всей душою своею верую

Не "Верую", а "Начальника чукче сказал, сюда ходи, а туда не ходи"

LOVe · 10.11.2012, 19:24

Цитата:

Сообщение от Дмитрий В.

Собственной, но полнозначной ли?

Таким образом, Вы вводите еще один термин - "полнозначная семантика". Значит, Вам теперь нужно дать его определение, противопоставив неполнозначной семантике, то есть вычленить определенный круг значений и т.д. и т.п.

Цитата:

Сообщение от Дмитрий В.

наречия - лишь модифицируют значения полнозначных слов.

Если исходить из этой фразы, то для Вас, получается, полнозначная семантика присуща полнозначным словам? Но наречие является полнозначным словом. Полнозначные слова - это знаменательные слова, к коим наречие, несомненно, относится.

Цитата:

Сообщение от Дмитрий В.

Просто мне, когда я начал заниматься своей тематикой, было твердо сказано, что остальные части речи (не сущ., не прил. и не глаг.) нас интересуют в меньшей степени,

Неважно, что и кем, и когда было Вам сказано. Работу делаете Вы, результат представляете Вы, и объяснять, что к чему, тоже Вы должны, доказывая, что это так, а не иначе, а не говоря, что мне вот так было сказано.

Цитата:

Сообщение от Дмитрий В.

А, тогда, похоже, получается, что в нашей методике мы в итоге работаем лишь с теми из слов, которые соответствуют всем трем критериям - полнозначные, обладают системой словоизменения и могут быть любым членом предложения.

Может, и так. Пока из того, что Вы написали, четкие критерии вывести сложно. Впрочем, время подумать и обосновать у Вас есть.

Ilona · 10.11.2012, 20:26

Цитата:

Сообщение от LOVe

Неважно, что и кем, и когда было Вам сказано. Работу делаете Вы, результат представляете Вы, и объяснять, что к чему, тоже Вы должны, доказывая, что это так, а не иначе, а не говоря, что мне вот так было сказано.

Ну или тогда добровольно перечислить возможные точки зрения (по поводу включать/не включать наречия-местоимения и почему), а потом так многозначительно сформулировать "вслед за ... (здесь желательно указать как минимум доктора наук, основателя научной школы, а лучше академика) мы придерживаемся такой-то точки зрения"...Как-то так.
Наверняка не спроста и мне и LOVe данный вопрос сразу показался узким местом в вашей работе. Вы должны защититься

Дмитрий В. · 10.11.2012, 23:15

Цитата:

Сообщение от LOVe

Таким образом, Вы вводите еще один термин - "полнозначная семантика". Значит, Вам теперь нужно дать его определение, противопоставив неполнозначной семантике, то есть вычленить определенный круг значений и т.д. и т.п.

Понятно, буду мыслить над этим вопросом.

Цитата:

Сообщение от LOVe

Неважно, что и кем, и когда было Вам сказано. Работу делаете Вы, результат представляете Вы, и объяснять, что к чему, тоже Вы должны

Цитата:

Сообщение от Ilona

а потом так многозначительно сформулировать "вслед за ... (здесь желательно указать как минимум доктора наук, основателя научной школы, а лучше академика) мы придерживаемся такой-то точки зрения"

Это в ~~нашем манифесте~~ работах, лежащих в основе исследований все указано, примерно такими словами, как я и излагаю, а работы эти - монографии по докторской диссертации

Цитата:

Сообщение от LOVe

Впрочем, время подумать и обосновать у Вас есть.

Именно поэтому и выставил этот вопрос сейчас на обсуждение.

Hogfather · 11.11.2012, 01:32

"Ладно. пора кончать этот бардак. Давайте её закопаем"

Итак, коллеги. Товарищ Дмитрий В. получил интересные результаты, стал мучать их в Excel и получил картинки, которые никуда не годятся. Дла начала, у нас распределение явно дискретное, а мы рисуем график как для непрерывного. Зачем точки соединять то?
Плюнем на Excel слюною, пусть в нем, товарищи, успешные менеджеры отчеты делают, нам путь в нормальный статистический пакет, поэтому только хардкор, только R.
Устанавливаем R, создаем вектор данных.

Код:

> LT<-c(rep(1,9),rep(2,267),rep(3,2843),rep(4,5450),rep(5,6564),rep(6,7044),rep(7,7518),rep(8,7071),rep(9,5620),rep(10,4016),rep(11,2545),rep(12,1494),rep(13,854),rep(14,416),rep(15,214),rep(16,122),rep(17,53),rep(18,16),rep(19,7),rep(20,2),21,22)

Функция rep повторяет первый аргумент число раз, равное второму аргументу, поэтому для rep(1,9) имеем в результате вектор [1,1,1,1,1,1,1,1,1].
Данные берем с графика, любезно предоставленного нам.
Смотрим на результат и радуемся

Код:

> summary(LT)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    1.0     5.0     7.0     7.2     9.0    22.0 
> length(LT)
[1] 52127

Дальше мы просто обязаны поффтыкать на картинки, иначе мы не ученые, а кот начхал.
Сказано-сделано, строим 4 графика в одном.

Код:

> old.par <- par(mfrow=c(2,2))
> hist(LT,main="Распределение букв",ylab="Число наблюдений",xlab="Число букв")
> hist(LT,freq=F,ylab="Вероятность",xlab="Число букв",main="Распределение букв")
> plot(ecdf(LT),verticals=T,main="График функции распределения")
> boxplot(LT,main="Диаграмма Ящик-с-Усами",xlab="Число букв",horizontal=T)
> par(old.par)

Что мы, собственно говоря видим. А видим, что распределение у нас вполне милое, да слегка несимметричное, но с кем не бывает.
Пытаемся натянуть сову на глобус. Для этого используем подгонку распределения методом максимального правдоподобия (maximum-likelihood estimation, MLE). Метод это весьма кошерен, но связан со сложными вычислениями. К счастью для нас, в R уже всё таки имеется. Достаточно подключить библиотеку MASS.

Резвимся по полной

Код:

> library(MASS)
Предупреждение
пакет ‘MASS’ был собран под R версии 2.14.2 

> fitdistr(LT, "gamma")
      shape         rate    
  7.257622928   1.008025740 
 (0.043960087) (0.006321817)
Предупреждения
1: In dgamma(x, shape, scale, log) : созданы NaN
2: In dgamma(x, shape, scale, log) : созданы NaN
3: In dgamma(x, shape, scale, log) : созданы NaN
4: In dgamma(x, shape, scale, log) : созданы NaN
5: In dgamma(x, shape, scale, log) : созданы NaN
6: In dgamma(x, shape, scale, log) : созданы NaN
7: In dgamma(x, shape, scale, log) : созданы NaN

> fitdistr(LT, "normal")
      mean           sd     
  7.199838855   2.628803586 
 (0.011514015) (0.008141638)

> fitdistr(LT,"lognormal")
      meanlog           sdlog 
  1.903586097   0.385993556 
 (0.001690630) (0.001195456)

> fitdistr(LT, "Poisson")
     lambda  
  7.19983886 
 (0.01175249)

Итак, мы что-то наподгоняли. Попробовали гамму, нормальное, логнормальное и Пуассона. В скобках, для удобства, дана ошибка параметров.

Неплохим графическим методом оценки качества подгонки распределения является график квантилей (quantile). Квантиль — это такое число, что заданная случайная величина не превышает его лишь с указанной вероятностью. Можно рассматривать квантиль как функцию вероятности Q(p), обратную функции распределения вероятностей. Если мы подогнали правильно, то точки на графике должны лежать рядом с прямой y = x. Строим четыре графика для наших распределений.

Код:

> old.par <- par(mfrow=c(2,2))
> qqplot(LT, rgamma(n = 52127, 7.257622928, 1.008025740), main = "Подгонка гамма-распределения, QQ-plot")
> abline(0, 1)
> qqplot(LT, rpois(n = 52127, 7.19983886), main = "Подгонка распределения Пуассона, QQ-plot")
> abline(0, 1)
> qqplot(LT, rnorm(n = 52127, 7.199838855,2.628803586), main = "Подгонка нормального распределения, QQ-plot")
> abline(0, 1)
> qqplot(LT, rlnorm(n = 52127, 1.903586097, 0.385993556), main = "Подгонка Логнормального распределения, QQ-plot")
> abline(0, 1)
> par(old.par)

Кому как, а мне больше нравится старик Пуассон. Попробуем нарисовать график аппроксимирующих распределений.

Код:

> plot(ecdf(LT),verticals=T,main="Аппроксимация функции распределения")
> lines(0:2200/100,pgamma(0:2200/100,7.257622928, 1.008025740),col="red")
> lines(0:2200/100,ppois(0:2200/100,lambda=7.19983886),col="blue",lwd=2)
> legend(15,0.2,c("Гамма распределение","Распределение Пуассона"),col=c("red","blue"),lwd=2)

Результат

Ну, пока хватит. Коню понятно, что здесь никакая не гамма, а обычный Пуассон, причем Лямбда равна среднему числу букв в слове.
Ну, теперь сам бог велел провести тест Колмогорова-Смирнова

Код:

> ks.test(LT,rpois(0:2200/100,lambda=7.19983886))

        Two-sample Kolmogorov-Smirnov test

data:  LT and rpois(0:2200/100, lambda = 7.19983886) 
D = 0.0261, p-value = 0.1137
alternative hypothesis: two-sided 

Предупреждение
In ks.test(LT, rpois(0:2200/100, lambda = 7.19983886)) :
  p-values будут примерными в присутствии повторяющихся значений

Ай, да Hogfather, хочется сказать, ай, молодец!

Бурные продолжительные аплодисменты.

А гамма ваша, кака редкая...

Код:

> ks.test(LT,rgamma(0:2200/100, 7.257622928, 1.008025740))

        Two-sample Kolmogorov-Smirnov test

data:  LT and rgamma(0:2200/100, 7.257622928, 1.00802574) 
D = 0.1011, p-value < 2.2e-16
alternative hypothesis: two-sided 

Предупреждение
In ks.test(LT, rgamma(0:2200/100, 7.257622928, 1.00802574)) :
  p-values будут примерными в присутствии повторяющихся значений

Согласен на соавторство

P.S. Ну, мои маленькие девиантные друзья, если кто хочет поподробнее почитать про подгонку распределений в R, рекомендую на сон грядущий статью "Fitting distributions with R"

P.P.S. А список наиболее распространенных распределений можно посмотреть вот тут, в вашей любимой Википедии

Вляпалась... · 11.11.2012, 10:47

Цитата:

Сообщение от Hogfather

Дальше мы просто обязаны поффтыкать на картинки, иначе мы не ученые, а кот начхал.

А видим, что распределение у нас вполне милое, да слегка несимметричное, но с кем не бывает.
Пытаемся натянуть сову на глобус.

Строим четыре графика для наших распределений.

Кому как, а мне больше нравится старик Пуассон. Попробуем нарисовать график аппроксимирующих распределений.

Ну, пока хватит. Коню понятно, что здесь никакая не гамма, а обычный Пуассон, причем Лямбда равна среднему числу букв в слове.
Ну, теперь сам бог велел провести тест Колмогорова-Смирнова

Ай, да Hogfather, хочется сказать, ай, молодец!

Бурные продолжительные аплодисменты.

Согласен на соавторство

Это 5. Даже не 5, а 7-8, где-то так. Теперь на Вам.. ой на Вас... ну неважно, за Вас... просто обязаны выйти замуж. Как честный человек

Но соавтором - это как минимум.

Чистенько, аккуратненько, корректненько.

Дмитрий В. · 11.11.2012, 10:52

Hogfather, выскажу огроменное спасибо и тут.
Вляпалась...,

Цитата:

Сообщение от Вляпалась...

Но соавтором - это как минимум.

Обязательно, постараемся.

Ilona · 11.11.2012, 11:36

Цитата:

Сообщение от Hogfather

Ай, да Hogfather, хочется сказать, ай, молодец!

Бурные продолжительные аплодисменты.

(аплодисменты, подкрепленные топотом ног) Ай, да Hogfather! Ай, да молодец!!

Hogfather · 11.11.2012, 22:15

"Пора кончать этот бардак. Давайте её откопаем"

Как говорится. не только методом максимального правдоподобия славен R. Ту же задачу можно попробовать решить нелинейным методом наименьших квадратов. Для этого построим кумулятивную (интегральную) функцию распределения и попробуем подогнать понравившегося нам Пуассона. В общем, сделаем примерно то, что пытался проделать Дмитрий В. в Excel.

Код:

> # Понеслась!
> # Строим кумулятивную функцию
> MyEcdf<-ecdf(LT)
># Делаем таблицу (фрейм) для аппроксимации
># Обратите внимание, поскольку я все взял в скобки, результат отображается сразу на экране
> (dfecdf <- data.frame(knots=knots(MyEcdf),Fn=MyEcdf(1:22)))
   knots           Fn
1      1 0.0001726552
2      2 0.0052947609
3      3 0.0598346346
4      4 0.1643869780
5      5 0.2903102039
6      6 0.4254417097
7      7 0.5696663917
8      8 0.7053158632
9      9 0.8131294723
10    10 0.8901720797
11    11 0.9389951465
12    12 0.9676559173
13    13 0.9840389817
14    14 0.9920194909
15    15 0.9961248489
16    16 0.9984652867
17    17 0.9994820343
18    18 0.9997889769
19    19 0.9999232643
20    20 0.9999616322
21    21 0.9999808161
22    22 1.0000000000

> # Строим модель

> mdl<-nls( Fn ~ ppois(knots,lambda), data=dfecdf,model=T)
Предупреждение
In nls(Fn ~ ppois(knots, lambda), data = dfecdf, model = T) :
  Для некоторых параметров не указаны стартовые значения.
Инициализую ‘lambda’ до '1.'.
Укажите 'start' или я использую модель 'selfStart'

> # Информация о модели
> summary(mdl)

Formula: Fn ~ ppois(knots, lambda)

Parameters:
       Estimate Std. Error t value Pr(>|t|)    
lambda  7.16774    0.01924   372.5   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.006275 on 21 degrees of freedom

Number of iterations to convergence: 5 
Achieved convergence tolerance: 3.776e-08

Посчитаем адекватность полученной модели.

Код:

> # Расчет адекватности модели
> (RSS.p <- sum(residuals(mdl)^2))
[1] 0.000826937
> (TSS <- sum((dfecdf$Fn - mean(dfecdf$Fn))^2))
[1] 2.981961

> # коэффициент детерминации
> 1 - (RSS.p/TSS)
[1] 0.9997227

Что мы имеем с гуся. А с гуся имеем чуть другую лямбду (7.16774) и коэффициент детерминации практически единицу.
Для лямбды можно посчитать доверительный интервал

Код:

> confint(mdl)
Waiting for profiling to be done...
    2.5%    97.5% 
7.127763 7.207781

Графически ошибки модели можно изобразить вот так.

Код:

> plot(residuals(mdl),main="Ошибки модели")
> abline(0,0)

11.11.2012, 01:32	#46
Hogfather Platinum Member Регистрация: 22.07.2010 Адрес: Санкт-Петербург Сообщений: 3,304	"Ладно. пора кончать этот бардак. Давайте её закопаем" Итак, коллеги. Товарищ Дмитрий В. получил интересные результаты, стал мучать их в Excel и получил картинки, которые никуда не годятся. Дла начала, у нас распределение явно дискретное, а мы рисуем график как для непрерывного. Зачем точки соединять то? Плюнем на Excel слюною, пусть в нем, товарищи, успешные менеджеры отчеты делают, нам путь в нормальный статистический пакет, поэтому только хардкор, только R. Устанавливаем R, создаем вектор данных. Код: > LT<-c(rep(1,9),rep(2,267),rep(3,2843),rep(4,5450),rep(5,6564),rep(6,7044),rep(7,7518),rep(8,7071),rep(9,5620),rep(10,4016),rep(11,2545),rep(12,1494),rep(13,854),rep(14,416),rep(15,214),rep(16,122),rep(17,53),rep(18,16),rep(19,7),rep(20,2),21,22) Функция rep повторяет первый аргумент число раз, равное второму аргументу, поэтому для rep(1,9) имеем в результате вектор [1,1,1,1,1,1,1,1,1]. Данные берем с графика, любезно предоставленного нам. Смотрим на результат и радуемся Код: > summary(LT) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.0 5.0 7.0 7.2 9.0 22.0 > length(LT) [1] 52127 Дальше мы просто обязаны поффтыкать на картинки, иначе мы не ученые, а кот начхал. Сказано-сделано, строим 4 графика в одном. Код: > old.par <- par(mfrow=c(2,2)) > hist(LT,main="Распределение букв",ylab="Число наблюдений",xlab="Число букв") > hist(LT,freq=F,ylab="Вероятность",xlab="Число букв",main="Распределение букв") > plot(ecdf(LT),verticals=T,main="График функции распределения") > boxplot(LT,main="Диаграмма Ящик-с-Усами",xlab="Число букв",horizontal=T) > par(old.par) Что мы, собственно говоря видим. А видим, что распределение у нас вполне милое, да слегка несимметричное, но с кем не бывает. Пытаемся натянуть сову на глобус. Для этого используем подгонку распределения методом максимального правдоподобия (maximum-likelihood estimation, MLE). Метод это весьма кошерен, но связан со сложными вычислениями. К счастью для нас, в R уже всё таки имеется. Достаточно подключить библиотеку MASS. Резвимся по полной Код: > library(MASS) Предупреждение пакет ‘MASS’ был собран под R версии 2.14.2 > fitdistr(LT, "gamma") shape rate 7.257622928 1.008025740 (0.043960087) (0.006321817) Предупреждения 1: In dgamma(x, shape, scale, log) : созданы NaN 2: In dgamma(x, shape, scale, log) : созданы NaN 3: In dgamma(x, shape, scale, log) : созданы NaN 4: In dgamma(x, shape, scale, log) : созданы NaN 5: In dgamma(x, shape, scale, log) : созданы NaN 6: In dgamma(x, shape, scale, log) : созданы NaN 7: In dgamma(x, shape, scale, log) : созданы NaN > fitdistr(LT, "normal") mean sd 7.199838855 2.628803586 (0.011514015) (0.008141638) > fitdistr(LT,"lognormal") meanlog sdlog 1.903586097 0.385993556 (0.001690630) (0.001195456) > fitdistr(LT, "Poisson") lambda 7.19983886 (0.01175249) Итак, мы что-то наподгоняли. Попробовали гамму, нормальное, логнормальное и Пуассона. В скобках, для удобства, дана ошибка параметров. Неплохим графическим методом оценки качества подгонки распределения является график квантилей (quantile). Квантиль — это такое число, что заданная случайная величина не превышает его лишь с указанной вероятностью. Можно рассматривать квантиль как функцию вероятности Q(p), обратную функции распределения вероятностей. Если мы подогнали правильно, то точки на графике должны лежать рядом с прямой y = x. Строим четыре графика для наших распределений. Код: > old.par <- par(mfrow=c(2,2)) > qqplot(LT, rgamma(n = 52127, 7.257622928, 1.008025740), main = "Подгонка гамма-распределения, QQ-plot") > abline(0, 1) > qqplot(LT, rpois(n = 52127, 7.19983886), main = "Подгонка распределения Пуассона, QQ-plot") > abline(0, 1) > qqplot(LT, rnorm(n = 52127, 7.199838855,2.628803586), main = "Подгонка нормального распределения, QQ-plot") > abline(0, 1) > qqplot(LT, rlnorm(n = 52127, 1.903586097, 0.385993556), main = "Подгонка Логнормального распределения, QQ-plot") > abline(0, 1) > par(old.par) Кому как, а мне больше нравится старик Пуассон. Попробуем нарисовать график аппроксимирующих распределений. Код: > plot(ecdf(LT),verticals=T,main="Аппроксимация функции распределения") > lines(0:2200/100,pgamma(0:2200/100,7.257622928, 1.008025740),col="red") > lines(0:2200/100,ppois(0:2200/100,lambda=7.19983886),col="blue",lwd=2) > legend(15,0.2,c("Гамма распределение","Распределение Пуассона"),col=c("red","blue"),lwd=2) Результат Ну, пока хватит. Коню понятно, что здесь никакая не гамма, а обычный Пуассон, причем Лямбда равна среднему числу букв в слове. Ну, теперь сам бог велел провести тест Колмогорова-Смирнова Код: > ks.test(LT,rpois(0:2200/100,lambda=7.19983886)) Two-sample Kolmogorov-Smirnov test data: LT and rpois(0:2200/100, lambda = 7.19983886) D = 0.0261, p-value = 0.1137 alternative hypothesis: two-sided Предупреждение In ks.test(LT, rpois(0:2200/100, lambda = 7.19983886)) : p-values будут примерными в присутствии повторяющихся значений Ай, да Hogfather, хочется сказать, ай, молодец! Бурные продолжительные аплодисменты. А гамма ваша, кака редкая... Код: > ks.test(LT,rgamma(0:2200/100, 7.257622928, 1.008025740)) Two-sample Kolmogorov-Smirnov test data: LT and rgamma(0:2200/100, 7.257622928, 1.00802574) D = 0.1011, p-value < 2.2e-16 alternative hypothesis: two-sided Предупреждение In ks.test(LT, rgamma(0:2200/100, 7.257622928, 1.00802574)) : p-values будут примерными в присутствии повторяющихся значений Согласен на соавторство P.S. Ну, мои маленькие девиантные друзья, если кто хочет поподробнее почитать про подгонку распределений в R, рекомендую на сон грядущий статью "Fitting distributions with R" P.P.S. А список наиболее распространенных распределений можно посмотреть вот тут, в вашей любимой Википедии Последний раз редактировалось Hogfather; 11.11.2012 в 02:21.
	--------- DNF is not an option

11.11.2012, 22:15	#50
Hogfather Platinum Member Регистрация: 22.07.2010 Адрес: Санкт-Петербург Сообщений: 3,304	"Пора кончать этот бардак. Давайте её откопаем" Как говорится. не только методом максимального правдоподобия славен R. Ту же задачу можно попробовать решить нелинейным методом наименьших квадратов. Для этого построим кумулятивную (интегральную) функцию распределения и попробуем подогнать понравившегося нам Пуассона. В общем, сделаем примерно то, что пытался проделать Дмитрий В. в Excel. Код: > # Понеслась! > # Строим кумулятивную функцию > MyEcdf<-ecdf(LT) ># Делаем таблицу (фрейм) для аппроксимации ># Обратите внимание, поскольку я все взял в скобки, результат отображается сразу на экране > (dfecdf <- data.frame(knots=knots(MyEcdf),Fn=MyEcdf(1:22))) knots Fn 1 1 0.0001726552 2 2 0.0052947609 3 3 0.0598346346 4 4 0.1643869780 5 5 0.2903102039 6 6 0.4254417097 7 7 0.5696663917 8 8 0.7053158632 9 9 0.8131294723 10 10 0.8901720797 11 11 0.9389951465 12 12 0.9676559173 13 13 0.9840389817 14 14 0.9920194909 15 15 0.9961248489 16 16 0.9984652867 17 17 0.9994820343 18 18 0.9997889769 19 19 0.9999232643 20 20 0.9999616322 21 21 0.9999808161 22 22 1.0000000000 > # Строим модель > mdl<-nls( Fn ~ ppois(knots,lambda), data=dfecdf,model=T) Предупреждение In nls(Fn ~ ppois(knots, lambda), data = dfecdf, model = T) : Для некоторых параметров не указаны стартовые значения. Инициализую ‘lambda’ до '1.'. Укажите 'start' или я использую модель 'selfStart' > # Информация о модели > summary(mdl) Formula: Fn ~ ppois(knots, lambda) Parameters: Estimate Std. Error t value Pr(>\|t\|) lambda 7.16774 0.01924 372.5 <2e-16 * --- Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.006275 on 21 degrees of freedom Number of iterations to convergence: 5 Achieved convergence tolerance: 3.776e-08 Посчитаем адекватность полученной модели. Код: > # Расчет адекватности модели > (RSS.p <- sum(residuals(mdl)^2)) [1] 0.000826937 > (TSS <- sum((dfecdf$Fn - mean(dfecdf$Fn))^2)) [1] 2.981961 > # коэффициент детерминации > 1 - (RSS.p/TSS) [1] 0.9997227 Что мы имеем с гуся. А с гуся имеем чуть другую лямбду (7.16774) и коэффициент детерминации практически единицу. Для лямбды можно посчитать доверительный интервал Код: > confint(mdl) Waiting for profiling to be done... 2.5% 97.5% 7.127763 7.207781 Графически ошибки модели можно изобразить вот так. Код: > plot(residuals(mdl),main="Ошибки модели") > abline(0,0) Последний раз редактировалось Hogfather; 11.11.2012 в 23:13. Причина: Ошибся
	--------- DNF is not an option

Реклама