![]() |
|
![]() |
#41 | |||
Silver Member
Регистрация: 02.10.2008
Адрес: ЦФО
Сообщений: 783
|
![]() Цитата:
Цитата:
Цитата:
Я вообще никогда не предлагаю кого-либо бить, потому как имею миролюбивую внешнюю политику. А предлагаю я аргументировать ответы, только и всего ![]() ![]() |
|||
---------
Мне бы жить у реки, у спокойной реки,
Летним полднем во ржи собирать васильки, Босиком побродить по тропинке в росе... Но дала мне судьба скоростное шоссе.(с) |
||||
![]() |
![]() |
Реклама | |
|
![]() |
#42 | |||
Gold Member
Регистрация: 08.04.2012
Адрес: Воронеж
Сообщений: 2,055
|
![]() Цитата:
А также - что реально представлены морфологические и синтаксические классы слов, а части речи - лишь "некое семантическое тождество слов высокой степени абстракции". Хотя этот аспект изучу повнимательнее и НР потрясу на эту тему покапитальнее. Так, на всякий случай. Цитата:
Цитата:
Не "Верую", а "Начальника чукче сказал, сюда ходи, а туда не ходи" ![]() |
|||
---------
Грамотей-опричникъ
Сварщик я не настоящий, а сюда просто пописать зашел |
||||
![]() |
![]() |
![]() |
#43 | |
Silver Member
Регистрация: 02.10.2008
Адрес: ЦФО
Сообщений: 783
|
![]()
Таким образом, Вы вводите еще один термин - "полнозначная семантика". Значит, Вам теперь нужно дать его определение, противопоставив неполнозначной семантике, то есть вычленить определенный круг значений и т.д. и т.п.
Если исходить из этой фразы, то для Вас, получается, полнозначная семантика присуща полнозначным словам? Но наречие является полнозначным словом. Полнозначные слова - это знаменательные слова, к коим наречие, несомненно, относится. Цитата:
Может, и так. Пока из того, что Вы написали, четкие критерии вывести сложно. Впрочем, время подумать и обосновать у Вас есть. |
|
---------
Мне бы жить у реки, у спокойной реки,
Летним полднем во ржи собирать васильки, Босиком побродить по тропинке в росе... Но дала мне судьба скоростное шоссе.(с) |
||
![]() |
![]() |
![]() |
#44 | |
Silver Member
Регистрация: 02.01.2011
Адрес: Москва
Сообщений: 757
|
![]() Цитата:
Наверняка не спроста и мне и LOVe данный вопрос сразу показался узким местом в вашей работе. Вы должны защититься ![]() |
|
---------
Добро всегда побеждает Зло, кто победил - тот и Добро (с)
That love is all there is, Is all we know of love (c) |
||
![]() |
![]() |
![]() |
#45 | |||
Gold Member
Регистрация: 08.04.2012
Адрес: Воронеж
Сообщений: 2,055
|
![]() Цитата:
Цитата:
Цитата:
![]() Именно поэтому и выставил этот вопрос сейчас на обсуждение. |
|||
---------
Грамотей-опричникъ
Сварщик я не настоящий, а сюда просто пописать зашел |
||||
![]() |
![]() |
![]() |
#46 |
Platinum Member
Регистрация: 22.07.2010
Адрес: Санкт-Петербург
Сообщений: 3,304
|
![]() "Ладно. пора кончать этот бардак. Давайте её закопаем" Итак, коллеги. Товарищ Дмитрий В. получил интересные результаты, стал мучать их в Excel и получил картинки, которые никуда не годятся. Дла начала, у нас распределение явно дискретное, а мы рисуем график как для непрерывного. Зачем точки соединять то? Плюнем на Excel слюною, пусть в нем, товарищи, успешные менеджеры отчеты делают, нам путь в нормальный статистический пакет, поэтому только хардкор, только R. Устанавливаем R, создаем вектор данных. Код:
> LT<-c(rep(1,9),rep(2,267),rep(3,2843),rep(4,5450),rep(5,6564),rep(6,7044),rep(7,7518),rep(8,7071),rep(9,5620),rep(10,4016),rep(11,2545),rep(12,1494),rep(13,854),rep(14,416),rep(15,214),rep(16,122),rep(17,53),rep(18,16),rep(19,7),rep(20,2),21,22) Данные берем с графика, любезно предоставленного нам. Смотрим на результат и радуемся Код:
> summary(LT) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.0 5.0 7.0 7.2 9.0 22.0 > length(LT) [1] 52127 Сказано-сделано, строим 4 графика в одном. Код:
> old.par <- par(mfrow=c(2,2)) > hist(LT,main="Распределение букв",ylab="Число наблюдений",xlab="Число букв") > hist(LT,freq=F,ylab="Вероятность",xlab="Число букв",main="Распределение букв") > plot(ecdf(LT),verticals=T,main="График функции распределения") > boxplot(LT,main="Диаграмма Ящик-с-Усами",xlab="Число букв",horizontal=T) > par(old.par) Что мы, собственно говоря видим. А видим, что распределение у нас вполне милое, да слегка несимметричное, но с кем не бывает. Пытаемся натянуть сову на глобус. Для этого используем подгонку распределения методом максимального правдоподобия (maximum-likelihood estimation, MLE). Метод это весьма кошерен, но связан со сложными вычислениями. К счастью для нас, в R уже всё таки имеется. Достаточно подключить библиотеку MASS. Резвимся по полной Код:
> library(MASS) Предупреждение пакет ‘MASS’ был собран под R версии 2.14.2 > fitdistr(LT, "gamma") shape rate 7.257622928 1.008025740 (0.043960087) (0.006321817) Предупреждения 1: In dgamma(x, shape, scale, log) : созданы NaN 2: In dgamma(x, shape, scale, log) : созданы NaN 3: In dgamma(x, shape, scale, log) : созданы NaN 4: In dgamma(x, shape, scale, log) : созданы NaN 5: In dgamma(x, shape, scale, log) : созданы NaN 6: In dgamma(x, shape, scale, log) : созданы NaN 7: In dgamma(x, shape, scale, log) : созданы NaN > fitdistr(LT, "normal") mean sd 7.199838855 2.628803586 (0.011514015) (0.008141638) > fitdistr(LT,"lognormal") meanlog sdlog 1.903586097 0.385993556 (0.001690630) (0.001195456) > fitdistr(LT, "Poisson") lambda 7.19983886 (0.01175249) Неплохим графическим методом оценки качества подгонки распределения является график квантилей (quantile). Квантиль — это такое число, что заданная случайная величина не превышает его лишь с указанной вероятностью. Можно рассматривать квантиль как функцию вероятности Q(p), обратную функции распределения вероятностей. Если мы подогнали правильно, то точки на графике должны лежать рядом с прямой y = x. Строим четыре графика для наших распределений. Код:
> old.par <- par(mfrow=c(2,2)) > qqplot(LT, rgamma(n = 52127, 7.257622928, 1.008025740), main = "Подгонка гамма-распределения, QQ-plot") > abline(0, 1) > qqplot(LT, rpois(n = 52127, 7.19983886), main = "Подгонка распределения Пуассона, QQ-plot") > abline(0, 1) > qqplot(LT, rnorm(n = 52127, 7.199838855,2.628803586), main = "Подгонка нормального распределения, QQ-plot") > abline(0, 1) > qqplot(LT, rlnorm(n = 52127, 1.903586097, 0.385993556), main = "Подгонка Логнормального распределения, QQ-plot") > abline(0, 1) > par(old.par) Кому как, а мне больше нравится старик Пуассон. Попробуем нарисовать график аппроксимирующих распределений. Код:
> plot(ecdf(LT),verticals=T,main="Аппроксимация функции распределения") > lines(0:2200/100,pgamma(0:2200/100,7.257622928, 1.008025740),col="red") > lines(0:2200/100,ppois(0:2200/100,lambda=7.19983886),col="blue",lwd=2) > legend(15,0.2,c("Гамма распределение","Распределение Пуассона"),col=c("red","blue"),lwd=2) Ну, пока хватит. Коню понятно, что здесь никакая не гамма, а обычный Пуассон, причем Лямбда равна среднему числу букв в слове. Ну, теперь сам бог велел провести тест Колмогорова-Смирнова Код:
> ks.test(LT,rpois(0:2200/100,lambda=7.19983886)) Two-sample Kolmogorov-Smirnov test data: LT and rpois(0:2200/100, lambda = 7.19983886) D = 0.0261, p-value = 0.1137 alternative hypothesis: two-sided Предупреждение In ks.test(LT, rpois(0:2200/100, lambda = 7.19983886)) : p-values будут примерными в присутствии повторяющихся значений Бурные продолжительные аплодисменты. А гамма ваша, кака редкая...
Код:
> ks.test(LT,rgamma(0:2200/100, 7.257622928, 1.008025740)) Two-sample Kolmogorov-Smirnov test data: LT and rgamma(0:2200/100, 7.257622928, 1.00802574) D = 0.1011, p-value < 2.2e-16 alternative hypothesis: two-sided Предупреждение In ks.test(LT, rgamma(0:2200/100, 7.257622928, 1.00802574)) : p-values будут примерными в присутствии повторяющихся значений Согласен на соавторство ![]() P.S. Ну, мои маленькие девиантные друзья, если кто хочет поподробнее почитать про подгонку распределений в R, рекомендую на сон грядущий статью "Fitting distributions with R" P.P.S. А список наиболее распространенных распределений можно посмотреть вот тут, в вашей любимой Википедии Последний раз редактировалось Hogfather; 11.11.2012 в 02:21. |
---------
DNF is not an option
|
|
![]() |
![]() |
![]() |
#47 | |
Silver Member
Регистрация: 31.08.2012
Адрес: Туда, вверх и налево
Сообщений: 712
|
![]() Цитата:
![]() Чистенько, аккуратненько, корректненько. |
|
---------
и чо я, дура, научнику поверила...
|
||
![]() |
![]() |
![]() |
#48 |
Gold Member
Регистрация: 08.04.2012
Адрес: Воронеж
Сообщений: 2,055
|
![]() |
---------
Грамотей-опричникъ
Сварщик я не настоящий, а сюда просто пописать зашел |
|
![]() |
![]() |
![]() |
#49 |
Silver Member
Регистрация: 02.01.2011
Адрес: Москва
Сообщений: 757
|
![]() |
---------
Добро всегда побеждает Зло, кто победил - тот и Добро (с)
That love is all there is, Is all we know of love (c) |
|
![]() |
![]() |
![]() |
#50 |
Platinum Member
Регистрация: 22.07.2010
Адрес: Санкт-Петербург
Сообщений: 3,304
|
![]() "Пора кончать этот бардак. Давайте её откопаем" Как говорится. не только методом максимального правдоподобия славен R. Ту же задачу можно попробовать решить нелинейным методом наименьших квадратов. Для этого построим кумулятивную (интегральную) функцию распределения и попробуем подогнать понравившегося нам Пуассона. В общем, сделаем примерно то, что пытался проделать Дмитрий В. в Excel. Код:
> # Понеслась! > # Строим кумулятивную функцию > MyEcdf<-ecdf(LT) ># Делаем таблицу (фрейм) для аппроксимации ># Обратите внимание, поскольку я все взял в скобки, результат отображается сразу на экране > (dfecdf <- data.frame(knots=knots(MyEcdf),Fn=MyEcdf(1:22))) knots Fn 1 1 0.0001726552 2 2 0.0052947609 3 3 0.0598346346 4 4 0.1643869780 5 5 0.2903102039 6 6 0.4254417097 7 7 0.5696663917 8 8 0.7053158632 9 9 0.8131294723 10 10 0.8901720797 11 11 0.9389951465 12 12 0.9676559173 13 13 0.9840389817 14 14 0.9920194909 15 15 0.9961248489 16 16 0.9984652867 17 17 0.9994820343 18 18 0.9997889769 19 19 0.9999232643 20 20 0.9999616322 21 21 0.9999808161 22 22 1.0000000000 > # Строим модель > mdl<-nls( Fn ~ ppois(knots,lambda), data=dfecdf,model=T) Предупреждение In nls(Fn ~ ppois(knots, lambda), data = dfecdf, model = T) : Для некоторых параметров не указаны стартовые значения. Инициализую ‘lambda’ до '1.'. Укажите 'start' или я использую модель 'selfStart' > # Информация о модели > summary(mdl) Formula: Fn ~ ppois(knots, lambda) Parameters: Estimate Std. Error t value Pr(>|t|) lambda 7.16774 0.01924 372.5 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.006275 on 21 degrees of freedom Number of iterations to convergence: 5 Achieved convergence tolerance: 3.776e-08 Код:
> # Расчет адекватности модели > (RSS.p <- sum(residuals(mdl)^2)) [1] 0.000826937 > (TSS <- sum((dfecdf$Fn - mean(dfecdf$Fn))^2)) [1] 2.981961 > # коэффициент детерминации > 1 - (RSS.p/TSS) [1] 0.9997227 Для лямбды можно посчитать доверительный интервал Код:
> confint(mdl) Waiting for profiling to be done... 2.5% 97.5% 7.127763 7.207781 Код:
> plot(residuals(mdl),main="Ошибки модели") > abline(0,0) Последний раз редактировалось Hogfather; 11.11.2012 в 23:13. Причина: Ошибся |
---------
DNF is not an option
|
|
![]() |
![]() |