Портал аспирантов

Портал аспирантов (http://www.aspirantura.spb.ru/forum/index.php)
-   Филологические науки (http://www.aspirantura.spb.ru/forum/forumdisplay.php?f=136)
-   -   Параметрический анализ (http://www.aspirantura.spb.ru/forum/showthread.php?t=10490)

LOVe 10.11.2012 17:22

Цитата:

Сообщение от Дмитрий В. (Сообщение 289475)
Совета по 10.02.21, увы, у нас не имеется. И не исключаю, что в дальнейшем (на стадии обработки полученных данных) диссертация вернется обратно в лоно святой церкви будет все-таки ближе к 10.02.04.

Если Вам защищаться по 10.02.04, то диссертация должна быть не ближе к специальности10.02.04, чем к 10.02.01, а непосредственно по 10.02.04. Именно по той, по которой защищаться. Или же, если она вышла по 10.02.21, нужно искать другой диссовет.

Цитата:

Сообщение от Дмитрий В. (Сообщение 289475)
или ограничивается "Почему исключаете из рассмотрения местоимения, наречия и т.п.?" - "Изучаем лексико-семантический уровень, поэтому ограничиваемся существительными, прилагательными и глаголами"

Даже для конференции это не ответ, потому как и наречие, и местоимение обладают своей собственной семантикой. И если Вы говорите, что изучаете лексико-семантический уровень, то довольно странно не включать в него частей речи, обладающих семантикой. Так что аргументы искать нужно какие-то другие. К наречиям и местоимениям еще, кстати, можете числительное добавить. Оно тоже имет семантический аспект, просто в прошлый раз что-то из головы вылетело, когда Вам ответ писала.

Цитата:

Сообщение от Дмитрий В. (Сообщение 289475)
Если именно про наречия и служебные слова - то за них скажу еще, что они неизменяемые, поэтом в предложении обладают ограниченной функциональностью.

Ну, при чем тут служебные слова? О них вообще речи не шло. Не нужно, отвечая на вопрос, давать ту информацию, о которой не спрашивают. Кроме того, речь шла о семантике, а не о функциональности. И вот при таком ответе напрашиватся одно из двух: либо Вы уходите в сторону от ответа, либо мы с Вами под функциональностью понимаем что-то разное. Вообще, насколько помню, в классической модели распределения частей речи по классам во внимание берутся три критерия: семантический (значение), формальный (все формы слов, словообразовательные и словоизменительные аффиксы и т.д.), функциональный (синтаксические характеристики). И вот о первом мы с Вами, вроде как, разговор и вели.

Цитата:

Сообщение от Дмитрий В. (Сообщение 289475)
*догадливо* Вы предлагаете бить пяткой в грудь членов Совета?

Я вообще никогда не предлагаю кого-либо бить, потому как имею миролюбивую внешнюю политику. А предлагаю я аргументировать ответы, только и всего :) Ну, сами представьте, что выходит пред ясны очи членов диссовета какой-то диссертант и, отвечая на вопрос, почему что-то так-то у него, а не иначе, говорит что-то типа: "Верую я в это, верую. Всей душою своею верую". Неплохо, правда? :) Последнее не о Вас, если что, просто пришло в голову.

Дмитрий В. 10.11.2012 18:05

Цитата:

Сообщение от LOVe (Сообщение 289516)
Даже для конференции это не ответ, потому как и наречие, и местоимение обладают своей собственной семантикой. И если Вы говорите, что изучаете лексико-семантический уровень, то довольно странно не включать в него частей речи, обладающих семантикой. Так что аргументы искать нужно какие-то другие. К наречиям и местоимениям еще, кстати, можете числительное добавить. Оно тоже имет семантический аспект, просто в прошлый раз что-то из головы вылетело, когда Вам ответ писала.

Собственной, но полнозначной ли? Просто мне, когда я начал заниматься своей тематикой, было твердо сказано, что остальные части речи (не сущ., не прил. и не глаг.) нас интересуют в меньшей степени, поскольку у них семантика неполнозначная, местоимения и числительные выполняют больше указательную функцию, а наречия - лишь модифицируют значения полнозначных слов.
А также - что реально представлены морфологические и синтаксические классы слов, а части речи - лишь "некое семантическое тождество слов высокой степени абстракции".
Хотя этот аспект изучу повнимательнее и НР потрясу на эту тему покапитальнее.
Цитата:

Сообщение от LOVe (Сообщение 289516)
Ну, при чем тут служебные слова?

Так, на всякий случай.

Цитата:

Сообщение от LOVe (Сообщение 289516)
либо мы с Вами под функциональностью понимаем что-то разное. Вообще, насколько помню, в классической модели распределения частей речи по классам во внимание берутся три критерия: семантический (значение), формальный (все формы слов, словообразовательные и словоизменительные аффиксы и т.д.), функциональный (синтаксические характеристики). И вот о первом мы с Вами, вроде как, разговор и вели.

А, тогда, похоже, получается, что в нашей методике мы в итоге работаем лишь с теми из слов, которые соответствуют всем трем критериям - полнозначные, обладают системой словоизменения и могут быть любым членом предложения. Хотя (скажу по секрету) вопрос наречий - болезненный.
Цитата:

Сообщение от LOVe (Сообщение 289516)
Я вообще никогда не предлагаю кого-либо бить, потому как имею миролюбивую внешнюю политику.

Ну вот, а я-то надеялся, что смогу на защите выйти и сказать "LOVe разрешила!"
Цитата:

Сообщение от LOVe (Сообщение 289516)
говорит что-то типа: "Верую я в это, верую. Всей душою своею верую

Не "Верую", а "Начальника чукче сказал, сюда ходи, а туда не ходи" ;)

LOVe 10.11.2012 19:24

Цитата:

Сообщение от Дмитрий В. (Сообщение 289549)
Собственной, но полнозначной ли?

Таким образом, Вы вводите еще один термин - "полнозначная семантика". Значит, Вам теперь нужно дать его определение, противопоставив неполнозначной семантике, то есть вычленить определенный круг значений и т.д. и т.п.

Цитата:

Сообщение от Дмитрий В. (Сообщение 289549)
наречия - лишь модифицируют значения полнозначных слов.

Если исходить из этой фразы, то для Вас, получается, полнозначная семантика присуща полнозначным словам? Но наречие является полнозначным словом. Полнозначные слова - это знаменательные слова, к коим наречие, несомненно, относится.

Цитата:

Сообщение от Дмитрий В. (Сообщение 289549)
Просто мне, когда я начал заниматься своей тематикой, было твердо сказано, что остальные части речи (не сущ., не прил. и не глаг.) нас интересуют в меньшей степени,

Неважно, что и кем, и когда было Вам сказано. Работу делаете Вы, результат представляете Вы, и объяснять, что к чему, тоже Вы должны, доказывая, что это так, а не иначе, а не говоря, что мне вот так было сказано.

Цитата:

Сообщение от Дмитрий В. (Сообщение 289549)
А, тогда, похоже, получается, что в нашей методике мы в итоге работаем лишь с теми из слов, которые соответствуют всем трем критериям - полнозначные, обладают системой словоизменения и могут быть любым членом предложения.

Может, и так. Пока из того, что Вы написали, четкие критерии вывести сложно. Впрочем, время подумать и обосновать у Вас есть.

Ilona 10.11.2012 20:26

Цитата:

Сообщение от LOVe (Сообщение 289594)
Неважно, что и кем, и когда было Вам сказано. Работу делаете Вы, результат представляете Вы, и объяснять, что к чему, тоже Вы должны, доказывая, что это так, а не иначе, а не говоря, что мне вот так было сказано.

Ну или тогда добровольно перечислить возможные точки зрения (по поводу включать/не включать наречия-местоимения и почему), а потом так многозначительно сформулировать "вслед за ... (здесь желательно указать как минимум доктора наук, основателя научной школы, а лучше академика) мы придерживаемся такой-то точки зрения"...Как-то так.
Наверняка не спроста и мне и LOVe данный вопрос сразу показался узким местом в вашей работе. Вы должны защититься :)

Дмитрий В. 10.11.2012 23:15

Цитата:

Сообщение от LOVe (Сообщение 289594)
Таким образом, Вы вводите еще один термин - "полнозначная семантика". Значит, Вам теперь нужно дать его определение, противопоставив неполнозначной семантике, то есть вычленить определенный круг значений и т.д. и т.п.

Понятно, буду мыслить над этим вопросом.
Цитата:

Сообщение от LOVe (Сообщение 289594)
Неважно, что и кем, и когда было Вам сказано. Работу делаете Вы, результат представляете Вы, и объяснять, что к чему, тоже Вы должны

Цитата:

Сообщение от Ilona (Сообщение 289614)
а потом так многозначительно сформулировать "вслед за ... (здесь желательно указать как минимум доктора наук, основателя научной школы, а лучше академика) мы придерживаемся такой-то точки зрения"

Это в нашем манифесте работах, лежащих в основе исследований все указано, примерно такими словами, как я и излагаю, а работы эти - монографии по докторской диссертации :D
Цитата:

Сообщение от LOVe (Сообщение 289594)
Впрочем, время подумать и обосновать у Вас есть.

Именно поэтому и выставил этот вопрос сейчас на обсуждение.

Hogfather 11.11.2012 01:32

"Ладно. пора кончать этот бардак. Давайте её закопаем"


Итак, коллеги. Товарищ Дмитрий В. получил интересные результаты, стал мучать их в Excel и получил картинки, которые никуда не годятся. Дла начала, у нас распределение явно дискретное, а мы рисуем график как для непрерывного. Зачем точки соединять то?
Плюнем на Excel слюною, пусть в нем, товарищи, успешные менеджеры отчеты делают, нам путь в нормальный статистический пакет, поэтому только хардкор, только R.
Устанавливаем R, создаем вектор данных.
Код:

> LT<-c(rep(1,9),rep(2,267),rep(3,2843),rep(4,5450),rep(5,6564),rep(6,7044),rep(7,7518),rep(8,7071),rep(9,5620),rep(10,4016),rep(11,2545),rep(12,1494),rep(13,854),rep(14,416),rep(15,214),rep(16,122),rep(17,53),rep(18,16),rep(19,7),rep(20,2),21,22)
Функция rep повторяет первый аргумент число раз, равное второму аргументу, поэтому для rep(1,9) имеем в результате вектор [1,1,1,1,1,1,1,1,1].
Данные берем с графика, любезно предоставленного нам.
Смотрим на результат и радуемся
Код:

> summary(LT)
  Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
    1.0    5.0    7.0    7.2    9.0    22.0
> length(LT)
[1] 52127

Дальше мы просто обязаны поффтыкать на картинки, иначе мы не ученые, а кот начхал.
Сказано-сделано, строим 4 графика в одном.
Код:

> old.par <- par(mfrow=c(2,2))
> hist(LT,main="Распределение букв",ylab="Число наблюдений",xlab="Число букв")
> hist(LT,freq=F,ylab="Вероятность",xlab="Число букв",main="Распределение букв")
> plot(ecdf(LT),verticals=T,main="График функции распределения")
> boxplot(LT,main="Диаграмма Ящик-с-Усами",xlab="Число букв",horizontal=T)
> par(old.par)

http://aspirantura.spb.ru/forum/pict...&pictureid=970

Что мы, собственно говоря видим. А видим, что распределение у нас вполне милое, да слегка несимметричное, но с кем не бывает.
Пытаемся натянуть сову на глобус. Для этого используем подгонку распределения методом максимального правдоподобия (maximum-likelihood estimation, MLE). Метод это весьма кошерен, но связан со сложными вычислениями. К счастью для нас, в R уже всё таки имеется. Достаточно подключить библиотеку MASS.

Резвимся по полной
Код:

> library(MASS)
Предупреждение
пакет ‘MASS’ был собран под R версии 2.14.2

> fitdistr(LT, "gamma")
      shape        rate   
  7.257622928  1.008025740
 (0.043960087) (0.006321817)
Предупреждения
1: In dgamma(x, shape, scale, log) : созданы NaN
2: In dgamma(x, shape, scale, log) : созданы NaN
3: In dgamma(x, shape, scale, log) : созданы NaN
4: In dgamma(x, shape, scale, log) : созданы NaN
5: In dgamma(x, shape, scale, log) : созданы NaN
6: In dgamma(x, shape, scale, log) : созданы NaN
7: In dgamma(x, shape, scale, log) : созданы NaN

> fitdistr(LT, "normal")
      mean          sd   
  7.199838855  2.628803586
 (0.011514015) (0.008141638)

> fitdistr(LT,"lognormal")
      meanlog          sdlog
  1.903586097  0.385993556
 (0.001690630) (0.001195456)

> fitdistr(LT, "Poisson")
    lambda 
  7.19983886
 (0.01175249)

Итак, мы что-то наподгоняли. Попробовали гамму, нормальное, логнормальное и Пуассона. В скобках, для удобства, дана ошибка параметров.

Неплохим графическим методом оценки качества подгонки распределения является график квантилей (quantile). Квантиль — это такое число, что заданная случайная величина не превышает его лишь с указанной вероятностью. Можно рассматривать квантиль как функцию вероятности Q(p), обратную функции распределения вероятностей. Если мы подогнали правильно, то точки на графике должны лежать рядом с прямой y = x. Строим четыре графика для наших распределений.

Код:

> old.par <- par(mfrow=c(2,2))
> qqplot(LT, rgamma(n = 52127, 7.257622928, 1.008025740), main = "Подгонка гамма-распределения, QQ-plot")
> abline(0, 1)
> qqplot(LT, rpois(n = 52127, 7.19983886), main = "Подгонка распределения Пуассона, QQ-plot")
> abline(0, 1)
> qqplot(LT, rnorm(n = 52127, 7.199838855,2.628803586), main = "Подгонка нормального распределения, QQ-plot")
> abline(0, 1)
> qqplot(LT, rlnorm(n = 52127, 1.903586097, 0.385993556), main = "Подгонка Логнормального распределения, QQ-plot")
> abline(0, 1)
> par(old.par)

http://aspirantura.spb.ru/forum/pict...&pictureid=971

Кому как, а мне больше нравится старик Пуассон. Попробуем нарисовать график аппроксимирующих распределений.

Код:

> plot(ecdf(LT),verticals=T,main="Аппроксимация функции распределения")
> lines(0:2200/100,pgamma(0:2200/100,7.257622928, 1.008025740),col="red")
> lines(0:2200/100,ppois(0:2200/100,lambda=7.19983886),col="blue",lwd=2)
> legend(15,0.2,c("Гамма распределение","Распределение Пуассона"),col=c("red","blue"),lwd=2)

Результат
http://aspirantura.spb.ru/forum/pict...&pictureid=972

Ну, пока хватит. Коню понятно, что здесь никакая не гамма, а обычный Пуассон, причем Лямбда равна среднему числу букв в слове.
Ну, теперь сам бог велел провести тест Колмогорова-Смирнова
Код:

> ks.test(LT,rpois(0:2200/100,lambda=7.19983886))

        Two-sample Kolmogorov-Smirnov test

data:  LT and rpois(0:2200/100, lambda = 7.19983886)
D = 0.0261, p-value = 0.1137
alternative hypothesis: two-sided

Предупреждение
In ks.test(LT, rpois(0:2200/100, lambda = 7.19983886)) :
  p-values будут примерными в присутствии повторяющихся значений

Ай, да Hogfather, хочется сказать, ай, молодец!

Бурные продолжительные аплодисменты.

А гамма ваша, кака редкая...

Код:

> ks.test(LT,rgamma(0:2200/100, 7.257622928, 1.008025740))

        Two-sample Kolmogorov-Smirnov test

data:  LT and rgamma(0:2200/100, 7.257622928, 1.00802574)
D = 0.1011, p-value < 2.2e-16
alternative hypothesis: two-sided

Предупреждение
In ks.test(LT, rgamma(0:2200/100, 7.257622928, 1.00802574)) :
  p-values будут примерными в присутствии повторяющихся значений




Согласен на соавторство ;)


P.S. Ну, мои маленькие девиантные друзья, если кто хочет поподробнее почитать про подгонку распределений в R, рекомендую на сон грядущий статью "Fitting distributions with R"


P.P.S. А список наиболее распространенных распределений можно посмотреть вот тут, в вашей любимой Википедии

Вляпалась... 11.11.2012 10:47

Цитата:

Сообщение от Hogfather (Сообщение 289709)
Дальше мы просто обязаны поффтыкать на картинки, иначе мы не ученые, а кот начхал.

А видим, что распределение у нас вполне милое, да слегка несимметричное, но с кем не бывает.
Пытаемся натянуть сову на глобус.

Строим четыре графика для наших распределений.

Кому как, а мне больше нравится старик Пуассон. Попробуем нарисовать график аппроксимирующих распределений.


Ну, пока хватит. Коню понятно, что здесь никакая не гамма, а обычный Пуассон, причем Лямбда равна среднему числу букв в слове.
Ну, теперь сам бог велел провести тест Колмогорова-Смирнова

Ай, да Hogfather, хочется сказать, ай, молодец!

Бурные продолжительные аплодисменты.

Согласен на соавторство ;)

Это 5. Даже не 5, а 7-8, где-то так. Теперь на Вам.. ой на Вас... ну неважно, за Вас... просто обязаны выйти замуж. Как честный человек :) Но соавтором - это как минимум.

Чистенько, аккуратненько, корректненько.

Дмитрий В. 11.11.2012 10:52

Hogfather, выскажу огроменное спасибо и тут.
Вляпалась...,
Цитата:

Сообщение от Вляпалась... (Сообщение 289770)
Но соавтором - это как минимум.

Обязательно, постараемся.

Ilona 11.11.2012 11:36

Цитата:

Сообщение от Hogfather (Сообщение 289709)
Ай, да Hogfather, хочется сказать, ай, молодец!

Бурные продолжительные аплодисменты.

(аплодисменты, подкрепленные топотом ног) Ай, да Hogfather! Ай, да молодец!!

Hogfather 11.11.2012 22:15

"Пора кончать этот бардак. Давайте её откопаем"


Как говорится. не только методом максимального правдоподобия славен R. Ту же задачу можно попробовать решить нелинейным методом наименьших квадратов. Для этого построим кумулятивную (интегральную) функцию распределения и попробуем подогнать понравившегося нам Пуассона. В общем, сделаем примерно то, что пытался проделать Дмитрий В. в Excel.
Код:

> # Понеслась!
> # Строим кумулятивную функцию
> MyEcdf<-ecdf(LT)
># Делаем таблицу (фрейм) для аппроксимации
># Обратите внимание, поскольку я все взял в скобки, результат отображается сразу на экране
> (dfecdf <- data.frame(knots=knots(MyEcdf),Fn=MyEcdf(1:22)))
  knots          Fn
1      1 0.0001726552
2      2 0.0052947609
3      3 0.0598346346
4      4 0.1643869780
5      5 0.2903102039
6      6 0.4254417097
7      7 0.5696663917
8      8 0.7053158632
9      9 0.8131294723
10    10 0.8901720797
11    11 0.9389951465
12    12 0.9676559173
13    13 0.9840389817
14    14 0.9920194909
15    15 0.9961248489
16    16 0.9984652867
17    17 0.9994820343
18    18 0.9997889769
19    19 0.9999232643
20    20 0.9999616322
21    21 0.9999808161
22    22 1.0000000000

> # Строим модель

> mdl<-nls( Fn ~ ppois(knots,lambda), data=dfecdf,model=T)
Предупреждение
In nls(Fn ~ ppois(knots, lambda), data = dfecdf, model = T) :
  Для некоторых параметров не указаны стартовые значения.
Инициализую ‘lambda’ до '1.'.
Укажите 'start' или я использую модель 'selfStart'

> # Информация о модели
> summary(mdl)

Formula: Fn ~ ppois(knots, lambda)

Parameters:
      Estimate Std. Error t value Pr(>|t|)   
lambda  7.16774    0.01924  372.5  <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.006275 on 21 degrees of freedom

Number of iterations to convergence: 5
Achieved convergence tolerance: 3.776e-08

Посчитаем адекватность полученной модели.

Код:

> # Расчет адекватности модели
> (RSS.p <- sum(residuals(mdl)^2))
[1] 0.000826937
> (TSS <- sum((dfecdf$Fn - mean(dfecdf$Fn))^2))
[1] 2.981961

> # коэффициент детерминации
> 1 - (RSS.p/TSS)
[1] 0.9997227

Что мы имеем с гуся. А с гуся имеем чуть другую лямбду (7.16774) и коэффициент детерминации практически единицу.
Для лямбды можно посчитать доверительный интервал
Код:

> confint(mdl)
Waiting for profiling to be done...
    2.5%    97.5%
7.127763 7.207781

Графически ошибки модели можно изобразить вот так.
Код:

> plot(residuals(mdl),main="Ошибки модели")
> abline(0,0)

http://aspirantura.spb.ru/forum/pict...&pictureid=974


Текущее время: 23:22. Часовой пояс GMT +3.

Powered by vBulletin® Version 3.8.8
Copyright ©2000 - 2025, vBulletin Solutions, Inc. Перевод: zCarot
© 2001—2025, «Аспирантура. Портал аспирантов»