Портал аспирантов - Обзор литературы на скорую руку

Портал аспирантов (http://www.aspirantura.spb.ru/forum/index.php)

- Software (программное обеспечение) (http://www.aspirantura.spb.ru/forum/forumdisplay.php?f=107)

- - Обзор литературы на скорую руку (http://www.aspirantura.spb.ru/forum/showthread.php?t=8887)

Цитата:

Сообщение от Степан Капуста (Сообщение 202912)

Вы уже написали искусственный интеллект? Тогда почему Вы что-то ещё пишете на этом форуме, а не стоите в кассу за Нобелевской премией?.. ;-)

Спокойнее. Каждый автор (неважно, что написано раньше) считает свое дЕтище лУчшим. Другое дело, что далеко не всегда это так.

чтобы не быть голословным, выложу матрицы факторного анализа, которые можно получить с использованием программы ЛЕКТА. Посредством этих матриц как раз и возможно идентифицировать структуру изучаемой проблемы, описанной в наборе текстов.
Тексты собраны по теме информационных войн.

вот здесь файлики:
http://depositfiles.com/files/5wfydv1pn

На второй вкладке документа excel "factor loadings" интегрированы в группы переменные - единицы счёта. В данном случае, это слова, наиболее часто используемые авторами в массиве текстов. Наборы этих слов связаны между собой тематически и часто тему можно идентифицировать просто просматривая наборы этих слов. Ну, для примера, можно взять фактор 5 (столбец называется F5). Коэффициенты факторных нагрузок я выделил синим. Фактор включает в себя следующие слова, как это видно из матрицы:
Южной
Осетии
Грузии
августа
конфликта
Кавказе
агрессии

Думаю, не трудно догадаться, что речь идёт о конфликте Грузии, России и Южной Осетии в августе 2008 года. В набранных текстах авторы часто говорят о грузино-осетинском конфликте и развернувшейся информационной войне - это одна из тем (один из элементов будущей структуры, например, обзора литературы, статьи, брошюры, монографии и т.д.), которая активно освещается и анализируется атоврами статей, включённых в массив текстов.
На тетьей вкладке "factor scores" также есть столбец под названием F5. Это матрица в последнем столбце включает все фрагменты всех текстов массива. Снова перейдя на вторую закладку, мы можем увидеть, что у каждой переменной в матрице отрицательный коэффициент. ФАктор мы можем условно обозначить в качестве "отрицательного". Переходим на тертью закладку и сортируем значения в столбце F5 так, чтобы наверху оказались наименьшие по модулю коэффициенты - соответственно отсортировался и стоблец с текстами. В матрице уже проведена сортировка.
Что мы получили... Наверху оказались те тексты, которые по сравнению с другими текстовыми фрагментами содержат тесно коррелирующие (в данном случа вместе встречающиеся слова: Южной Осетии, Грузии, августа, конфликта, Кавказе, агрессии). Таким образом эти тексты тематически связаны между собой. Мы получили материал для КАЧЕСТВЕННОЙ интерпретации. Я также залил документ doc, в котором собраны воедино слова (единицы счёта) и фрагменты текстов. Что делаем дальше: вначале бегло просматриваем сами тексты - понимаем основную мысль, если она нам не знакома. Далее внимательно читаем и выделяем ключевые мысли из этого набора текстовых фрагментов, помечаем их тем или иным образом, обобщаем мысли и записываем. Так поступаем с каждым из факторов. Если фрагмент обрывается на важном месте - просто через поиск ищем эту мысль у автора в исходной статье. Чтобы понять, что за автор высказал её, в матрице на третьей закладке закодирована или приведена полностью фамилия автора.
Пропустил ещё один важный этап - нам же важно прежде всего получить структуру освещаемой проблемы... В этой связи, мы даём краткое название каждому из факторов, используя матрицы, а потом эти микро темы группируем на несколько блоков - каждому из них также даём название: структура готова и её я также отправляю вам в отдельном документе.
На этом массиве текстов я тренировался.
Вопросов может быть немало, безусловно. Но описывать их тут в одном сообщение долговато:) Спрашивайте, если интересно.

ну и добавлю, что хотя модель получается адекватная и материала для интерпретации и освещения море, безусловно, можно дабвалять материал, не вошедший в массив, на основе этой структуры, возможно и расширять саму структуру, опираясь на собственные умозаключения и знания.

Это еще одна программа для контент-анализа. Написать с ее помощью литобзор невозможно. Можно объективизировать (выразить количественно) некоторые тенденции, имеющиеся в специальной литературе по исследуемой проблеме
Я делал такой контент-анализ по интересующей меня проблеме по социальным сетям.
Для примера уже выпущено больше десятка программ для такого автоматизированного анализа соц сетей. Есть программы для контент-анализа любых массивов текстов

Эх, sergey_shumow, погонять что ли Вас по теории факторного анализа... И вообще по статистике...

Цитата:

Сообщение от fazotron (Сообщение 203009)

Есть программы для контент-анализа любых массивов текстов

а порекомендовать диким людям ака Вика - можно?

Цитата:

Сообщение от sergey_shumow (Сообщение 202470)

В общем вышло как реклама

если оно лает как собака, выглядит как собака и воняет как собака - возможно, это и есть - собака.

Цитата:

Сообщение от sergey_shumow (Сообщение 202470)

(для того, чтобы написать обзор литературы нужно прочитать книг 150-300, держать их в голове а потом обобщить...)

а не нужно держать 300 книг в голове. Для обзора не нужно читать 300 книг. Книги ПЕРЕсматриваются на момент обзора. При этом только те куски, которые имеют отношения к работе. Таких обычно - для статьи - не более 10.

Цитата:

Сообщение от sergey_shumow (Сообщение 202470)

Собственно она будет интересна, как мне кажется, ещё и практикам в сфере маркетинга, например, как профессиональный инструмент анализа мнения клиентов, персонала, а не только для диссера и т.д.

а вот это возможно. тут я соглашусь намного скорее, чем использование этих игрушек для обзора литературы для научных исследований.

В общем здесь я рассказал как решил вопросы написания обзора литературы и статей. Тем коме инструмент интересен - может воспользоваться. Переубеждать кого-то в чём-то цели не было.
Повторюсь - необходимая работа в рамках написания диссертации сделана и сделана успешно. Остальное меня мало интересует. Тратить время на споры с кем-либо не намерен.

Цитата:

Сообщение от Vica3 (Сообщение 203031)

а порекомендовать диким людям ака Вика - можно?

Вика - небольшой отрывок из одной моей работы января 2011:
...из отечественных продуктов для целей контент-анализа сайтов применяются, в основном, следующие программы:
 Atlas.Ti - Qualitative data analisys;
 RCO Fact Extractor;
 TextAnalyst;
 Vaal Mini;
 Site Content Analyzer - аналитика содержания сайтов, возможна в автономном режиме.
Автору удалось выявить следующие инструменты мониторинга социальных медиа, которые поддерживают русский язык:
 iqbuzz (http://www.iqbuzz.ru/)
 brandspotter (http://brandspotter.ru/)
 buzzware (http://www.buzzware.ru/)
 kribrum (http://www.kribrum.ru/)
 monitorix (http://monitorix.biz/)
 semanticforce (http://semanticforce.net/ru/sf_home.html)
 wobot (http://wobot.ru/)
 youscan (http://youscan.ru/)

Цитата:

Сообщение от sergey_shumow (Сообщение 203064)

Повторюсь - необходимая работа в рамках написания диссертации сделана и сделана успешно. Остальное меня мало интересует. Тратить время на споры с кем-либо не намерен.

А что уже защитились и дипломчик получили:D? Не говори гоп, пока не перепрыгнул.

fazotron, спасибо