Портал аспирантов - Обзор литературы на скорую руку

Портал аспирантов (http://www.aspirantura.spb.ru/forum/index.php)

- Software (программное обеспечение) (http://www.aspirantura.spb.ru/forum/forumdisplay.php?f=107)

- - Обзор литературы на скорую руку (http://www.aspirantura.spb.ru/forum/showthread.php?t=8887)

а если тексты "такие, что нет в инете" есть другой софт и аппаратура - например, сканер и finereader :)

Добавлено через 8 минут

Цитата:

Сообщение от -DOCTOR- (Сообщение 202607)

Напоминает кучу русских сказок: как ничего не делая, все-таки что-то сделать.
По щучьему велению, по моему хотению, пиши-ка программа обзор литературы сама:D.

речи о самостоятельном написании обзора литературы программой не идёт - ЛЕКТА даёт возможность собрать фрагменты текстов, отражающие доминирующие в текстовом массиве микротемы в единые блоки. Далее следует качественная интерпретация собранных воедино, а не находящихся в разных документах (и в разных местах этих документов) высказываний авторов, на данные микротемы - один фактор - одна микротема или несколько коррелирующих тематически микротем. Проще говоря, нет необходимости отмечать на полях галочки в куче текстов, а потом ломать голову как их структурировать и собрать не какую-то их часть а большинство в едином блоке.

Добавлено через 4 минуты

Цитата:

Сообщение от Jacky (Сообщение 202570)

Была в свое время какая-то подобного рода программа, тоже от каких-то отечественных умельцев. Вот с момента появления этой темы пытаюсь вспомнить и не могу никак. :)
Смутно помнится, что-то там было основанное на методиках ТРИЗ (???).
Может быть где-то в архивах остался старый дистрибутив. Надо будет поискать.

Jacky, возможно, Вы имеете ввиду программу ВААЛ?

Цитата:

Сообщение от sergey_shumow (Сообщение 202651)

ЛЕКТА даёт возможность собрать фрагменты текстов, отражающие доминирующие в текстовом массиве микротемы в единые блоки.

А свои мозги зачем? Я про это вообще-то.

Добавлено через 3 минуты

Цитата:

Сообщение от sergey_shumow (Сообщение 202638)

Kayra, вычленить просто беглым просмотром основные мысли (наиболее часто фигурирующие во всём массиве текстов) из 60 статей, скажем 10 страниц каждая - 600 страниц - не очень-то просто, если Вы не обладаете феноменальной памятью и не можете удержать в голове весь этот материал, после чего его структрировать, опять же, не так как вам больше нравится, а объективно, опираясь на принцип частотности (частотность упоминания мыслей, тем в текстах) - то есть идентифицируя те мысли, о которых авторы говорят наиболее часто - значит уделяют им наибольшее внимание. Лично я не в состоянии, это сделать, не уходя проявляя свою субъективность.

Не способны к анализу и синтезу, тогда наука не для Вас.

Цитата:

Сообщение от -DOCTOR- (Сообщение 202774)

А свои мозги зачем? Я про это вообще-то.

Свои мозги на реально черновую работу иногда жалко. Я бы не отказался от софтинки, которая из сотни-полутора источников сделает разумную группировку.

Но как какой-никакой IT-специалист, в т.ч. в области ИИ, понимаю, что это можно сделать только для узкой предметной области или с предварительно определенным тезаурусом.

Добавлено через 2 минуты

Цитата:

Сообщение от -DOCTOR- (Сообщение 202774)

Не способны к анализу и синтезу, тогда наука не для Вас.

Ну зачем так... В анализе больших систем есть грубая работа - первичная классификация. Эта работа в отдельных узких предметных областях давно автоматизируется, а иногда и успешно. И если разработчики решили попробовать свои силы на произвольных текстах - их право.

Цитата:

Сообщение от kravets (Сообщение 202812)

Но как какой-никакой IT-специалист, в т.ч. в области ИИ, понимаю, что это можно сделать только для узкой предметной области или с предварительно определенным тезаурусом.

Пока универсального заменителя человеческому мозгу не найдено. Это радует.

Добавлено через 2 минуты

Цитата:

Сообщение от kravets (Сообщение 202812)

Ну зачем так... В анализе больших систем есть грубая работа - первичная классификация.

Я имел в виду более высокие материи, которые должны происходить уже в сером веществе.

Цитата:

Сообщение от sergey_shumow (Сообщение 202638)

Степан Капуста и DOCTOR: по поводу скептических высказываний в адрес метода (не программы, а метода - именно об этом речь - ЛЕКТА, просто средство его реализации) - правильно ли я вас понял: для того, чтобы, например, корректно произвести факторный анализ, нельзя использовать какой-либо софт (например, STATISTICA, SPSS и т.д. и т.п.) (ведь за него стоит пожизненно дисквалифицировать, как вы выражаетесь), а делать это необходимо с использованием листа бумаги и ручки?

Вы уже написали искусственный интеллект? Тогда почему Вы что-то ещё пишете на этом форуме, а не стоите в кассу за Нобелевской премией?.. ;-)

Не надо мне рассказывать про факторный анализ в Статистике и СПССе — всё-таки мои профессиональные инструменты. Коренное отличие: сделать факторный анализ в СПССе — это, в общем-то, не наука. Наука — найти нужные исходные данные и правильно интерпретировать полученные результаты. Если Вы этого ещё до сих пор не поняли — то Вы кандидат в проффесора.

Цитата:

Сообщение от Степан Капуста (Сообщение 202912)

Вы уже написали искусственный интеллект? Тогда почему Вы что-то ещё пишете на этом форуме, а не стоите в кассу за Нобелевской премией?.. ;-)

Спокойнее. Каждый автор (неважно, что написано раньше) считает свое дЕтище лУчшим. Другое дело, что далеко не всегда это так.

чтобы не быть голословным, выложу матрицы факторного анализа, которые можно получить с использованием программы ЛЕКТА. Посредством этих матриц как раз и возможно идентифицировать структуру изучаемой проблемы, описанной в наборе текстов.
Тексты собраны по теме информационных войн.

вот здесь файлики:
http://depositfiles.com/files/5wfydv1pn

На второй вкладке документа excel "factor loadings" интегрированы в группы переменные - единицы счёта. В данном случае, это слова, наиболее часто используемые авторами в массиве текстов. Наборы этих слов связаны между собой тематически и часто тему можно идентифицировать просто просматривая наборы этих слов. Ну, для примера, можно взять фактор 5 (столбец называется F5). Коэффициенты факторных нагрузок я выделил синим. Фактор включает в себя следующие слова, как это видно из матрицы:
Южной
Осетии
Грузии
августа
конфликта
Кавказе
агрессии

Думаю, не трудно догадаться, что речь идёт о конфликте Грузии, России и Южной Осетии в августе 2008 года. В набранных текстах авторы часто говорят о грузино-осетинском конфликте и развернувшейся информационной войне - это одна из тем (один из элементов будущей структуры, например, обзора литературы, статьи, брошюры, монографии и т.д.), которая активно освещается и анализируется атоврами статей, включённых в массив текстов.
На тетьей вкладке "factor scores" также есть столбец под названием F5. Это матрица в последнем столбце включает все фрагменты всех текстов массива. Снова перейдя на вторую закладку, мы можем увидеть, что у каждой переменной в матрице отрицательный коэффициент. ФАктор мы можем условно обозначить в качестве "отрицательного". Переходим на тертью закладку и сортируем значения в столбце F5 так, чтобы наверху оказались наименьшие по модулю коэффициенты - соответственно отсортировался и стоблец с текстами. В матрице уже проведена сортировка.
Что мы получили... Наверху оказались те тексты, которые по сравнению с другими текстовыми фрагментами содержат тесно коррелирующие (в данном случа вместе встречающиеся слова: Южной Осетии, Грузии, августа, конфликта, Кавказе, агрессии). Таким образом эти тексты тематически связаны между собой. Мы получили материал для КАЧЕСТВЕННОЙ интерпретации. Я также залил документ doc, в котором собраны воедино слова (единицы счёта) и фрагменты текстов. Что делаем дальше: вначале бегло просматриваем сами тексты - понимаем основную мысль, если она нам не знакома. Далее внимательно читаем и выделяем ключевые мысли из этого набора текстовых фрагментов, помечаем их тем или иным образом, обобщаем мысли и записываем. Так поступаем с каждым из факторов. Если фрагмент обрывается на важном месте - просто через поиск ищем эту мысль у автора в исходной статье. Чтобы понять, что за автор высказал её, в матрице на третьей закладке закодирована или приведена полностью фамилия автора.
Пропустил ещё один важный этап - нам же важно прежде всего получить структуру освещаемой проблемы... В этой связи, мы даём краткое название каждому из факторов, используя матрицы, а потом эти микро темы группируем на несколько блоков - каждому из них также даём название: структура готова и её я также отправляю вам в отдельном документе.
На этом массиве текстов я тренировался.
Вопросов может быть немало, безусловно. Но описывать их тут в одном сообщение долговато:) Спрашивайте, если интересно.

ну и добавлю, что хотя модель получается адекватная и материала для интерпретации и освещения море, безусловно, можно дабвалять материал, не вошедший в массив, на основе этой структуры, возможно и расширять саму структуру, опираясь на собственные умозаключения и знания.

Это еще одна программа для контент-анализа. Написать с ее помощью литобзор невозможно. Можно объективизировать (выразить количественно) некоторые тенденции, имеющиеся в специальной литературе по исследуемой проблеме
Я делал такой контент-анализ по интересующей меня проблеме по социальным сетям.
Для примера уже выпущено больше десятка программ для такого автоматизированного анализа соц сетей. Есть программы для контент-анализа любых массивов текстов

Эх, sergey_shumow, погонять что ли Вас по теории факторного анализа... И вообще по статистике...

Цитата:

Сообщение от fazotron (Сообщение 203009)

Есть программы для контент-анализа любых массивов текстов

а порекомендовать диким людям ака Вика - можно?

Цитата:

Сообщение от sergey_shumow (Сообщение 202470)

В общем вышло как реклама

если оно лает как собака, выглядит как собака и воняет как собака - возможно, это и есть - собака.

Цитата:

Сообщение от sergey_shumow (Сообщение 202470)

(для того, чтобы написать обзор литературы нужно прочитать книг 150-300, держать их в голове а потом обобщить...)

а не нужно держать 300 книг в голове. Для обзора не нужно читать 300 книг. Книги ПЕРЕсматриваются на момент обзора. При этом только те куски, которые имеют отношения к работе. Таких обычно - для статьи - не более 10.

Цитата:

Сообщение от sergey_shumow (Сообщение 202470)

Собственно она будет интересна, как мне кажется, ещё и практикам в сфере маркетинга, например, как профессиональный инструмент анализа мнения клиентов, персонала, а не только для диссера и т.д.

а вот это возможно. тут я соглашусь намного скорее, чем использование этих игрушек для обзора литературы для научных исследований.

В общем здесь я рассказал как решил вопросы написания обзора литературы и статей. Тем коме инструмент интересен - может воспользоваться. Переубеждать кого-то в чём-то цели не было.
Повторюсь - необходимая работа в рамках написания диссертации сделана и сделана успешно. Остальное меня мало интересует. Тратить время на споры с кем-либо не намерен.

Цитата:

Сообщение от Vica3 (Сообщение 203031)

а порекомендовать диким людям ака Вика - можно?

Вика - небольшой отрывок из одной моей работы января 2011:
...из отечественных продуктов для целей контент-анализа сайтов применяются, в основном, следующие программы:
 Atlas.Ti - Qualitative data analisys;
 RCO Fact Extractor;
 TextAnalyst;
 Vaal Mini;
 Site Content Analyzer - аналитика содержания сайтов, возможна в автономном режиме.
Автору удалось выявить следующие инструменты мониторинга социальных медиа, которые поддерживают русский язык:
 iqbuzz (http://www.iqbuzz.ru/)
 brandspotter (http://brandspotter.ru/)
 buzzware (http://www.buzzware.ru/)
 kribrum (http://www.kribrum.ru/)
 monitorix (http://monitorix.biz/)
 semanticforce (http://semanticforce.net/ru/sf_home.html)
 wobot (http://wobot.ru/)
 youscan (http://youscan.ru/)

Цитата:

Сообщение от sergey_shumow (Сообщение 203064)

Повторюсь - необходимая работа в рамках написания диссертации сделана и сделана успешно. Остальное меня мало интересует. Тратить время на споры с кем-либо не намерен.

А что уже защитились и дипломчик получили:D? Не говори гоп, пока не перепрыгнул.

fazotron, спасибо