Помогите подобрать прогу для анализа

Diesel · 24.06.2013, 12:07

Добрый день!

Нужно мнение компетентных людей - какой софт лучше подходит для анализа данных. Данные представлены в виде сотни текстовых файлов, в каждом из которых десяток тысяч строк вида: 1.2.2013 12:12 1234 1234 234 23423 (т.е. дата, время, четыре числа). Спасибо.

Hogfather · 24.06.2013, 12:43

Diesel, Как вариант, SQLite + GNU R

Вопрос в том, что Вы не поставили задачу. Первым этапом, до анализа, является, насколько я понимаю, агрегация сотни текстовых файлов с десятком тысяч строк в каждом в одну таблицу, в которой добавится колонка "Источник". Это делается элементарно с помощью любого скрипта, язык не важен: perl, python, vbscript, etc.

Такой объем лучше загнать в какую нибудь базу данных, например, SQLite. Это делается в том же скрипте. Последующая обработка возможна в R. Если используете специализированный пакет, то можно сформировать сперва один файл CSV также скриптом, а потом закачать в пакет. Где-то так.

Diesel · 24.06.2013, 12:57

Спасибо за совет!

Да, Вы правы, видимо первым делом нужно загнать все данные в БД.

Lutatovsky · 24.06.2013, 22:45

Цитата:

Сообщение от Diesel

первым делом нужно загнать все данные в БД.

А зачем? От перемены мест слагаемых сумма не меняется. Оставляйте в текстовом виде. Большинство программ анализа его понимает.

Какого рода анализ нужен?

Diesel · 26.06.2013, 13:16

Добрый день!
Опишу в кратце иеющиеся данные. В моём распоряжении есть пара тысяч текстовых файлов, в каждом из которых десяток тысяч строк вида: 1.2.2013 12:12 1234 1234 234 23423 (т.е. дата, время, четыре числа). В файлах содержится статистическая информация о работе некого сложного технического устройства. Один файл - это статистика работы одного устройства за период в несколько лет с интервалом в несколько минут.
Сейчас я провёл анализ данных десятка файлов. Определил несколько интересных закономерностей, для описания которых создал мат.модель. Однако в ручную обработать более 2 000 файлов - процесс долгий, т.е. нужна автоматизация. Плюс есть множество идей по выявлению других закономерностей

Анализ нужно проводить как по каждому отдельному файлу, т.к. и по группе файлов.

P.S. Если использовать БД, то придется обращаться к помощи знакомых программистов. Я с БД почти не работал, хотя навыки программирования есть, правда, в Паскале, да и давно это было...

Hogfather · 26.06.2013, 13:21

Diesel, если Вас устраивает R, то готов помочь со скриптом в соответствующей теме. В чем Вы делали матмодель?

Uzanka · 26.06.2013, 13:40

Diesel,
Вам уже посоветовали хороший статистический продукт - R. Научитесь им пользоваться. На курсейре полно курсов по нему. Вот в этом курсе - Computing for Data Analysis - как раз вас научат как вытащить нужную информацию из текстовых файлов вашего вида. Там покажут, расскажут и напишут небольшой код для такого вида задач.
Только курс стартует с сентября.

зы. всё бесплатно.. курсы, сам статистический пакет R . Только учитесь работать с ним. Очень полезная вещь для обработки статистики.

Добавлено через 2 минуты
в общем, слушайте Hogfather. Он плохого не посоветует

Добавлено через 14 минут
Кстати, сейчас вспомнила, что по курсу Computing for Data Analysis преподаватель выкладывал часть видео-лекций в YouTube. Поищите. Про скрипт как вытаскивать информацию из файлов он говорил где-то в 3-ей или 4-ой неделе. Преподаватель китайской наружности.

Hogfather · 26.06.2013, 13:59

Собственно, пример на R. Если устраивает, пользуйтесь.

Diesel · 26.06.2013, 14:23

Цитата:

Сообщение от Hogfather

Diesel, если Вас устраивает R, то готов помочь со скриптом в соответствующей теме. В чем Вы делали матмодель?

Боюсь Вас разочаровать, но мат.модель я делал с помощью excel-подобной программы - строил графики различных файлов и визуально сравнивал их между собой. Далее составил пару формул для описания одинаковых процессов. Предполагается по этой формуле находить аналогичные процессы в других файлах. Что-то более сложное пока не делал - ищу так раз удобные способы реализации.

Цитата:

Сообщение от Uzanka

Diesel,
Вам уже посоветовали хороший статистический продукт - R. Только учитесь работать с ним. Очень полезная вещь для обработки статистики.

Добавлено через 2 минуты
в общем, слушайте Hogfather. Он плохого не посоветует

Да, похоже что R мне подойдёт. Во всяком случае судя по описанию и функционалу то что нужно. Даже не верится

Цитата:

Сообщение от Hogfather

Собственно, пример на R. Если устраивает, пользуйтесь.

Спасибо! Полчаса сижу с открытым ртом. Начинаю качать и изучать R. Спасибо за наводку!

24.06.2013, 12:07	#1
Diesel Newbie Регистрация: 01.03.2004 Сообщений: 7	Помогите подобрать прогу для анализа Добрый день! Нужно мнение компетентных людей - какой софт лучше подходит для анализа данных. Данные представлены в виде сотни текстовых файлов, в каждом из которых десяток тысяч строк вида: 1.2.2013 12:12 1234 1234 234 23423 (т.е. дата, время, четыре числа). Спасибо.
Diesel Newbie Регистрация: 01.03.2004 Сообщений: 7

24.06.2013, 12:43	#2
Hogfather Platinum Member Регистрация: 22.07.2010 Адрес: Санкт-Петербург Сообщений: 3,304	Diesel, Как вариант, SQLite + GNU R Вопрос в том, что Вы не поставили задачу. Первым этапом, до анализа, является, насколько я понимаю, агрегация сотни текстовых файлов с десятком тысяч строк в каждом в одну таблицу, в которой добавится колонка "Источник". Это делается элементарно с помощью любого скрипта, язык не важен: perl, python, vbscript, etc. Такой объем лучше загнать в какую нибудь базу данных, например, SQLite. Это делается в том же скрипте. Последующая обработка возможна в R. Если используете специализированный пакет, то можно сформировать сперва один файл CSV также скриптом, а потом закачать в пакет. Где-то так.
	--------- DNF is not an option

24.06.2013, 12:57	#3
Diesel Newbie Регистрация: 01.03.2004 Сообщений: 7	Спасибо за совет! Да, Вы правы, видимо первым делом нужно загнать все данные в БД.
Diesel Newbie Регистрация: 01.03.2004 Сообщений: 7

26.06.2013, 13:16	#5
Diesel Newbie Регистрация: 01.03.2004 Сообщений: 7	Добрый день! Опишу в кратце иеющиеся данные. В моём распоряжении есть пара тысяч текстовых файлов, в каждом из которых десяток тысяч строк вида: 1.2.2013 12:12 1234 1234 234 23423 (т.е. дата, время, четыре числа). В файлах содержится статистическая информация о работе некого сложного технического устройства. Один файл - это статистика работы одного устройства за период в несколько лет с интервалом в несколько минут. Сейчас я провёл анализ данных десятка файлов. Определил несколько интересных закономерностей, для описания которых создал мат.модель. Однако в ручную обработать более 2 000 файлов - процесс долгий, т.е. нужна автоматизация. Плюс есть множество идей по выявлению других закономерностей Анализ нужно проводить как по каждому отдельному файлу, т.к. и по группе файлов. P.S. Если использовать БД, то придется обращаться к помощи знакомых программистов. Я с БД почти не работал, хотя навыки программирования есть, правда, в Паскале, да и давно это было...
Diesel Newbie Регистрация: 01.03.2004 Сообщений: 7

26.06.2013, 13:21	#6
Hogfather Platinum Member Регистрация: 22.07.2010 Адрес: Санкт-Петербург Сообщений: 3,304	Diesel, если Вас устраивает R, то готов помочь со скриптом в соответствующей теме. В чем Вы делали матмодель?
	--------- DNF is not an option

26.06.2013, 13:40	#7
Uzanka Gold Member Регистрация: 16.04.2012 Сообщений: 1,218	Diesel, Вам уже посоветовали хороший статистический продукт - R. Научитесь им пользоваться. На курсейре полно курсов по нему. Вот в этом курсе - Computing for Data Analysis - как раз вас научат как вытащить нужную информацию из текстовых файлов вашего вида. Там покажут, расскажут и напишут небольшой код для такого вида задач. Только курс стартует с сентября. зы. всё бесплатно.. курсы, сам статистический пакет R . Только учитесь работать с ним. Очень полезная вещь для обработки статистики. Добавлено через 2 минуты в общем, слушайте Hogfather. Он плохого не посоветует Добавлено через 14 минут Кстати, сейчас вспомнила, что по курсу Computing for Data Analysis преподаватель выкладывал часть видео-лекций в YouTube. Поищите. Про скрипт как вытаскивать информацию из файлов он говорил где-то в 3-ей или 4-ой неделе. Преподаватель китайской наружности.

26.06.2013, 13:59	#8
Hogfather Platinum Member Регистрация: 22.07.2010 Адрес: Санкт-Петербург Сообщений: 3,304	Собственно, пример на R. Если устраивает, пользуйтесь.
	--------- DNF is not an option

Реклама