Портал аспирантов

Портал аспирантов (http://www.aspirantura.spb.ru/forum/index.php)
-   Software (программное обеспечение) (http://www.aspirantura.spb.ru/forum/forumdisplay.php?f=107)
-   -   Программы для защиты от спама (http://www.aspirantura.spb.ru/forum/showthread.php?t=2637)

Jacky 23.08.2003 17:47

Программы для защиты от спама
 
Не секрет, что при сборе материалов для диссертации (да и не только) приходится активно использовать электронную почту. Соответственно, возникает проблема спама... Интересно знать, какие способы борьбы с ним популярны у людей науки? Какую(ие) программу(ы) используете? Почему именно эту(эти)? Что порекомендовали бы коллегам?

Philosof 23.08.2003 20:21

Программы для защиты от спама
 
Хм... А мне вот при сборе материалов для диссертации совершенно не приходилось пользоваться электронной почтой. На моем единственном почтовом ящике нет никакой защиты от спама. И за 3 года пользования интернетом рекламных писем приходило максимум 8-10. Все в период последних месяцев, когда я разместил в интернете свои резюме.

McLaud 24.08.2003 00:30

Программы для защиты от спама
 
Цитата:

Соответственно, возникает проблема спама... Интересно знать, какие способы борьбы с ним популярны у людей науки?
Во-во...
Очень интересно.
Может кто скажет чего полезное?



revinski 24.08.2003 01:27

Программы для защиты от спама
 
Philosof
Цитата:

А мне вот при сборе материалов для диссертации совершенно не приходилось пользоваться электронной почтой
аналогично
Jacky

Цитата:

Какую(ие) программу(ы) используете?
The Bat! я использую. А против спама самая полезная штука в нем - Dispatch mail on server

лезешь, удаляешь весь спам, остальные письма получаешь
можно еще фильтры в нем настроить, но лень разбираться...

McLaud 24.08.2003 01:34

Программы для защиты от спама
 
Цитата:

лезешь, удаляешь весь спам, остальные письма получаешь
можно еще фильтры в нем настроить
Ну, так можно и в OutLooke фильтры настроить.
Только на что их настраивать? На слова, на адрес, или на... ?
На примере АмериканЛэнгвичЦентра, кто подскажет?

Jacky 24.08.2003 14:23

Программы для защиты от спама
 
McLaud
Цитата:

Ну, так можно и в OutLooke фильтры настроить.
Только на что их настраивать? На слова, на адрес, или на... ?
На примере АмериканЛэнгвичЦентра, кто подскажет?
Нереально. Эти редиски меняют свои сообщения и тем самым обходят фильтры ОЕ. Нужно использовать другие способы.

lynx 24.08.2003 15:20

Программы для защиты от спама
 
McLaud

Цитата:

На примере АмериканЛэнгвичЦентра, кто подскажет?
Экслер публиковал свой стоип-лист. Для Бата, разумеется.

Собственно, например мой-стоп-лист сделан по теме. Хотя есть и еще один - по заголовкам, но по теме я чаще его редактирую (вношу добавленя).
Очень удобно - я еще юзаю регулярные выражения, элементарные, вида:
реклам*
товар*
услуг*
и т.д.


Для американ-центра (в заголовки):

Английский Разговорный
Базы Данных
Центр Американского
Американский
рассылк
Англ ийский



Кстати, вот компутерщики за это говорят:

http://forum.ru-board.com/topic.cgi?...1&topic=0597#1 Как задолбал этот долбаный AMERICAN Language Center!!!

Каждый борется, как может, но принцип один - стоп-листы. Либо на сервере, либо софтины специальные для их адинистрарования, либо встроенные в софтины стоп-листы.

Отдельные софтины мне не понравились - жрут много ресурсов, постоянно ломятся на сервак *- проверяют, не удобно. Мне удобно встроенный стоп-лист, который я *руками могу редактить, который перечитывается при каждом съеме почты и который легко вырубить, если нужны, например, заголовки спаммовые или еще зачем.



Jacky 24.08.2003 15:31

Программы для защиты от спама
 
lynx
Цитата:

Каждый борется, как может, но принцип один - стоп-листы.

Цитата:

Английский Разговорный
Базы Данных
Центр Американского
Американский
рассылк
Англ ийский
Ну и чего? Например, варианты "Англuйскuй" (смесь латиницы и кириллицы) или "А нг лиийский" твои стоп-листы не задержат.

lynx 24.08.2003 18:06

Программы для защиты от спама
 
Jacky

Цитата:

Например, варианты "Англuйскuй" (смесь латиницы и кириллицы) или "А нг лиийский" твои стоп-листы не задержат.
Да, не задержат. Ну, тут два варианта. Первый - добавлять каждый новый заголовок, либо рег. выражение писать, например:

англ*
а н г*

Что там еще? Ну и смесь киррилицы и латиницы. В принципе потратить 5 мин на написание и спать спокойно.

Ты будешь смеяться, но мне вот при том фильтре по теме ^^ давно уже ничего от них не приходит. Правда, может, админы на сервак что-то поставили, но админы и серваки разные (ящики у меня на разных серверах физически), а фильтр мой одинаковый и итог один для всех ящиков.

Тут смысл какой - как можно большее число спама поместить в фильтр. Ну, другого все равно еще никто не придумал. Серверные или клентские способы - все равно основаны на одном и том же - анализе заголовков, либо даже тела письма и каком-то действии с письмом в зависимости от совпадения/несовпадения с заданными образцами.

Получается, что самое ценное - это правила для стоп-листа :) А все остальное - семечки - способы применения этих правил :)

А мне сильно важно, чтобы я руками могла эти фильтры править. Потому что, например, есть старые ящики, пасы от которых я забыла и вспоминать не хочу, они (мылы) засвечены, и на них льется всякая фигня и перенаправляется на реальное рабочее мыло. А я четко знаю, что ни один нормальный человек не станет на эти мыли мне писать лично. Поэтому все заголовки по этим мылам анализируются и эти письма удаляются без скачивания.


Jacky 24.08.2003 20:12

Программы для защиты от спама
 
lynx
Цитата:

Тут смысл какой - как можно большее число спама поместить в фильтр.
Это понятно. Но я вот сейчас посмотрел свою базу писем, по ключу "англ" попадает письмо с заголовком "Англ. учебники". По ключу "рассылк" вообще больше десятка. Все это можно настроить конечно (допустим, сделать список мэйлов с которых письма идут в белый список независимо от темы и т.д.) Но все-таки предпочитаю не заниматься составлением стоп-списков самому и не качать их из интернета. Конечно, если:

Цитата:

А мне сильно важно, чтобы я руками могла эти фильтры править.
...то это одно. Мне же важно, как можно меньше заниматься этим вручную. Фильтры по темам и/или заголовкам плохи тем, что их нужно постоянно дополнять, причем _думать_ над этим. Пусть классификацией сама программа занимается, а я ее изредка поправлю если что (и на этих поправках она будет учиться). Здесь, в отличие от правки стоп-листов, не нужно особенно думать: просто говоришь программе, что такое-то письмо ошибочно помечено как спам, оно нужное (или наоборот). На основе этого она сама учится и улучшает свои алгоритмы. Короче говоря, рекомендую посмотреть POPFile -- работает по методу bayesian filter. Реализовано как прокси для Outlook Express (может и для бата, и т.д.).

Вот за вчерашний день статистика.

Классифицированные письма: 24
Ошибки классификации: 0
----------------------------------
Точность: 100%

personal 21 ( 87.5%)
spam 3 ( 12.5%)

Желающим ознакомиться -- сюда: http://popfile.sourceforge.net

McLaud 24.08.2003 22:58

Программы для защиты от спама
 
Ну, простое "англ" в комбинациях режет и нормальные письма, тоже пробовали.
Регулярные выражения - это дело, но я в OutLooke не знаю как и куда их писать, только на РНР знаю (Может кто подскажет на конкретном примере?)
У них там телефон указан, вот тогда если убрать все что в заголовке или тексте содержит выражение типа *1*5*4*2*2*7*1*, где * - один-два пробела или тире или ничего, то тогда должно сработать.
Мне кажется, что надо именно телефоны искать, а не текст. Тогда это конкретно только на этого спамера будет. А вероятность появления чего подобного в нормальном письме будет - как авиакатастрофы.

Цитата:

работает по методу bayesian filter
По Байесу, млин... Помню, было дело... Деконволюция по Байесу - тоже хорошая штука. Видать умный был Байес.
Посмотрю. Спасибо.

Короче, у кого ума палата, напишите регулярное выражение с телефоном, а? Чего словеса разводить...

Цитата:

Получается, что самое ценное - это правила для стоп-листа
Да я давно согласная, что это самое ценное!
Дак и цитани свой стоп-лист, если опыт положительный, не будь жадной девочкой.
Если не будешь жадной девочкой, то вот тебе подарок:
http://mclaud.by.ru/presents/present2.html
А Эслера я не люблю, он глуповат на мой вкус и совсем неученый. А я ученых люблю.

Цитата:

И за 3 года пользования интернетом рекламных писем приходило максимум 8-10. Все в период последних месяцев, когда я разместил в интернете свои резюме.
Где разместил-то? Дай почтать, чего ученые про себя пишут.
Если бы в известном месте разместил, то тут же тебя бы и сосчитали.

lynx 25.08.2003 00:01

Программы для защиты от спама
 
Цитата:

один-два пробела или тире или ничего, то тогда должно сработать.
Вот регесп для:

Одна или несколько цифр,
за которыми идет ноль или несколько пробелов
или тире:


\d+((\s*)|(-))






Добавлено


А вот то же самое, только все это:

один или более раз: (Одна или несколько цифр,
за которыми идет ноль или несколько пробелов
или тире)


{1(\d+((\s*)|(-))),}




Кошки сами писали

Добавлено


Цитата:

цитани свой стоп-лист, если опыт положительный, не будь жадной девочкой.
Я про Амеркан цитанула, а остальное - у Экслера брала :)

Еще у меня стоит как регеспы по теме:

Цитата:

Symantec AVF detected*
Undeliverable Message*
DrWeb-DAEMON*
рассылк*
почтов*
магаз*
*купить*

По заголовкам как "любая строка найдена":

Цитата:

Гражданство
Предлагаем
санаторий
Турфирма
friend
ИTAЛ
Money
Business
офис
в и з и т к и
курсы
Meet people who want to meet you
работа
оптом
DVD
салон
продажа
руководителю
продается
ремонт
кредит
услуги
маркетинг
обучение
Бизнес
Free
бесплатно
patch
офис
аренд
Доставка
тамож
груз
заказ
полиграф
new mail
КВАРТИР
КОМАР
СОТОВ
семинар
НОВИНКА
Заказ
продаю
Хотите
Интернет
Обмен ссылками
Визитки
бархатный сезон
Туры
Thank you
предлагаем
Your application
Details
movie
Your details
screensaver
Кoндицuoнеpы
РЕКЛАМА
Но, надо признать, поскольку я руками вношу все это, часто повторы и неэффективно все, то есть можно все сократить, да так оно добавляется потихоньку, а сократить, написан рег. выражение руки не доходят, к тому же анализ быстро идет - время на анализ не критично, хоть сто строк хоть пять, примерно одни и то же время.

Пока я с вами болтала, мне юниксоиды регесп мой оптимизнули, последний вариант можно записать как:

(\d+((\s*)|(-)))+

Что аналогично

{1(\d+((\s*)|(-))),}

Цитата:

Фильтры по темам и/или заголовкам плохи тем, что их нужно постоянно дополнять, причем _думать_ над этим. П
Бяда... А что делать :)

Jacky 25.08.2003 02:12

Программы для защиты от спама
 
lynx
Цитата:

Бяда... А что делать
Да я уже вижу, что легких путей тут не ищут. Можно, конечно, поставить какой-нибудь анализатор, тот же POPFile и расслабиться, а можно сурово писать регэкспы а потом их оптимизировать. Фильтры руками править, опять же. Каждому свое. Мне в самом деле лень -- бо занятие малоинтересное.

McLaud 25.08.2003 05:33

Программы для защиты от спама
 
Спасибо.
Только я совсем не врубился, куда это писать все надо?
То есть к чему
(\d+((\s*)|(-)))+
присобачивать?
Это же на Перле так?
Или как?

Dubrovsky 25.08.2003 06:02

Программы для защиты от спама
 
Banned


Текущее время: 06:11. Часовой пояс GMT +3.

Powered by vBulletin® Version 3.8.8
Copyright ©2000 - 2025, vBulletin Solutions, Inc. Перевод: zCarot
© 2001—2025, «Аспирантура. Портал аспирантов»