lynx
Цитата:
Тут смысл какой - как можно большее число спама поместить в фильтр.
|
Это понятно. Но я вот сейчас посмотрел свою базу писем, по ключу "англ" попадает письмо с заголовком "Англ. учебники". По ключу "рассылк" вообще больше десятка. Все это можно настроить конечно (допустим, сделать список мэйлов с которых письма идут в белый список независимо от темы и т.д.) Но все-таки предпочитаю не заниматься составлением стоп-списков самому и не качать их из интернета. Конечно, если:
Цитата:
А мне сильно важно, чтобы я руками могла эти фильтры править.
|
...то это одно. Мне же важно, как можно меньше заниматься этим вручную. Фильтры по темам и/или заголовкам плохи тем, что их нужно постоянно дополнять, причем _думать_ над этим. Пусть классификацией сама программа занимается, а я ее изредка поправлю если что (и на этих поправках она будет учиться). Здесь, в отличие от правки стоп-листов, не нужно особенно думать: просто говоришь программе, что такое-то письмо ошибочно помечено как спам, оно нужное (или наоборот). На основе этого она сама учится и улучшает свои алгоритмы. Короче говоря, рекомендую посмотреть POPFile -- работает по методу bayesian filter. Реализовано как прокси для Outlook Express (может и для бата, и т.д.).
Вот за вчерашний день статистика.
Классифицированные письма: 24
Ошибки классификации: 0
----------------------------------
Точность: 100%
personal 21 ( 87.5%)
spam 3 ( 12.5%)
Желающим ознакомиться -- сюда:
http://popfile.sourceforge.net