Смертный бой со спамом СайдЫгз Xakep, номер #059, стр. 059-070-3 Примечателен принцип работы подобного софта. Все эти продукты работают по одинаковой схеме: приходящие письма проверяются на спам-похожесть, пробиваются IP-адреса отправителя, e-mail и его smtp по RBL'ам. Боясь Байеса Основная проблема большинства спам-фильтров - ложные срабатывания. Это когда 0,3-5% всего мыльного трафика принимается за спам и уходит в треш. Конечно, если ты потеряешь пару писем в год от своего друга-стахановца из хакерской группы, это не страшно. Но что делать, если ты являешься админом целого прова? Потеряешь десяток важных писем, а назавтра и всю контору закроют :(. Для решения подобных проблем придумали так называемый байес, т.е. самообучающиеся правила. С их помощью фильтр сам учится отличать спам от обычной переписки, анализируя весь твой почтовый трафик. Интересно, что подобная тема была уже давно реализована. Ее первое проявление можно обнаружить в старейших антивирусах - эвристический анализ писем с уклоном в лингвистику. Сейчас же самым навороченным некоммерческим начинанием можно назвать Popfile. Он продвигается под эгидой Sourceforge (авторитетное объединение по разработке open-source софта). Увы, байесы, при всей своей сексуальности, бессильны против новейших трюков спамеров. В этих случаях лишь живой человек способен распознать рекламу. Поэтому для достижения полного удовлетворения и полноценной работы, приходится доучивать питомца-байеса вручную, направляя его морду в пропущенную кучу спама :). Голосуют все! Для выявления наличия рекламы среди обыкновенных писем борцы со спамом устраивают голосования. Юзеры постят в систему полученные спамерские письма либо просто добавляют готовые рекламные шаблоны (сигнатуры). Далее подобные заливки просматриваются другими бойцами системы. Они раздают свои оценки степени "спамности" на то или иное письмо. За такие голосования пользователям начисляют бонусные очки. Эту же систему использует mail.ru. Правда, про перевод бонусов в область материального, осязаемого, денежного они ничего не говорят. Все это напоминает субботники во время Ленинской недели, когда на общественных началах происходит уборка мусора. Лидером этих голосований можно назвать некоммерческую систему Vipul's Razor, построившую свою технологию на базе *nix-софта. SpamNet также опирается в решениях на голосовалку Vipul'a. Сторонники голосований считают, что доносы на спам должны стать столь же повседневными и обыденными, как чистка зубов и смена прокладок. Шизофренический шингл Одним из эффективных способов прекратить массированную атаку спама - получить пару писем, запомнить их содержимое и далее удалять все попадающиеся дубликаты. Спамеры обходят это перестановкой букв в словах, сменой последовательности слов, по сути, делая каждое письмо уникальным. Но тут на помощь в распознавании двойников приходит хит сезона - шинглы - система подстрочного анализа контрольной суммы письма. Для анализа можно прихватить отдельный символ, слово или целое предложение. Например, расставив контрольные точки между двумя буквами строки. Даже с изменениями в письме, по установленным шинглам можно будет обнаружить дубликаты. И чем больше обрабатываемая часть текста письма, тем выше вероятность выявления письма-копии, однако это дает большую нагрузку на сервер. У Yandex-почты применяется логичный подход к шинглам: размер выборки проверяемого текста зависит от объема письма. |