Как Яндекс-Почта борется со спамом
Принципы работы антиспам-фильтров надо знать, чтобы не рассылать спам.
Основы работы фильтров Яндекс.Почты опубликованы на корпоративном сайте в статье
Принципы и технические методы работы с незапрашиваемой корреспонденцией.
Хотя она не очень свежая (об этом ниже), все принципы актуальны по сей день:
Данные, которые используются для анализа — это все признаки пришедшего письма. Их можно разделить на четыре пространства, вычисление решений в которых можно производить независимо:
- IP-адрес сервера отправителя
- оформление и стиль писем, заголовки, форматирование, характерные обороты
- статистика слов в письмах
- контрольные суммы («сигнатуры») текстов писем
[..] Ни один отдельно взятый набор признаков не в состоянии обеспечить максимальное качество фильтрации. Очевидно, преимущество здесь окажется у систем, интегрирующих решения по всем пространствам признаков.
Конечно, никаких прямых советов «как не попасть в спам» вы не найдете,
но конкретным алгоритмам Яндекс.Почты уделено достаточно много внимания:
[…] На Почте Яндекса письма проходят три уровня фильтрации. На первом этапе отбрасывается явный спам — сообщения, приходящие от неадминистрируемых (взломанных, открытых) почтовых серверов, либо пойманные в спамовые ловушки.
Затем каждое письмо проверяется антивирусной программой DrWeb. При этом зараженные письма, не содержащие ничего, кроме самого вируса, уничтожаются, а зараженные письма с текстом помечаются «Осторожно, вирус!».
Последним работает фильтр, помещающий в папку «Рассылки» подозрительно похожие письма, разосланные по слишком большому списку адресов.
В целом очень грамотная статья, никакой воды и пиара — всё по делу, достаточно подробно и технично. Научно-популярная статья для широкого круга специалистов, читайте.
Дата публикации не указана, но, судя по тому, что авторы не упоминают SPF и DKIM, можно датировать её 2003-2004 годом.
Про SPF Яндекс написал позже. Что вызвало оживленную дискуссию.
А про DomainKeys Яндекс ничего не пишет до сих пор. Очевидно, он его не использует. Мировые почтовые системы тоже разделились на два лагеря — Gmail и Yahoo используют DomainKeys, а Hotmail и AOL — Sender ID.
Popularity: 22% [?]

