Мир как спам

enthusiastic emoticon

Какая гениальная мысль, я это непременно реализую.

  1. Берем какой-нибудь мега-фид. Например полный фид ЖЖ. На этом этапе проводим предварительное фильтрование (например, выделяем все постинги, содержащие русский текст) и складываем все найденное в базу любого типа — лишь бы постинги хранились отдельно. Самый простой способ, на мой взгляд — переводим данные об источнике постинга в заголовок стандартного емыла, что позволит хранить их любым удобным для емыла способом, а главное, упростит следующие пункты обработки.
  2. На этом этапе у нас есть Здоровый Массив Невесть Чего. Теперь мы вручную сортируем его на Интересное и Фигню, разбирая на два больших пакета.
  3. Оба пакета скармливаем статистическому спам-фильтру, например bogofilter. Один как пакет содержащий заведомый спам, другой — как пакет, содержащий заведомый не-спам.

В результате мы получим фильтр, который потенциально может без четких ключевых слов и критериев отделить интересный нам постинг от неинтересного нам постинга, чисто эвристически. Этот фильтр может эволюционировать штатным порядком как такие фильтры эволюционируют в случае обработки собственно спама (если он ошибся — показываем ему на ошибку пальцем) и перемолоть в поисках потенциально любопытных вещей гору сходно форматированой информации, т.е. любой другой мегафид отличающийся сходным языком и тематикой.

По сути, он будет показывать нам новости, которые мы не догадались поискать сами, потому что не знали что они есть.

update: Так, первоначальная версия для экспериментов есть, можно пробовать.

По логике, наверное проще всего сначала натравить ее на примеры заведомо интересных журналов, взяв их по фидам конкретно-адресно, а затем натравить на общий мегафид и всегда когда на выходе появится что-нибудь неинтересное, откладывать его в сторонку, чтобы учить базу на отрицательном примере.

Вообще с этим надо будет повозиться гораздо тщательнее, идея кажется очень перспективной.