Если что не так, надеюсь что меня поправят, если что-то "спалил", извиняйте. Я до этого сам дошел, нигде не скопировал, а просто очень многого читал, анализировал, пробовал, нажимал на разные кнопки и в разном порядке. :D Подбирал слова, выражения, цифры, ну и в итоге, как мне кажется, что-то стало получаться.
Итак начнём.
Начну с words_database. Здесь ничего мудреного нет. Я например в одном из своих экспериментов использовал вот какие данные, хотя мне кажется многие и удивятся. С помощью Excel ввел в столбик 1 2 3 А Б В 1 2 3 а б в, и растянул это дело на тысячу штук. Т.е. у меня получилась тысяча "ключевых слов", которые hrefer должен искать на форуме. А почему так много, да дело в том, что за один проход он не парсит всю выдачу, а так он будет с каждым разом собирать дальше. Почему именно буквы и цифры, да просто хотел посмотреть что будет, я же писал до этого про эксперимент. Естественно повторы будут отсеиваться, потому что так стоит в настройках duplicates filtering. Это видно на изображении. Включены оба фильтра. Остальные настройки этой вкладки тоже видно, так что каждый шаг описывать не буду.
Кстати вот первая фотка, как только начался парсинг. Здесь видно и время, и те самые ключевые слова, которые я использовал. И так же виден результат за первые пять минут. А так же видны те самые запросы, по которым все ищется.
php code:
-
"Вы не можете начинать темы"
-
"Вы не можете отвечать на сообщения"
-
"Вы не можете редактировать свои сообщения"
-
"Вы не можете удалять свои сообщения"
-
"Вы не можете добавлять вложения"
-
"Пик посещаемости форума Поисковиками"
-
"Пик посещаемости форума"
-
"Пик посещаемости форума Участниками"
-
"Пик посещаемости форума Гостями"
-
"Последний зарегистрированный Участник"
-
"Наши Пользователи оставили сообщений"
-
"Наши Пользователи оставили"
-
"Последняя затронутая Тема"
-
"последних сообщений этого форума"
-
"Localization by mySOPROMAT.ru"
-
"Для размещения своих сообщений необходимо зарегистрироваться"
-
"Для просмотра сообщений выберите раздел"
-
"Если это ваш первый визит, рекомендуем почитать справку по форуму"
-
"Добро пожаловать на Форум"
-
"Есть новые сообщения"
-
"Нет новых сообщений"
-
"Закрыто для сообщений"
-
"Рекорд одновременного пребывания"
-
"Сообщения за день"
-
"Курилка"
-
"Пометить все форумы как прочитанные"
-
"Сегодня нет дней рождения"
-
"Статистика форума"
-
"Зарегистрированных пользователей"
-
"Новые сообщения с последнего посещения"
-
"Горячие темы"
-
"Обычная тема (Есть новые сообщения)"
-
"Обычная тема (Нет новых сообщений)"
-
"Горячая тема (Есть новые сообщения)"
-
"Горячая тема (Нет новых сообщений)"
-
"Закрытая тема (Нет новых сообщений)"
-
"Связь с администрацией форума"
-
"Вы не можете использовать поиск на форуме"
-
"активация на форуме"
-
"пользователей читают эту тему"
-
"Выслать повторно письмо для активации"
-
"просматривать закрытые разделы форума"
-
"Участники форума имеют право"
-
"Создавать новые темы и отвечать в существующих"
-
"Участникам форума запрещается"
-
"Превращать форум в чат"
-
"Публично обсуждать действия администрации форума"
-
"Участникам форума рекомендуется"
-
"список форумов"
-
"есть новые сообщения с последнего визита"
-
"прикрепленная тема"
-
"работа форума"
-
"Вопросы по работе форума"
-
"советы по работе форума"
-
"замечания по работе форума"
-
"предложения по работе форума"
-
"по работе форума"
-
"отметить этот форум прочитанным"
-
"к списку форумов"
-
"Просмотр новых публикаций"
-
"Необходима авторизация для ответа в тему"
-
"Количество пользователей, просматривающих этот форум"
-
"Вход и выход с форума"
-
"Руководство по форумам, темам, сообщениям и опросам"
-
"Где найти список контактов администраторов и модераторов форума"
-
"Использование форума"
-
"Основное использование форума"
-
"справка по форуму"
-
"FAQ по форуму"
Вот те 70 запросов, которые нашел я, конечно их больше, стоит только поискать. У меня на русском, потому что мне нужны были русские форумы. С eng базой будет то же самое. Т.к. эти выражения принадлежат только форумным движкам, то парсятся только форумы. Но sieve filter я все же ставлю. И вылавливаются не какие-то определенные движки - только SMF, или только phpBB. Парсятся все, в том числе и ucoz.
По остальным движкам ничего сказать не могу, не пробовал еще. Скорее всего будет так же, как и с форумами. Чего не далал, про то не пишу.
Ниже видно фильтры, которые были применены при парсинге.
В общем-то вроде все, если что-то не так написал, то уверен, меня поправят. Пытайтесь, эксперементируйте, ничего в этом страшного нет.
А вот кстати и результат, пока писал этот небольшой топик:
Автор:vxzone