Генератор белых дорвеев WmsnDorgen (от Wmsn)

Скачать Генератор белых дорвеев WmsnDorgen (от Wmsn)
Недавно искали:

Itnull

Команда форума
Администратор
Регистрация
22.05.13
Сообщения
25.466
Реакции
9.448
Веб-сайт
itnull.me
  • Автор темы
  • Администратор
  • Модер.
  • Команда форума
  • #1
Дорген нового покаления с модульной структурой и легкой расширяемостью для создания белых дорвеев (серых сайтов) с «живым» контентом (автонаполнение, постепенное появление юзерских профилей, записей и ответов), которые ничем не будут похожи на привычные уродливые доры с генеренным нечитаемым текстом. Легкая расширяемость (добавления своих скриптов и парсеров контента) поможет легко создать уникальный дорвей, не похожий на те дорвеи, которые генерируют другие этим же доргеном. А удобный шаблон (требуется знание основ PHP) поможет сделать дорвей с неповторимой структурой, с «закосом» под живой форум, блог, статейник или даже интернет магазин. Нагрузка на сервер от доргена минимальна.

Демо версии: пример с форумной структурой - punbb.ml, пример с блоговой структурой - blog.punbb.ml.

Перед работой с доргеном - внимательно прочитайте всю эту инструкцию:

Требования к хостингу: php 5.5 и выше, sqlite3, curl. Если что-то пойдет не так, в папке с доргеном может появиться лог ошибок в файле error_log.txt, там может быть ответ на произошедшую ошибку.

Установка: Все файлы и скрипты сохранять в utf-8 кодировке. Настроить перед заливкой на сервер конфиг db/conf.php, список ключевиков db/keys.txt, список категорий db/categories.txt, залить на сервер, поставив права на запись на папки: avatars, cache, db. Первый заход на сайт сгенерит базу и 20 первоначальных пользователей. Далее поставить на крон парсер, добавив cron задание типа:

*/10 * * * * wget -U DorGen --spider --no-cache --no-parent

Папка avatars - папка для хранения аватарок, имя папки можно изменить в конфиге и переименовать саму папку. При переустановке дорвея (удалении основной базы) - очищать от собранных аватарок.

Папка cache - папка для кеша и временных файлов, при переустановке дорвея очищать от всех файлов, кроме index.html.

Папка cms - скрипты ядра движка, все минималистично, трогать скрипты без надобности не надо, при обновлениях доргена на новые версии - перезаписывать старые версии новыми.

Папка db - пользовательские данные, там будет создана база, туда загружать ключевики и категории.

Папка parsers - скрипты парсеров.

Папка templates - папки с шаблонами.

Скрипты в корне: .htaccess, category.php, contact.php, cron.php, error.php, index.php, page.php, redirect.php, rss.php, sitemap.php, user.php - скрипты ядра движка, без надобности в них лазить не надо. При выходе новых версий - старые скрипты перезаписывать новыми.

Файл db/categories.txt - список рубрик. Используется только один раз, при первоначальной загрузке данных в базу. Формат (максимально полный), через вертикальную черту: Человеческое название рубрики|url-category-na-latinitse|Человеческое описание рубрики. Можно также только: Название|urlcategory. Минимальный формат: просто построчно список рубрик на русском языке (или на любом другом, использующем кирилицу или латиницу), урл рубрики будет сгенерен из транслита названия. Для других непонятных языков, не поддающихся транслиту будет сгенерен урл в виде md5 хэша названия.

Файл db/keys.txt - список ключевиков. Используется только один раз, при первоначальной загрузке данных в базу. Формат (максимально полный), через вертикальную черту: Ключевик|url-category-na-latinitse (ключевик и урл или название на русском категории в которую его размещать). Можно просто список ключевиков построчно, тогда по категориям ключевики будут раскиданы рандомно.

Файл db/counter.txt - код счетчиков, инклудится в шаблонах. Поменять содержимое можно в любое время при жизне дорвея.

Файл db/htmllines.txt - список строк для вставки в виде ответов, при использовании парсера answers_htmllines.php

Файл db/tut.txt - список слов, используемых в парсере answers_tut_link.php.

Парсеры из parsers: titles_*.php - при парсинге будет браться рандомно один из парсеров заглавий, если один парсер не получил результат - будет применен следующий парсер, если ни один из парсеров ничего не получил - заглавием будет первоначальный ключевик. contents_*.php - при парсинге будет браться рандомный парсер контента страницы, если один парсер не получил результат - будет применен следующий парсер, если ни один из парсеров ничего не получил - контентом будет первоначальный ключевик. answers_*.php - парсеры ответов (комментарии), применяются все имеющиеся парсеры по очереди, в базу записываются только успешные результаты парсинга ответов к странице. Почти в каждом парсере внутри есть дополнительные настройки. Потому рекомендуется просмотреть все скрипты парсеров и настроить их под себя.

titles_bing_snip.php - получает заглавие для страницы из title тематического сайта из топа bing.com.

titles_otvet_mail.php - получает тематическое заглавие из вопроса с сайта otvet.mail.ru

contents_bing_snip.php - получает контент из снипета (дескрипшена) тематического сайта из топа bing.com, получается очень коротенькая запись.

contents_otvet_mail.php - получает контент с сайта otvet.mail.ru, запись получается короткая, в 95% случаев в виде вопросительного предложения.

contents_rich_content.php - контент получается по схеме - парсятся ссылки на тематические сайты из топа bing.com, потом парсер идет по ссылкам и ищет там абзацы (в теге p), получаются красивые большие куски (абзацы) читаемого текста. Парсер медленный.

contents_youtube_image.php - контент в виде тематического скрина (.jpg) с видео из youtube.com + названия видео. Картинка размечена микроразметкой schema.org/ImageObject

contents_youtube_video.php - контент в виде тематического видео и его названия с youtube.com

answers_bing_image.php - коммент, в качестве ответа будет просто тематическая картинка из топа bing.com

answers_bing_snip.php - парсер ответа из дескрипшена рандомного сайта из топа bing.com

answers_htmllines.php - добавление в ответ рандомной строки из файла db/htmllines.txt

answers_otvet_mail.php - краткий ответ из ответов otvet.mail.ru

answers_rich_content.php - ответ получается по схеме - парсятся ссылки на тематические сайты из топа bing.com, потом парсер идет по ссылкам и ищет там абзацы (в теге p), получаются красивые большие куски (абзацы) читаемого текста. Парсер медленный.

answers_slon.php - добавление в ответ рефссылок на товары партнерки "Где слон".

answers_tut_link.php - добавление рандомного текста из файла db/tut.txt + ссылку на тдс через локальный редирект + цитирование стартового поста.

answers_twitter.php - ответы из записей твиттера.

answers_youtube_image.php - парсер ответа из youtube (картинка + название видео), картинка размечена микроразметкой schema.org/ImageObject.

answers_youtube_video.php - парсер ответа из youtube (видео + название видео)

users_vk.php - парсер профилей из вконтакта.

Структура шаблонов: в папке templates папки с именами шаблонов, в папке с шаблоном собственно шаблоны: category.php (шаблон рубрики, в которой списки страниц), contact.php (контактная форма), error.php (страница ошибки, можно делать фейковой формой авторизации), index.php (главная страница сайта), page.php (страница отдельной записи), user.php (страница профиля юзера). Для редактирования или создания новых шаблонов нужно знать основы php.

Прочие нюансы:

RSS лента находится по адресу rss.xml, показывает последние 25 записей.

XML карта сайта находится по адресу sitemap.xml, поставить на нее ссылку в robots.txt

Форма обратной связи contact.html настоящая, с нее могут приходить письма, от спама норм защищена.

Желательно делать не больше 50000 ключевиков на дор, если больше - sitemap.xml будет невалидным и тормозить.



Скачать
 
Как ставить?
 
Назад
Сверху Снизу