Как настроить грабер на вордпресс
WPGrabber установка и настройка с примерами, скачать плагин бесплатно
WPGrabber это парсер для WordPress, с помощью которого можно скачать и сохранить записи с абсолютно любого доступного веб-сайта. Обычно его применяют для парсинга каталога товаров или новостей. Плагин может полностью автоматизировать добавление контента на сайт. Можно настроить его автоматический запуск с определенной периодичностью, и плагин сам будет добавлять новые товары или записи, если они появятся на исходном сайте.
На сегодняшний день плагин давно перестал поддерживаться, а сайт разработчиков недоступен, но сам плагин прекрасно справляется со своими задачами.
Скачать WPGrabber бесплатно
Скачать проверенную версию вы можете отсюда совершенно бесплатно!
На данный момент эта версия устанавливается и работает на последней версии WordPress. У меня возникали незначительные баги при парсинге, например не обрезались изображения при включении данной функции, поэтому пришлось обрезать их с помощью стороннего софта. Но в целом плагин работает и помог справиться с задачей переноса тысяч товаров с одного сайта на другой.
Единственный минус WPGrabber это то, что плагин не умеет переходить по постраничке. Т.е. чтобы скормить ему новую порцию записей нужно изменить URL на 2 страницу, потом 3, 4… и т.д. С другой стороны если вам нужно получать только последние новые записи, то никаких проблем нет, видимо на это и рассчитывали разработчики этого плагина.
Установка и настройка
На установке я думаю не стоит заострять внимание, потому что WPGrabber устанавливается как и все другие плагины через меню добавить новый плагин → Загрузить плагин. После активации в левом меню админки появится раздел WPGrabber.
Перейдите в меню список лент. Здесь вы увидите несколько уже настроенных лент, которые вы можете протестировать, нажав на кнопку «Тест импорта».
Для создания новой ленты нажмите «Новая лента».
Перед вами откроется страница настроек. По началу все может показаться очень сложным, так как WPGrabber ищет контент с помощью регулярных выражений. На мой взгляд решение хорошее, но не очень надежное и довольно сложноватое. Думаю лучше было бы искать элементы через дерево DOM, как это реализовано в библиотеке phpQuery.
На вкладке основные укажите:
Наименование ленты — любое имя для новой ленты.
Тип ленты — HTML.
URL индексной страницы — страница исходного сайта, с которой надо парсить записи (например http://site.ru/catalog/).
Шаблон ссылок — здесь регулярное выражение для поиска ссылок на товары или новости (например /catalog/[\0-9a-zA-Zа-яёА-ЯЁ-]*/ ). Об этом поговорим немного позже. С основами регулярных выражений вы можете ознакомиться в этой статье.
Шаблон заголовка — здесь так же регулярное выражение, но чаще всего используется такая конструкция, так как обычно заголовок находится на страницах в теге тайтл: (.*?)
Начальная точка полного текста — HTML-тег, с которого начинается часть с основным текстом (например
Конечная точка полного текста — HTML-тег, которым заканчивается часть с основным текстом (например
Вот и все! Это основные настройки! Единственная сложность здесь может быть связана с созданием регулярного выражения для поиска ссылок. Я не буду углубляться в регулярные выражения, приведу лишь несколько распространенных примеров:
Пример 1:
Предположим, что ссылки новостей имеют вот такой вид: http://site.ru/news/novost-1/ Тогда сюда подойдет следующее регулярное выражение:
[\w\d_-] — это любой текст на латинице со знаками тире (-) и нижнего подчеркивания (_). Такие ссылки довольно распространенное явление.
Пример 2:
Чуть посложнее. Например ссылки состоят еще и из русских букв. Например: http://site.ru/категория/товар/ Такое встречается реже, но все же бывает. Тогда здесь подойдет примерно следующее регулярное выражение:
[\0-9a-zA-Zа-яёА-ЯЁ-] — любая буква на кириллице или латинице и цифры от 0 до 9. Знак звездочки (*) означает любое количество символов.
Теперь вы можете нажать кнопку «Тест импорта» и посмотреть результат.
У плагина еще достаточно большое количество настроек. Вы можете изменять их по своему усмотрению. Хочу обратить ваше внимание еще на настройки на вкладке «Обработка». Здесь вы можете включить или отключить теги, которые будут сохраняться в тексте товаров или записей, а так же заменять какие-то части текста.
Например, мне надо будет изменить в полном тексте каждой сохраненной записи заголовок «Стоимость» на «Цена»:
Это самый простой способ замены, но здесь вы можете использовать регулярные выражения или совсем стереть текст или часть HTML-кода оставив в шаблоне замены пустую строку.
Заключение
Настройка и использование WPGrabber довольно непростая задача. Многие предлагают эту услугу за дополнительную плату. Но вы можете разобраться и самостоятельно, ведь большая часть настройки сводится к написанию нескольких строк регулярных выражений, а с опытом у вас уже будут свои заготовки. Надеюсь, эта статья поможет вам в этом!
WooCommerce несомненно является лучшим бесплатным решением для создания интернет-магазина на WordPress. Кроме того, это одна из лучших платформ электронной коммерции с открытым исходным кодом. Цифры говорят сами за себя: более 4 миллионов установок, рейтинг 4.5 (на основе более чем 3000 Читать далее
Это полное пошаговое руководство для начинающих, которое поможет вам создать свой первый сайт на WordPress на любом веб-хостинге или локальном сервере. Почему WordPress? WordPress является самой популярной платформой для создания веб-сайтов. На сегодняшний день её используют 59% всех веб-сайтов созданных Читать далее
Давно хотел написать подробное руководство о том, как создать тему на WordPress с нуля. Вам это пригодится: если вы хотите научиться разрабатывать сайты на WP, а не просто устанавливать шаблонные решения; вы хотите сделать уникальный дизайн для своего сайта или Читать далее
Виджеты используются для добавления контента на страницу WordPress без изменения шаблонов тем. Боковая панель является областью по умолчанию для добавления содержимого виджетов. Также вы можете зарегистрировать собственную область виджетов и добавить в нее виджеты. WordPress содержит некоторые виджеты по умолчанию Читать далее
Ваш сайт WordPress может быть медленным по многим различным причинам: забитая база данных, работающая в фоновом режиме, является одним из них. Профессиональный рабочий процесс поддержки WordPress включает в себя регулярную оптимизацию базы данных, в ходе которой вы избавляетесь от ненужных Читать далее
Мы уже рассматривали как отправлять сообщения в телеграмм из обычного PHP скрипта и заказы из OpenCart. В этой статье вы узнаете как отправлять сообщения в телеграмм из плагина WordPress Contact Form 7. Создаем бота Боты в Telegram создаются через другого Читать далее
6 комментариев на «WPGrabber установка и настройка с примерами, скачать плагин бесплатно»
Все это хорошо, но есть одно большое НО! Каким образом вывести все эти спарсеные новости на свой сайт, автоматом они не добавляются?! Как я только не пытался, и эту рубрику выводил на главную страницу, и в саму рубрику заходил, нет там этих новостей. При чем ни вы, ни разработчики об этом моменте ни слова не сказали. Как именно вывести на сайт эти импортированные новости?
Помогите, пожалуйста, с созданием регулярного выражения для поиска ссылок (выражение /[\d\w-_]<5,>/ не работает). В декабре было ок, а сейчас не работает.
попался я на ру.сом, думал все, писец сайту, хотел уже спецов просить, вроде сам бекапом вернул, правда пару статей потерял.
Ну как минимум back-door в файле init.php присутствует, так что не удивительно что сайты утекают и ломаются.
Как создать автонаполняемый сайт на вордпресс
Автонаполняемый сайт — вебресурс, который автоматически наполняется за счет контента с других сайтов. В целом автонаполнение сайта чужим контентом — это неправильно, но если несколько отодвинуть в сторону вопросы морали и авторского права, то остается большой сегмент контента, который можно копировать без больших угроз получить по голове: анонсы, новости, пресс-релизы.
На основе таких автонаполняемых новостей можно сделать как весь сайт целиком, так и отдельный раздел на существующем сайте. Например на сайте, посвященному боксу, сделать раздел спортивных новостей. А на сайте про актеров — новости из мира кино. За счет публикаций новостей можно попробовать ловить ситуативный трафик, с этих страниц можно торговать ссылками, с них можно проставлять перелинковку на свои продвигаемые страницы.
Как сделать автонаполняемый вордпресс-сайт с плагином wp-grabber
Для создания автонаполняемого проекта на понадобится готовый установленный сайт на вордпресс, сам плагин, настройка лент и немного терпения, потому как придется повозиться (потанцевать с бубном).
Вопрос — где взять плагин wp-grabber
Тут есть несколько вариантов:
Как установить и настроить
Плагина нет в официальном репозитории, поэтому устанавливаем плагин через загрузку архива (панель управления — плагины — добавить новый — загрузить).
Далее активируете плагин и переходите в раздел раздел настроек.
И в настройках нужно будет только включить обновление через CRON.
Остальные настройки можно не трогать. Самое важное — правильно настроить ленты для граббинга и отображение публикаций на сайте.
Ниже представлены стандартные настройки для плагина WPGrabber
Теперь пройдемся по пунктам:
Как настроить ленты для граббинга
Это самая сложная часть, поэтому разберем ее подробнее. Бояться ошибиться не надо, если лента не заработала — просто возьмите другую. Наберитесь терпения и начнем.
Итак, идем в настройки вп-грабера и жмем добавить новую ленту — и видим несколько закладок. На будут нужны:
Основные настройки — именно на них нужно обратить пристальное внимание.
Еще раз обратите внимание на то, как в исходном html-коде страницы указывается кодировка:
http-equiv =» Content-Type » content =» text/html; charset=ЗДЕСЬ КОДИРОВКА » />
На некоторых сайтах кодировка не указана, тогда пробуйте значение: Исходная, или же WINDOWS-1251.
Подробней рассмотрим пункт 6 — Расписываем шаблоны ссылок, заголовка, стартовой и конечной точки контента.
Для начала разберем структуру ссылок, они бывают разные — в зависимости от CMS донора. Самые простые ссылки выглядят примерно так домен/слово, например http://seodelux.ru/portfolio
Какие могут быть варианты:
Особое внимание обратите на правильное обозначение регулярных выражений.
Подбор шаблона ссылок
Рассмотрим на примере добавления одной ленты. Возьмем сайт новостей шоу-бизнеса starhit.ru
Первое что нужно понять — как выглядит ссылка в структуре сайта. Для этогоо идем на индексную страницу — смотрим ее код (ctrl+U) и через поиск по странице (ctrl+F) ишем заголовок и ссылку. Я просто начинаю искать в исходном коде через поиск начало заголовка. Смотрите на картинке выше.
У нас она получилась такого вида: /novosti/nastasya-samburskaya-ofitsialno-vyishla-zamuj-134191/
Так и будем вставлять ее в вп-граббер. Теперь нам необходимо заменить конкретный адрес на шаблон. Анализируем структуру: /раздел/несколько-слов-через-дефис-цифры. Проверим себя — посмотрим как выглядят другие ссылки. В нашем примере структура определена верно:
Посморим также другие разделы:
В регулярных выражениях PCRE любой непробельный символ обозначается следующей конструкцией \S
Обратите внимание на слэш \ перед заглавной буквой S. Обратный слэш в регулярных выражениях отменяет обычное действие символа, мы могли бы написать просто символ буквы S и тогда она была бы просто заглавной буквой S в нашем регулярном выражении. Однако \S — означает ровным образом один любой символ, кроме пробела!
Теперь попробуем указать количество символов в строке. количество символов задается такими регулярными выражениями:
И если с разделами еще можно угадать, просто посчитав число символов — новости (7 символов), стайл (5 символов), то вот с остальной частью ссылки — угадать сложно. Решение простое — нужно указать что число символов — больше 1. Выгдялеть регулярное выражение будет таким образом — \S
Можно и уточнить — в разделах у нас указаны только буквы, а одна буква в системе PCRE имеет обознаяение \w
Попробуем вставить в шаблон ссылок сдедующее выражение
В тесте получаем ссылки рабочие, но ненужные — на служебные страницы, например:
Меняем вторую часть шаблона. Буквы в регулярных выражениях обозначаются \w, а цифры — \d. Во второй части шаблона имеются и буквы и цифры, поэтому регулярное выражение мы можем задать как \w\d
Когда нам нужно в регулярном выражении перечислить вхождение разных символов (набора символов), то мы можем использовать квадратные скобки. Выражение получается вида:
Это означает: любая одна буква или одна цифра или более подобных символов.
Нам также нужно отсечь в первой части ненужные разделы, изменим там условие — минимальное число букв-5. Теперь давайте протестируем суммарно получившийся шаблон
Результат видим такой:
Значит шаблон ссылок правильный и теперь можно продолжать настройку. Еще раз напомню, что работа с регулярными выражаениями для простого вебмастера и блогера — наиболее сложный этап. Запомните основные переменные которые нам понадобятся:
\S \d \w плюс квадратные и фигурные скобки
Подбор шаблона заголовка
Для того чтобы WPGrabber нашел заголовок в тексте страницы определенной новости нам необходимо описать шаблон его поиска. Тут тоже используется формат регулярных выражений как и в описании шаблона ссылок.
Идем на страницу новости и смотрим еще раз ее исходный html-код. Копируем заголовок и с помощью ctrl+F ищем его на странице. Среди многообразия нам нужно найти наиболее подходящий вариант — без дополнительных слов и символов.
В нашем случае мы видим варианты:
xmlns =» http://www.w3.org/1999/xhtml » class =» article-title » itemprop =» name «> Настасья Самбурская официально вышла замуж
Вот именно в этом примере я бы испольховал третий. Составляем шаблон, который будет состоять из трех частей: name =» twitter:title » content =» НАЗВАНИЕ «>
Тут нужно запомнить два правила:
Итого заменяем НАЗВАНИЕ в шаблоне на (.*?) и получаем следующую рабочую структуру, которую и протестируем:
WPGrabber теперь находит правильные заголовки:
Настройка начальной точки и конечной точки контента
Снова переходим на нашу страницу новости с исходным кодом и ишем начало текста и конец. Для этого снова можно воспользоваться поиском ctrl+F. Смотрим метатег, который есть перед началом текста и вставляем его в настройках плагина.
В нашем случае можно пробовать два варианта, я бы использовал то, который выделен красным цветом — метатег явно указывает на начало текстового контента:
Теперь смотрим метатег после текста статьи. В нашем случае подойдет тег
Тестируем и смотрим на результат: шаблон ссылки сработал, заголовок — корректный, есть текстовый и даже фото-контент.
Все первая и наиболее важная часть подготовки сделана.
Плюшки
Также вы можете получить готовые ленты тематики «игровые новости». Достаточно просто импортировать файл в плагине.
Важные настройки других параметров
Теперь когда основные нвстройки сделаны и вы по образцу сделали несколько лент, нужно приступить к настройкам контента, картинок и вида.
Начнем с последнего — закладка «Вид»
По умолчанию она отображается так:
В заголовке — название, которое мы берем из источника, затем полный текст. Для того чтобы у вас не было дубликатов с другими сайтами — с этим шаблоном нужно немного поработать. Справа указаны переменные, которые Вы можете смело использовать. Также никто не запрещает добавить свой контент.
Шаблон текста может выглядеть примерно так:
%INTRO_TEXT%
%NOW_DATE%
%INTRO_PIC%
%FULL_TEXT%
[шорткод — цвет фона]Специально для сайта НАЗВАНИЕ САЙТА новость %TITLE% взята с сайта %SOURCE_SITE% (Источник)[/конец шорткода]
Можно также добавить шорткод перелинковки или рекомендуемого контента между %INTRO_PIC% и %FULL_TEXT%.
Всё это сделает ваш текст отличающимся от других, а также установка ссылки на источник поможет избежать проблем с авторскими правами.
Теперь закладка «Картинки»
Настраиваем ее также как указано на картинке. Единственное, что можно поварьировать — это миниатюры и полноразмерные картинки установить в соответствии с темой оформления сайта.
Закладка «Контент»
За один запуск сохранять не более (записей) — тут решайте сами, я в основном ставлю 0 — неограничено.
Сохранять записи только уникальными (не повторяющимися) заголовками — ДА
Сохранять записи в Рубрике — тоже выбираете сами.
Тип — Запись
Автор записей — тут тоже решайте сам, я создаю специально пользователя с админскими доступами для автонаполняемых сайтов.
Статус создаваемых записей — опубликовано.
Для выделения анонса вставлять тег Далее — зависит от темы оформления.
Размер анонсовой части текст (кол-во символов) — на ваше усмотрение, обычно анонс — это 20-30 слов, то есть 500 — 600 знаков.
Конечный символ для отделения анонса — ставим точку.
Формировать постоянные ссылки для записей — Да
Метод генерации — транслитерация.
Размер алиаса — 0 (не обрезать)
Еще несколько рекомендаций для выживания сайта с плагином вп-граббер
Другие работающие плагины для автонаполнения сайта на вордпресс
Я приведу ниже список плагинов, которые позволяют настроить автонаполнение сайта:
У каждого из этих плагины есть свои плюсы и минусы Одни — давно не обновлялись, другие стоят своих денег. Подробнее писать не буду из всех этих плагинов тестировал только Wp-О-matic.
Монетизация автонаполнемого сайта
Лучший способ монетизации таких проектов — это контекстная реклама. Установил и забыл, а копеечки капают.
Второй способ это продажа ссылок в автоматических биржах. Тут желательно поработать с ссылочным и получить хотя-бы тиц 10.
Стоит ли создавать автонаполняемый сайт, вероятно — да. Это своеобразный задел на пенсию — понемногу, но стабильно. Если вы знаете другие способы монетизации — пишите в комментариях.
Как настроить wpgrabber в вордпресс
WPGrabber — автопарсер для wordpress
1) Создаем новую ленту в настройках плагина WPGrabber для WordPress.
В строке «Наименование ленты» можно записать любое имя нашей настройки импорта, я обычно пишу URL без протокола, например: «forexlive.com/technical-analysis».
2) Тип ленты устанавливаем html.
3) «URL индексной страницы» — адрес раздела сайта, с которого будем собирать ссылки на копируемый контент.
У нас этот URL: «https://www.forexlive.com/technical-analysis»
4) Обязательно надо установить параметр «Кодировка HTML-страницы». Кодировку страницы сайта мы ищем в исходном HTML-коде. Нажимаем сочетание клавиш Ctrl + U или кликнуть правой кнопкой мыши и выбрать пункт «Просмотр кода страницы» (для Google Chrome), или «Исследовать элемент» (для Mozilla Firefox).
Ищите в исходном html-коде страницы подобную строку:
Пользуйтесь поиском браузера (Ctrl + F) и вводите слово charset.
Соответственно устанавливаем в поле «Кодировка HTML-страницы» кодировку UTF-8
5) Следующее поле «Шаблон ссылок», с помощью которого идет сбор ссылок на статьи для скрапинга (граббинга), для импорта на свой сайт. Для правильного заполнения параметра «Шаблон ссылок», в WPGrabber необходимо определить вид ссылок в коде страницы.
Для этого берём любой заголовок. У нас первый заголовок контента носит название
Жмём «Просмотреть код»
На скриншоте выше видим URL-адрес данной ссылки в теге A. Мы видим, что страница статьи под заголовком «Forex technical analysis: USDJPY moves to the red on the day.» расположена по адресу URL: //www.forexlive.com/technical-analysis/!/forex-technical-analysis-usdjpy-moves-to-the-red-on-the-day-20171116
Рассмотрим структуру этого URL-адреса:
//www.forexlive.com/technical-analysis/!/ некоторое количество букв и знаков
Важно то, что эта часть URL фиксированная:
Т.к. эта часть URL остается постоянной для всех других ссылок, идущих на странице.
Рассмотрим остальные ссылки:
Все эти ссылки подходят под наше описание шаблона. Для корректного заполнения поля «шаблон ссылок» в WPGrabber необходимо изучить формат описания регулярных выражений PCRE.
Давайте поймем логику описания шаблона ссылок:
У нас меняющиеся значения это: the-us-dollar-is-a-little-lower-after-the-data-20171116, usdclooks-toward-50-midpoint-target-20171115 и stocks-snap-back-after-fall-over-the-last-few-day-decline-20171116
У этих значений разное количество символов в длину
Они возможно могут включать в себя цифры
Не может быть только символа пробела, т.к. в URL они запрещены.
Наши URL: forex-technical-analysis-gbpusd-hanging-between-ma-levels-20171116, usdclooks-toward-50-midpoint-target-20171115 и прочие состоят из многих символов (букв, цифр и символов дефис).
Чтобы правильно работал плагин WPgrabber нам нужны только буквы, цифры и символ «-»
Соответствующее регулярное выражение может выглядеть так: technical-analysis/!/[w-]*
[] — обозначает класс символов,
w — Буквенный или цифровой символ
или знак подчёркивания
* — Квантификатор после символа, символьного класса или группы определяет, сколько раз предшествующее выражение может встречаться.
Вставьте этот technical-analysis/!/[w-]* код в Шаблон ссылок, жмите «Применить» и «Тест импорта»
и плагин выдаст 25 ссылок!
Заходим на страницу категории статей для парсинга нашего сайта и считаем количество ссылок на копируемые статьи.
Так мы проверяем настройки шаблона для ссылок.
Проверяйте все настройки заново.
Есть прекрасная страница «Шпаргалка по регулярным выражениям»
Делаем тестовый импорт ленты и получаем результат со следующей ошибкой:
«Материал не будет сохранен по причине отсутствия в нем контента»
Теперь надо написать правила для правильного импорта заголовка и текста записей WordPress. Заголовок при импорте ленты будет заголовком создаваемых в WordPress записей или постов. Перейдем на сайте на саму страницу статьи:
Открываем ее исходный код и ищем наш заголовок:
Можно взять из тайтла:
Forex technical analysis: USDJPY moves to the red on the day.
Я и взял этот вариант
Этот код будет включать в себя любые символы пока не дойдет до следующего символа после нее, поэтому делаем шаблон заголовков таким:
Вставляем эту настройку в поле «Шаблон заголовка», нажмем кнопку «Применить» и кнопку «Тест импорта».
В результате WPGrabber нашёл нужные нам заголовки контента:
Как заполнять поле «Полный текст» в настройках плагина WPGraber?
Нужно установить параметры ленты «Начальная точка полного текста» и «Конечная точка полного текста».
Смотрим исходный код копируемого поста.
Находим начальную точку текста:
Далее находим конец текста статьи в коде:
В строке «Конечная точка полного текста» вставляем такой код:
Для этого используем вкладку «Обработка».
И включаем «дополнительные шаблоны обработки»
Адрес картинок указан без протокола, начинается с //
Пишем «Шаблон поиска» для картинок:
Удаляем автора и надпись :
Жмем кнопку «Применить» и кнопку «Тест импорта»
Смотрим, что всё нормально.
Поздравляю мы настроили ленту для импорта.
Скачать эту ленту можно здесь:
В случае возникновения вопросов или сложностей в настройках пишите.