Советы по работе с компонентом NewsGrabberJC (граббинг rss лент) для Joomla
Написал Administrator
31.08.2007
При создании новой ленты в NG следует сделать такие настроики:
Название ленты, адрес ленты – без комментариев; Секция – раздел, в который необходимо помещать новости; Категория – соответственно категория, в которую необходимо помещать новости; Допущена – ставим да; Следующие настройки до Публиковать новости автоматически можно пропустить.
Публиковать новости автоматически, допускать на главную страницу – да или нет в зависимости от того, хотите ли вы, чтобы новости автоматически публиковались. Из своего опыта я знаю, что при отладке ленты удобно, чтобы новости автоматически публиковались на главной странице, а после отладки можно эту опцию отключить. Следующие настройки так же можно пропустить. Использовать автоматический frontend/cron импорт – рекомендую, по крайней мере при отладке, ставить нет. С крон импортом у NG бывают 2 проблемы: - иногда cron-импорт происходит в неправильной кодировке при том, что импорт вручную происходит корректно (если кто-то знает как бороться с этой проблемой пишите сюда:) - при большом количестве новостей для импорта может произойти перегрузка сервера. На некоторых хостингах это создаст вам проблемы. Интервал frontend/cron импорта (минуты) – если вы не используете cron – импорт, эту опцию можно не заполнять, если используете – не ставьте слишком маленький интервал. Раза в сутки будет вполне достаточно. Вырезать картинки из анонса – да/нет на ваше усмотрение. Не загружать, если только заголовок – да Урезать анонс (# символов) – можно поставить 500. Максимальное количество элементов для загрузки – при отладке рекомендую ставить 2, иначе запаритесь удалять кривые новости. Срок жизни новости (дни) – на ваше усмотрение. Максимальная ширина картинки (пиксель) – можно не заполнять подобные настройки – они все равно не срабатывают (странно, но факт) по крайней мере в NewsGrabberJC Version 1.0.6. Опять же, если у вас есть факты, доказывающие обратное, пишите на Выключка картинок текста новости, Выключка картинок анонса – где должна отображаться картина (нет/центр/лево/право). Эта опция срабатывает только тогда, когда в исходной новости для картинок параметр выравнивания не прописан. Копировать полный текст новости – да Использовать оригинальный анонс – Оригинальный анонс – это как раз тот анонс новости, который выводится на сайте при обычном использовании RSS лент. В большинстве случаев можно ставить да, но если в оригинальном анонсе присутствуют активные ссылки, или он не устраивает вас по другим причинам, нужно поставить нет. Тогда анонс будет сформирован простым урезанием полного текста новости до длины, к-ю вы установили выше. Считать началом заголовок, Считать концом подпись автора – это опции начала и конца новости, работают они довольно глючно, поэтому рекомендую ставить нет. Если поставите да, а граббер не найдет заголовка и подписи граббера, он либо загрузит пустой текст, либо всю страничку от до . Есть еще над чем поработать авторам скрипта.
Переходим к самому интересному Шаблоны для поиска в тексте: Первые опции: Начальная точка, Конечная точка – для того, чтобы заполнить эти поля необходимо открыть новость, подлежащую граббингу в режиме исходного кода, затем найти 2 уникальных тега, которые ограничивают новость. Начальная точка и Конечная точка, как оказалось, срабатывают не всегда, а лишь в том случае, когда такими тегами являются комментарии. Или теги таблиц, здесь, конечно, трудно найти уникальные. Никогда не срабатывают теги div, span и др., даже если во всем исходном коде они встречаются всего 1 раз. Но даже, если вы не смогли ограничить начало и конец новости с помощью опций начала и конца, и упорно загружается вся страничка, с этим можно бороться. Далее будет описано как. URL картинок – бесполезно – не работает. Далее можно настроить шаблоны для поиска в тексте. Шаблоны работают следующим образом: - то, что написано в поле шаблон – вырезается из текста новости; - то, что написано в поле замена – вставляется вместо того, что было в поле шаблон. Шаблон ограничивается символами //si Внутри этих символов следует писать регулярное выражение. Некоторые простые конструкции: .*? – дальше должны идти, а могут и не идти некоторое кол-во символов .+? – дальше точно должны идти некоторое кол-во символов Если в тексте шаблона, необходимо использовать символ /, необходимо поставить перед ним обратный слеш вот так: \/ Таким образом, для того, чтобы в разграбленной новости корректно отображались картинки, нужно написать к примеру: Шаблон: /\/image/si Замена: http://адрес сайта/image Другие шаблоны смотри здесь Небольшая хитрость: если с помощью настроек «Начальная точка» и «Конечная точка» не удалось корректно вырезать новость, это можно сделать при помощи шаблонов: /.+?уникальный тег перед началом новости/si /уникальный тег после конца новости.+?<\/html>/si
Я надеюсь, что приведенные выше советы помогут вам в настройке NewsGrabberJC и создании новостных порталов. Удачи.