RSS z najnowszymi pozwoleniami o budowę w Twojej okolicy
RSS jest generowany Huginnem.
Odwiedź stronę http://wyszukiwarka.gunb.gov.pl/ i zadaj swoje parametry wyszukiwania (nb wyszukiwanie po id obszaru jest chyba zbugowane, mi bardziej niezawodnie działa wyszukiwanie po nazwie miejscowości).
Wykonaj wyszukiwanie i skopiuj jego URL. Przekopiuj też id sesji z ciasteczka.
Następnie w Huginnie utwórz nowego Website Agent i skonfiguruj go następująco:
{
"expected_update_period_in_days": "30",
"url": "URL_DO_WYNIKOW_WYSZUKIWANIA",
"type": "html",
"mode": "on_change",
"extract": {
"url": {
"css": ".table-responsive td a",
"value": "concat(\"http://wyszukiwarka.gunb.gov.pl\", @href)"
},
"title": {
"css": ".table-responsive td:nth-child(4)",
"value": "normalize-space(.)"
},
"description": {
"css": ".table-responsive tbody tr",
"value": "normalize-space(.)"
}
},
"headers": {
"User-Agent": "curl/7.64.0",
"Accept": "*/*",
"Cookie": "PHPSESSID=ID_SESJI_Z_COOKIESA"
}
}
Nie wiem czy headery User-Agent i Accept są tutaj potrzebne, ale działa, więc nic nie grzebałem dalej. Pozostaje sprawdzić, jak długo sesja pozostaje aktywna i czy nie trzeba będzie jej odświeżać i czy serwis nie pyta ponownie o captchę. Jeżeli tak będzie, to trzeba będzie dostosować częstotliwość uruchamiania agenta (aktualnie próbuję z odpalaniem go raz dziennie)