Helsingin liikennesuunnitteludatan raapiminen (scraperwiki)
posted to #scraperwiki 22.11.2010 (fi)
Helsingin liikennesuunnitteludatan raapiminen (scraperwiki)
Ile posted to #scraperwiki 22.11.2010 (fi)
Tein tuohon @mikko13:n raavintaan yhden näkymän, joka palauttaa datan html-taulukkona (mainitsemallani tavalla "tää on rumaa" - Mutta toimii :-)
http://scraperwiki.com/views/ajankoht...
Samaan tapaan tuosta saa RSS-feedin helposti...
Ile commented on posted to #scraperwiki 22.11.2010 (fi)
...ja täs ois tää RSS: http://scraperwiki.com/views/ajankoht...
Ile commented on posted to #scraperwiki 22.11.2010 (fi)
2-kohta lienee siis ratkaistu (vähän siistimistä varmaan kaipaa mutta beta-käyttöön ok).
1-kohta: Noissa näkymissä dataa voi lkyllä suodatuella. Mikäli näkymälle voi välittää url-parametreja, saa aikaan ihan älykkäitä hakuja.
Ile commented on posted to #scraperwiki 22.11.2010 (fi)
Eipä tässä kauneuspalkintoja jaella :)
Dataa voi siis hakea omilla hakuehdoilla? Vaikka kaikki tietueet jossa linktextissä mainitaan "Mannerheimintie", järjestettynä aakkosjärjestykseen?
Toimiikohan tämä suurilla datamäärillä? Esim. eduskunta-api:ssa nyt n. 75000 riviä, joiden vapaatekstihaun MySQL hallitsee hyvin.
mikkohei13 commented on posted to #scraperwiki 22.11.2010 (fi)
Ok, I will translate the main concerns from above in English and email to the developer team of the scraperwiki.
Open questions:
1) How to make different views (aggregations, filterings etc.)
2) What is the straightest way to get the data in RSS-form?
2: It's a bit weird that scraperwiki doesn't provide a direct way to produce RSS. It is possible to make RSS from the code, but it is not very clean way.
From XML it would be quite easy to make RSS with XSLT-translation. Is there a live XML-XSLT tranlator. It would be nice extra in scraperwiki to have a XSLT-wiki.
apoikola commented on posted to #scraperwiki 22.11.2010 (en)
Hei mahtavaa @mikkohei13 ja @Ile
Nyt se on mulla jo omassa priva RSS-lukijassani seurannassa, mutta ilmeisesti artikkeleiden julkaisupäivämäärien puute aiheuttaa sen, että esim. Wordpressin blogrollissa se putoaa pohjalle, kuin kivi
Oikean reunan palkin alalaidassa "Toiminnot" -sanan yläpuolella: http://www.kaupunkifillari.fi/
Päätin juuri, että aion 4.12. hacaton-päivänä opetella scraper-koodausta http://www.opendataday.org/
apoikola commented on posted to #scraperwiki 22.11.2010 (fi)
Joo, RSS:ssä olisi hyvä olla vähintäänkin päivämäärä, mielellään myös GUID. Voisko tämän datan osalta yrittää kaivaa päivämäärän tuosta tekstistä? Näyttäisi aina olevan mukana.
Toinen vaihtoehto on lisätä raa-asti nykyinen päivämäärä, kun data ekan kerran löytyy.
Guidin osalta olisi kiva, jos scraperwiki antaisi lukea datasta jonkin teknisen ID:n, joka olisi vähintäänkin datasetin sisällä taatusti juokseva.
Ile commented on posted to #scraperwiki 22.11.2010 (fi)
@apoikola Pomppaako noi nyt readerissa ylemmäs? Tein aika ruman tempun (melkein hävettää): Nyt näkymäfeedissä tulee kaikkiin näkyinen ajanhetki :-)
Oikeasti nuo ajat laitettaisiin dataan talteen ja näytetään sitten niitä...
Ile commented on posted to #scraperwiki 22.11.2010 (fi)
Scraperiin voi laittaa tallentamaan myös päivämäärän. Entä kellonaika? Kaikkiin vaikka keskipäivä? Scraper käy nykyasetuksilla hakemassa uudet datat kerran päivässä, mutta sen kellonaikaa ei taida pystyä säätelemään.
GUIDiksi voisi helposti generoida UUID:n PHP:llä.
mikkohei13 commented on posted to #scraperwiki 23.11.2010 (fi)
@mikkohei13 Keskipäivä on ok. Samoin UUID kuulostaa hyvältä -- Oleellista, että se tehdeen datanraavintavaiheessa.
Ile commented on posted to #scraperwiki 23.11.2010 (fi)
@Ile meniköhn fiidi rikki, kun nyt en enää pysty lisäämään sitä mun readeriin...
Yritän tällä URL:lla
http://scraperwiki.com/views/ajankoht...
niin sanoo "Error adding feed; No RSS URLs found!" ja sama toisilla sanoilla myös Google readerissa. Eilen toimi molemmissa.
Aikaleimaksi itse olin miettinyt niitä päätöspäivämääriä, jos ne saisi jolla regexpillä ulos, esim 15.10: Töölönkadun merkitseminen kävelykaduksi välillä Humalistonkatu Eino Leinon katu. Liikennesuunnittelupäällikön päätös 15.10.2010 / asia 2
Toinen vahtoehto olisi kai jotenkin vertailla edellisen scraperin ajon tulosta ja uutta ajoa ja laittaa ajon päivämäärä (ja kellonaika) aikaleimaksi niihin itemeihin, jotka ova uusia tulokkaita.
Tsiigailin tässä Rakennusviraston sivua, niin siellä uudet katusuunnitelmat ovat taulukossa ja päivämäärä on omass solussa, joten se on ehkä helpompi...
http://www.hel.fi/wps/portal/Rakennus...
Ajattelin itse yrittää ehkä tuota sitten 4.12. hacathonissa
apoikola commented on posted to #scraperwiki 23.11.2010 (fi)
@apoikola Näköjään feediurli on vähän erilainen:
http://scraperwikiviews.com/run/ajank...
...sain lisättyä Googlereaderiin. Se miksi toimi aiemmin tuolla toisella -- Vaikea sanoa :-)
Ile commented on posted to #scraperwiki 23.11.2010 (fi)
@mikkohei13 @Ile Nyt pompsahti listassa kärkeen, suurkiitos jo tästä, julkaisin uutuudeen Kaupunkifillarin lukijoille:
http://www.kaupunkifillari.fi/blog/20...
apoikola commented on posted to #scraperwiki 23.11.2010 (fi)
@Ile Lisäsin päivämäärän datastoreen RCF 2822 -muodossa. RSS:n speksit viittaavat RFC 822 -muotoon, mutta 2822 on sen korvaaja ja näyttää käytännössä samalta.
GUID generoidaan otsikosta + linkistä (MD5-hash). Se ei ole ihan UUID-standardinmukainen (väliviivoja puuttuu) mutta riittää RSS:lle.
Jostain syystä scraperin manuaalinen ajo SW:ssä näyttää toimivan vain joka toinen kerta. Aika näyttää toimiiko ajastettu ajo oikein joka kerta.
mikkohei13 commented on posted to #scraperwiki 23.11.2010 (fi)
@mikkohei13 Joo, noi toimii hienosti. Päivitin RSS-näkymäkoodin käyttämään noita...
ping @apoikola -- Nyt pitäisi olla "valmis" ;-)
Ile commented on posted to #scraperwiki 23.11.2010 (fi)
@Ile @mikkohei13 Scraperin julkistaminen herätti heti keskustelua Kaupunkifillarissa ja virkanainen Penelopekin mukana :)
ping myös @totoroki ja @asialista
apoikola commented on posted to #scraperwiki 24.11.2010 (fi)
niin se linkkihän on siis sama, kuin eilenkin http://www.kaupunkifillari.fi/blog/20...
apoikola commented on posted to #scraperwiki 24.11.2010 (fi)
@apoikola Hauskaa, että tuo tuli heti käyttöön ja aktiivisen jengin hyödyksi. Niin, ja kyllä tämä raavinta näyttää wikimäisesti tehtynä oikein lupaavalta...
Ile commented on posted to #scraperwiki 24.11.2010 (fi)
@Ile tuon halusinkin kuulla, eli scraperwiki ei ole aivan pöllö kapistus, yritän tosiaan itsekin siihen tutustua ja on tietysti mukava, jos Suomessa syntyisi vaikka pieni scraperwiki porukka, jonka kesken jakaa kokemuksia
apoikola commented on posted to #scraperwiki 24.11.2010 (fi)
Современный <a href="http://www.topremont.com.ua">... интерьера</a> помещений в Киеве
NOVIKOVARTEMIJ33 commented on posted to #scraperwiki 27.11.2010 (fi)
Copyright Rohea Oy 2010 | Mobile version | Feedback | API | Terms of Service | Applications and tools