Yhteisöllinen semanttinen web 2.0, Otaniemi.
posted to #seminaarikannu 15.01.2010 (fi)
Yhteisöllinen semanttinen web 2.0, Otaniemi.
semi posted to #seminaarikannu 15.01.2010 (fi)
Käyttäjälähtöiset verkkopalvelut tarvitsevat yhteentoimivuutta
- palveluita kehitettävä käsi kädessä infran kanssa. Kun saadaan semantiikka etenemään, se lisää terveyden tasa-arvoa. Terveydenlukutaito - ymmärtää esim. miten laboratoriotuloksia pitäisi tulkita ja miten vaikka ravitsemus vaikuttaa terveyteen.
Semanttinen portaali on tehty, malli siitä miten verkostoa rakennetaan ja laajennetaan. Olemassaolevan infran päälle rakennetaan uusia palveluita. http://www.tervesuomi.fi
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Sirkka Valanto: miten semanttinen web muuttaa museomaailmaa.
Hanke vielä kesken. Vaikutusmahdollisuudet tiedon tallennukseen.
Ontologiat korvaavat yksittäiset luettelointitermit, toimija- ja paikkaontologiat korvaavat perinteiset erisnimet. Ontologiat helpottavat luettelointityötä. Ontologiat nostavat luetteloidun tiedon tasoa. Saadaan eri nimillä toimineet toimijat yhteen (eri nimellä toimineet posliinitehtaat esim).
Nykyään luetteloidaan käsin, luetteloija miettii itse nimeä ja asiasanoja, mikä ei välttämättä tee esineestä löydettävää. Aineistoa on miljoonia ja se on uniikkia. Nykyisin museoilla omat luettelointijärjestelmänsä (Musketti, Antikvari (?) ja Muusa).
Kokoelmia digitoidaan, saatavuus verkossa lisääntynyt. SMOL = Suomen museot online, käyttö lisääntynyt ja aineistot löytyvät Googlesta.
Semanttisuus on vasta tulossa museoihin. MAO = Museoalan ontologia, uudistaminen ja laajentaminen vireillä. Museoviraston webMuskettiin (käytössä n. 70 museossa) tulossa ONKI-liittymä.
Suuri kysymys on tehdäänkö aineiston annotointi manuaalisesti vai automaattisesti.
Ontologiset ripustukset helpottavat luettelointityötä, koska ei tarvitse määritellä joka kerralla erikseen että graniitti on kiveä tai tina metallia.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Olli-Pekka Rissanen, Valtiovarainministeriö: Semanttinen web ja valtiotason tietoarkkitehtuurit ja -sisällöt
IT-konserniohjaus.
Johdanto: budjetti-ja finanssitalous, toisaalta hallinnon kehittäminen. Kehittämistä katsotaan koko julkishallinnon kannalta.
Government 2.0, sosiaalisen median vaikutus hallintoon. Henkilökohtainen näkemys, että osallistava vaikutus on aika pieni. Sensijaan uskoo, että FINNONTO-hankkeen piirissä olevat asiat vaikuttavat paljon.
Nyt trendinä konserniohjaus, halutaan pois vertikaalista johtamismallista horistontaaliseen. Viime laman myötä siirryttiin hajautettuun malliin, nyt ollaan siirtymässä (loogisesti ajateltuna) verkkoon. Päätösten tekeminen (vaikka vangitseminen) ei voi toimia verkossa yhteisössä keskustelemalla, vaan kansalaisen on voitava tietää kuka päätöksen teki, millä pohjalla ja valtuuksilla etc.
Yritetään mallintaa lupaviidakkoa (jos perustat pitserian, sen lisäksi että perustat yrityksen tarvitset kenties rakennuslupia tjsp).
Poliittinen tuki on, talouspoliittinen ministerivaliokunta on tehnyt kesäkuussa päätöksen mm. konserniohjauksesta. Sen pohjalta asetettiin hankkeita, joita k-ohjauksen lisäksi ovat järjestelmähanke ja lainsäädäntö (ladattu juristeilla :) ).
Eduskunta ottanut myös kantaa joulukuussa, että [...] julkisen sektorin tietojärjestelmien yhteentoimivuus ja yhteensopivuus voidaan toteuttaa lainsäädäntöön perustuen viranomaistehtävänä. FINNONTO:ssa tehty määrityksiä ontologioille ja sanastoille, tarkoitus ottaa näitä mukaan lainsäädäntöön. Tahto ei ole ottaa kantaa teknologiaratkaisuihin vaan nimenomaan tietoon. Halutaan että samalla tavalla kuin postinumerot, niin nämäkin asiat olisivat yhtenäiset Suomessa. Omaa mielipidettä: tarvittaneen jokin virasto valvomaan tätä samalla tavalla kuin viestintävirasto.
Hallituksen esitykset saatava valmiiksi kesäkuussa, menevät lausuntoihin ja syksyllä eduskuntaan. Voimaan toivottavasti lait tulevat 2011. Suuri työ edessä.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Janne Saarela: Profium Oy: Semanttisen webin mahdollisuudet yrityksille
Arvolupauksen lunastaminen
* Kuvapankeissa:
Metatiedon idea kuvailla tietoa, yrityksillä tietoa laidasta laitaan. Semanttisessa webissä yksi ainoa tietomalli, jolla voidaan ilmaista kaikki kirjo. Oman toiminnan tehokkuus: kun manuaalinen työ vähentyy, saadaan kustannustehokkuutta. Uutta liiketoimintaa, kun tietoa voidaan julkaista ja jaella uusille sidosryhmille, joita ei aiemmin olla voitu kustannustehokkaasti palvella.
Yhdistämällä useita ontologioita saavutetaan yrityksen toimintaa tehostava tietojärjestelmä. Kuvaileva metatieto (YSO) auttaa löytämisessä.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Kiitos kun raportoit! Oli suunnitelmissa tulla täältä Treeltä paikalle, mutta tuli mutkia matkaan.
sad-hu commented on posted to #seminaarikannu 15.01.2010 (fi)
@semi kiitos rapparista, loppuiko jo?
apoikola commented on posted to #seminaarikannu 15.01.2010 (fi)
Taitaa olla kahvitauko. Ohjelma jatkuu viiteen, jotain kalvosettejä on jo näemmä tarjolla.
sad-hu commented on posted to #seminaarikannu 15.01.2010 (fi)
Kahvitauko loppui, seuraavaksi ontologioista.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Voisiko joku kertoa, mikä on semanttinen portaali? Saako sieltä kaiken portaalissa esitetyn tiedon RDF:nä ulos jonkun rajapinnan kautta, vai? Tämä olisi kova juttu, kun esim. Suomen ympäristökeskuksella on 40 000 sivua ylläpidettyä tietoa, voi jospa siihen dataan voisi linkittää ja sitä voisi hyödyntää koneluettavasti.
Eduskunta ottanut myös kantaa joulukuussa, että [...] julkisen sektorin tietojärjestelmien yhteentoimivuus ja yhteensopivuus voidaan toteuttaa lainsäädäntöön perustuen viranomaistehtävänä.
Onko googlehakusanoja, millä kyseisen kannanoton löytäisi? ping @pe3 @ubiq
apoikola commented on posted to #seminaarikannu 15.01.2010 (fi)
Awww @digikim on kans tuolla pölisemässä :)
lintsu commented on posted to #seminaarikannu 15.01.2010 (fi)
Eero Hyvönen, Aalto-yliopisto ja HY: FinnONTO-infran esittely
Toisaalta ontologiaan ja peilauksiin (mäppäykseen) liittyvät kysymykset, toisaalta metadata. Ontologiapuolella W3C:n standardit, metadatapuolella Dublin Core etc. Yläotsikko tälle on ONKI eli kansallinen ontologiakirjastopalvelu, jonka olisi tarkoitus koota kaikki yhteen.
Keskeiset ontologiat
* Yleiskäsitteet: KOKO-ontologia ja sen komponentit (asiasanastot)
* Paikat: nykyinen paikannimirekisteri (PNR), kansainväliset rekisterit (GNS, Geonames), Historialliset paikat (Suomessa SAPO, Karjalan paikat, muualla Getty Foundation, TGN)
* Henkilöt ja organisaatiot (TOIMO), otettava kunnolla haltuun.
* Historialliset tapahtumat (HISTO)
* Luonnontiede: Linnut (AVIO), nisäkkäät (MAMO)...
KOKO kokonaisuus saatava yhtenäiseksi ja vaatii yhteistyötä.
FinnONTO-ontologioiden kehitystyön periaatteita
* Perustan hyödyntäminen eri yhteyksissä, ei lähdetä nollasta joka kerta
* Päällekkäisen työn eliminointi ja koordinointi: erikoistujat toimivat ja tulokset yhdistetään
* Avoin lähdekoodi kansallisille ydinsisällöille, ei patentoida eikä oteta maksua
* Käytön edistäminen maksuttomuudella, pyritään saamaan virasto tarjoamaan palvelu kansalaisille ilmaiseksi
* Yhteistyöverkoston rakentaminen ja tukeminen, kaikki tervetulleita työhön
* Moniarvoisuus ja virheiden sietäminen: eli ei olla sanomassa miten maailma menee vaan jokainen ontologian kehittäjä voi tehdä itsenäisiä ratkaisuja. Näkökulmia saa olla. Pitää uskaltaa julkaista keskeneräisenä, myös virheitä sisältävä järjestelmä on hyödyllinen. Hyvä asia että huomataan virheitä, koska niitä voidaan sitä mukaa korjata.
* Minimaalinen ontologinen sitoutuminen: otettu kantaa vain hierarkiaan, koska jos alettaisiin liian tarkkaan kuvata käsitteitä, niin toisessa kontekstissa mallintaminen olisi haasteellista. Tarkempi ontologinen työ jätetty kunkin projektin harteille.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Hyötyjä:
Kuvauksien tarkentaminen mahdollistuu, RDF ja OWL-suositukset W3C:ltä, Identifiers vs. labels, different kind of labels in different languages
Päättely: määritellään esim rotta -> jyrsijä -> nisäkäs, jos kerrotaan minimaalinen tieto (nisäkkäät imettävät), näitä voidaan ketjuttaa niin että tiedetään rotan voivan imettää, koska tieto periytyy ontologian kautta ja ihmisten ei tarvitse murehtia päättelysäännöistä. Ontologia rikastuu sanastosta käyttöontologiaksi, jolloin siitä saadaan enemmän hyötyä.
Ylläpito, tuki: voidaan hallita erilaisilla työkaluilla, koneet valjastetaan auttamaan ontologioiden rakentamisessa, valmiit välineet sanastojen linkitykseen toisiinsa.
Käyttötapaukset: semanttinen yhteentoimivuus, nähdään miten sanastot liittyvät saumattomasti datamassaan, verkon päälle voidaan tehdä älykkäitä ominaisuuksia, kuten suosituksia, hakuja, koosteita, visualisointeja etc.
Summa summarum: Ontologioita tarvitaan kahdesta pääsyystä, semanttinen yhteentoimivuus ja älykkäät web-sovellukset. Ydinontologiat kannattaa kehittää kansallisilla talkoilla, toivottavasti kalvot löytyvät netistä, koska pari lausetta jäi saamatta ylös :)
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Katri Seppälä, Aalto-yliopisto ja Sanastokeskus TSK: Yleinen suomalainen yhteisöllinen kokonaisontologia KOKO
YSO ja sitä täydentävät ontologiat
- taustalla asiasanasto
- käsitteiden väliset suhteet
YSO:ssa 23 000 ontologisoitua käsitettä, suomi, ruotsi, englanti
Monissa ontologioissa lisätty paljon käsitteitä ontologisoinnin yhteydessä, koska asiasanastoja on tarvinnut täydentää. Yhdisteltäessä on huomattu, että 30-70% käsitteistä on ollut yhteisiä YSO:n kanssa. Keskeisessä asemassa jatkokehityksen kannalta.
KOKO:ssa on YSO, yhdistelmäontologioita muutamaa lukuunottamatta, yhteensä 73 333 käsitettä, käytössä Kulttuurisammossa, Kirjasammossa ja Kantapuussa.
Miksi ontologioita?
- Kokonaishierarkian esittäminen selkeyttää käsitekokonaisuuksia, mahdollistaa koneellisen päättelyn ja helpottaa käsitteiden valintaa aineistoja kuvaillessa
- Yhdistelmäontologiat selkeyttävät eri ontologioiden yhteiset ja eroavat käsitteet, helpottavat kokonaisuuden käyttöä, auttavat vlttämään päällekkäistä kehitystyötä
- Semanttisessa käyttöliittymässä ontologioiden hierarkia mahdollistaa hakujen laajennuksen, assosiatiivisia suhteita voidaan käyttää suositteluun
Viime vuonna kehitetty myös YSO:n englanninkielistä puolta, perustui HKLJ:n kirjastotietokantaan. Valmistunut versio ei sisällä käännösten tarkistusta. Kootut englannin vastineet luovat mahdollisuuden linkitykseen kansainvälisiin englantia käyttäviin aineistoihin kuten WordNet ja eri erikoisalojen aineistot. Monilla aloilla tarvitaan englanninkielistä sanastoa.
Yhteenveto: luotu pohja helpolle rinnakkaiskäytölle ja ontologioiden yhteisölliselle kehitykselle. http://www.seco.tkk.fi
http://www.yso.fi
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Tomi Kauppinen, Jari Väätäinen, Aalto-yliopisto ja GTK: Paikkatiedon ontologiat
Mihin tarvitaan paikkaontologioita?
- Jokainen meistä liittyy paikkoihin
- Melkein kaikki muutkin asiat liittyvät paikkoihin, kuten rakennukset, valokuvat, tapahtumat, käytännössä valtaosa kaikesta tallennetusta tiedosta.
Tarvitaan keinoja liittämään paikkoja toisiinsa ja mahdollistamaan kaiken muunkin liittämisen paikkoihin.
Tärkeässä roolissa organisaatiot, joilla on tietoa esim. Imatran historiasta. Voidaan kertoa miten erilaiset esineet liittyvät erilaisiin paikkoihin. Ongelmana, että paikoissa on tapahtunut vuosien varrella muutoksia. On ristiriita siinä, että ollaan kiinnostuneita Imatrasta, mutta esineet on liitetty vanhoihin paikannimiin. Ontologialla voidaan kertoa, että mitkä alueet Imatra peittää, mitkä ovat olleet paikkojen vanhat nimet.
Voidaan löytää ja yhdistää paljon tietoa, esimerkiksi vanhoja perhoshavaintoja, jolloin voidaan tutkia esimerkiksi ilmastonmuutosta -> ajateltava laajasti. Butterfly effect. Jos halutaan tarjota tiedonhakupalvelua, on huomioitava paikannimimuutokset tai paljon tietoa jää kadoksiin.
Suomen ajallinen paikkaontologia SAPO
- http://www.seco.tkk.fi/ontologies/sap...
Yhdistetty Kantapuun hakukoneeseen SAPO:n tiedot.
Omaan tietokantaan voi ottaa ONKI:n hakupalvelun käyttöön parin tunnin työllä.
SAPO on arvokas aineisto, mutta jatkuva työnsarka, koska muutoksia tapahtuu jatkuvasti.
Saksassa, jossa luennoija käynyt pitämässä kutsuesityksen, ei oltu tehty vastaavaa, joten Suomi on tällä saralla edelläkävijämaa ja meillä voisi olla paljon annettavaa ulkomaille.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Eero Hyvönen, Aalto-yliopisto: Suomen historiaontologia HISTO
Kulttuurirahasto tukenut mm. tätä ja semanttista Kalevalaa, Agricola-yhteisö tarjonnut materiaalia.
Historiaontologian tarkoituksena:
- Määrittää ontologiset tunnisteet (URI) historiallisille tapahtumille samaan tapaan kuin esim. paikoille
- Kuvat täsmällisesti historiallisia tapahtumia ja narratiiveja, aineettoman kulttuuriperimän tallentaminen
- Toimia linkittävänä ontologiana erilaisten kulttuuristen sisältöjen välillä
- Tarjota kattava ja hyvin kuvailtu semanttinen tietokanta Suomen historian tapahtumista (itseisarvo)
Perusjuttua, tietojen yhdistäminen, haku, suosittelu, tapahtumien ja tarinoiden luoma kiinnostava konteksti, tapa kuvailla historian käsitteitä tarkemmin kuin termeinä, sisällön visualisointi
Nykyisellään HISTO sisältää vajaa 2000 Suomen historiaan liittyvää tapahtumaa historialliselta ajalta 1000-2000. Tapahtumiin linkitetty satoja erilaisia toimijoita mm. Kansallisbiografiasta, lisäksi yli 900 historiallista henkilöä ja nelisensataa organisaatiota. Jos halutaan tehdä paikallishistoriaa, niin voidaan käyttää tehtyjä ontologioita Agricolan kautta. Nykyinen on huomattavasti laajempi ja parempi verrattuna vanhaan Kulttuurisammosta löytyvään.
Esimerkkejä annotoinneista, kalvot toivottavasti saatavilla.
Käyttöliittymäksi kaavailtu aikajanaa.
Jatkokehitystä:
- Semanttiset suosittelut rikkaammasta aineistosta
- Tapahtumaketjujen visualisointi
- Historian sanakirjan integrointi Kulttuurisampoon
- Wikipedian integrointi HISTO:on ja Kulttuurisampoon
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Lounastauko, palataan vajaan tunnin päästä.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Kim Viljanen @digikim, Aalto-yliopisto: ONKI living lab -ontologiapalvelut käytettävissänne
Miten tietokoneelle voidaan kertoa kaloista? (Todella hauskat kalvot!)
Suomen museoissa paljon tietoa kannoissa, halutaan luoda yhteyksiä esim. puuvillaisten esineiden välillä.
Linked Open Data, maailmanlaajuinen verkko, jossa kaikki tieto yhdistyy toisiinsa. Ydin koostuu Wikipedian tiedoista, jotka on muutettu semanttiseen muotoon. Amerikkalaiset, australialaiset, britit ovat tekemässä sitä, Suomessakin EVA haluaisi julkaista tietoa siten, että koneet myös sen ymmärtävät.
Suomi tarvitsee rautatieverkkojen ohella myös semanttisen webin infrastruktuurin! Onneksi samaa mieltä ovat lukuiset tahot Suomessa.
Vastaus siihen, miten:
-Merkitään kaikki internet-yhteensopivalla osoitteella = URI
-Mallinnetaan käsitteiden väliset suhteet = ontologia
Esimerkkikuvissa URI-ilmauksia Helsingin historian eri vaiheille ja esineille.
Mistä URI:t löytää?
-Yksi vaihtoehto painattaa iso kirja, josta ne kaikki löytyvät. Se on kuitenkin huono formaatti, koska se ei päivity, tuhlaa metsää jne.
-Ne julkaistaan siis netissä ONKI:ssa
-ONKI käsittää n. 70 sanastoa, tärkein on yleinen suomalainen asiasanasto, myös ei-julkisia ontologioita. Noin miljoonan kappaleen verran URI-osoitteita.
Mihin tarpeisiin ONKI vastaa?
-Ontologioiden käyttöönoton helpottaminen, mistä ne tulee ja niitä saa
-Yhteenlinkitettyjen ontologioiden kehittäminen
-Julkaisukanava
-Semanttisen webin mahdollisuuksien laajamittainen mahdollistaminen Suomessa ja maailmalla
-Sovelluskehittäjälle valmiita komponentteja ja palveluita
= Miten saat tietosi semanttiseen webiin tai pois sieltä
Kolme käyttäjäryhmää, tiedon hakija, tiedon indeksoija (tuottaa tietoa), ontologioiden kehittäjä (omistaa sanaston, haluaa jakaa sen).
-Erilaisia käyttöliittymiä ontologioiden selaamiseen ja hakemiseen sekä sovellusintegrointiin.
-ONKI API web service
-Ontologiat myös ladattavissa
Yhteisöllinen ontologiakehitys ja julkaisu
-Yhteenlinkitettyjen ontolog. tukeminen
-Yhteensopivuus Suomessa ja maailmalla
-Hyvät käytännös
Oman ontologian voi ladata ONKI:in vaikka välittömästi, jos se on standardissa sanastojen esitysmuodossa.
Myös automaatinen julkaisuputki YSA -> ONKI
ysa.xml
Kansallisesti merkittävät sanastot saavat tukea!
ONKI living lab - ulos norsunluutornista.
-Pyritty ottamaan käyttöön palveluita antamalla ne ihmisille ns. oikeaan käyttöön ja tutkailemalla miten ne toimivat.
-10 000 käyttäjää kuukaudessa, noin 100 rek. organisaatiota.
-Melko vakaa, melko nopea
-Käyttöliittymiä ja rajapintoja kehitetty palautteen pohjalta
-ilmainen
-saa tulla mukaan kehittämään ja kylään kahvillekin juttelemaan
Mikä on superprolen suoritus? Ryhdy testikäyttäjäksi http://www.yso.fi
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Mikko Salonoja: ONKI 2 - palvelun hakusovellus ja uusi käyttöliittymä
Ympäristökäsitteiden annotointi, miten käyttöliittymän kautta löydetään sopivia termejä? Katsotaan mitä palvelu sisältää. Voidaan hakea joko sanastoja tai sanahaulla kaikista. Loppu esityksestä demotusta. Käykää kokeilemassa, jos kiinnostaa.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Jouni Tuominen, HY ja Aalto: ONKI-SKOS-palvelimen hyödyntäminen sisällönkuvailussa ja hakupalveluissa
W3C:n suositus sanastojen esittämiseen semanttisessa webissä: SKOS (simple knowledge organization system)
ONKI-käsitevalitsin on käyttöliittymätasolla integroitava AJAX-komponentti, joka tarjoaa haku- ja selaustoiminnallisuudet kustannustehokkaasti. Käyttäjän ei tarvitse tuntea sanastoja, vaan automaattisesti täydentävä haku auttaa. Tutki tarkemmin ontologiaselaimella -merkitys avautuu paremmin. Mahdollistaa tiedonhaussa kyselyn ontologiaperusteisen laajennuksen (haulla työkalut saadaan kirveet, sahat, vasarat... vaikka sana työkalut ei esiinny niiden yhteydessä)
ONKI API
Metodeja käsitehakuun, tietojen kyselyyn, metatietojen kyselyyn
Käytössä mm. Saha-editorissa, ONKI 2 perustuu tähän
Kantapuu-systeemin demo, käsitevalitsin vaikutti sen perusteella todella näppärältä ja tarkensi hakuja paljon (=tuli paljon lisää hittejä).
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Semilia: Ollaanko puhuttu asiaa vai asian vierestä? :)
digikim commented on posted to #seminaarikannu 15.01.2010 (fi)
Matias Frosterus, Aalto: Automaattinen semanttinen annotointi
Annotointi = aineistoa kuvaillaan ontologisilla käsitteillä
Mahdollistaa konepäättelyn ja korkeamman tason automaation
Voidaan tehdä käsin, esimerkiksi SAHA-editorilla
Automaatio
-Käsin annotointi on hidasta
-Automaatio välttämätöntä kun halutaan annotoida suuria olemassaolevia kokoelmia, ei haluta, ei kuulu työnkuvaan.
-Käytännössä etsitään vastaavuuksia kohteessa esiintyvien ja ontologian käsitteiden nimien merkkijonojen välillä
-Annotointiskeema määrittelee mitä metatietoja kohteesta halutaan (esim. valmistusmaa aina valtiot-luokan ilmentymä), esim. XML-dokumentin author-elementtien välistä voidaan hakea dokumentin tekijät.
-Disambiguointi: ontologisten käsitteiden välillä vs. käsitteen ja ei-käsitteen välillä. Ontologiassa maailma hahmotetaan käsitteillä, eikä niitä tarkoittavilla sanoilla. Yksi termi voi vastata montaa käsitettä, esim. lapset ikäryhmänä tai sukulaisuussuhteena.
-Miten erottaa mistä käsitteestä on kyse? Kontekstitiedolla, etukäteissäädöllä (tässä aineistossa lapset viittaa aina ikäryhmään), päättelemällä ympäröivistä käsitteistä, koneoppimisella tms.
-Haasteena myös väärät annotaatiot, esim. "tämä artikkeli ei käsittele arkeologiaa" saattaisi tuottaa annotaatioksi arkeologia-käsitteen. Voidaan koettaa ratkaista syntaktisella jäsennyksellä (luonnollisen kielen)
-Uusien instanssien löytäminen, esim. uutisissa henkilöt, voidaan etsiä etunimi-sukunimi-pareja, tunnetut etunimet, isot alkukirjaimet, morfologinen päätevaihtelu (etunimi ei taivu, kun se esiintyy tekstissä ennen sukunimeä) -> löydetyn parin jälkeiset viittaukset tulkitaan sitten viittauksiksi samaan henkilöön
POKA
-automaattisen annotoinnin perustyökalu ontologisten käsitteiden (RDF, OWL, SKOS) etsimiseen tekstistä
-käyttää Connexorin kielityökalua
-Sisältää myös käsiteriippumattoman henkilönnimietsimisen ja regexpit
Airo
-Helsingin sanomien artikkeliarkisto, tehokkaampi haku,
-annotoitiin ne Pokalla YSOa vasten
-Dokumentin laajennos
Vanhat sanomalehtiaineistot
-Kansalliskirjaston historiallinen sanomalehtiarkisto
-Automaattinen semanttinen annotointi poikkeavuuksia sisältävälle aineistolle (kirjoitusasut, vanhat sanat, OCR-virheet, lyhenteet) -> pyritään arvaamaan oikea muoto sanalle etsimällä melkein samanlaisia merkkijonoja ontologiasta ja sanakirjasta -> valinta useiden samankaltaisten sanojen joukosta käyttäen sääntöjä, jotka perustuvat tunnettuihin virheisiin (Wenäjä-Venäjä etc.)
SÄHKE
-Kansallisarkiston sähköisen arkistoinnin metadatamalli
-Asiakirjat annotoitiin pokalla, annotointina YSO
Blogilouhinta
-Tarkoitus: suositellaan TerveSuomi-portaalin sisältöihin liittyviä tekstejä, blogit, syötteet, keskustelupalstat,
-Annotoidaan Pokalla ja tuotetaan TerveSuomi-palvelulle RDF:ää
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
@digikim Vähän sekä että, tahti on ehkä vähän turhan nopea (ei ehdi näpyttelemään) ja toisaalta demoista ei kauheasti saa tänne takariviin mitään irti.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Ääh, joko slideshare tai netti bugittaa kun ei uploadaudu kalvot...
digikim commented on posted to #seminaarikannu 15.01.2010 (fi)
Jussi Kurki, HY: Sisällön yhteisöllinen tuotanto SAHA 3.0 -järjestelmä
Skeema -> Data -> Käyttöliittymä
Saha on annotaatioeditori RDF-datalle. Resurssien luonti ja muokkaus, voidaan muokata joko tekstidataa tai ontologisia viitteitä. Konerajapinnat olemassa, saa myös dumpin.
Tukee yhteisöllistä sisällöntuotantoa, samaa projektia voi samaan aikaan useampi ihminen muokata. Chat-ominaisuus, voi jutella samaan aikaan muiden kanssa. Toiset annotoijat voivat opastaa esim. uutta tyyppiä suoraan järjestelmässä.
Avoin kaikille
Pohjana Lucene-hakukone, AJAX ja jotain muita, en saanut selvää mitä kaikkea.
Skaalautuva ja testattu, satojen tuhansien luokkaa nyt testattu, todennäköisesti skaalautuu suuremmallekin.
Demo.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Jep, en ole ainoa joka ei saa demoista mitään irti, vieressä piirrellään, katsellaan lasittuneesti, pyöritään penkissä ja näytetään levottomilta.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
@semi katso tulisiko tuolta muutama mielenkiintoinen kontakti jututtaa #iks-project :in tiimoilta, olisi mukava saada hankkeeseen mukaan myös kotimaista ulottuvuutta.
IKS siis on EU-rahoitteinen hanke jossa kehitetään avointen julkaisujärjestelmien semanttisia ominaisuuksia. Olemme siinä mukana Midgardin tiimoilta
bergie commented on posted to #seminaarikannu Museokatu 35, Helsinki 15.01.2010 (fi)
Jahka on aikaa niin pitää lukee tää ketju. Kiitti @Semi raposta.
Suviko commented on posted to #seminaarikannu 15.01.2010 (fi)
@semi: pitääpä ottaa tuo esille. Mitä erityisesti kannattaisi parantaa? (Itse vähän sokea kun on niin tuttuja juttuja ja sen takia en jaksa keskittyä...)
digikim commented on posted to #seminaarikannu 15.01.2010 (fi)
Jussi Kurki, HY: Semanttinen hakukone HAKO
Tekstihaku, moninäkymähaku ja visualisointi.
Yksinkertainen, nopea ja skaalautuva.
Integroitu HAKO Sahaan
Taas demo.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
@digikim Jutellaan livenä kun tää loppuu, ellei sulla ole kiire jonnekin?
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Feza Baskaya, TaY: WebExplorer: A tool for ontology-based information exploration
-Verkossa on paljon materiaalia, joista osa epämiellyttävää (spam)
-Vaikea arvata sopivimpia hakusanoja, erityisesti vieraissa kielissä
-Vaikea tietää sanamuotoja
Hakuympäristöön liittyviä ongelmia:
-Riippuvuudet kokoelmista ja metadatasta
-Moottori- ja kyselykieli
Annotoida vai ei annotoida, kas siinä pulma.
Ontologian vaatimukset
-henkilökohtainen
-pieni skaala
-mäppäys
-monikielisyys
-editoitavuus
Kolme tasoa: konseptitaso, lingvistinen taso ja string-taso.
-Avainsanahaku
-Hakuun perustuvat yhteenvedot
-Luokittelut
-Klusterointi
-Kirjanmerkit
-Toimintojen sujuva integrointi
WebExplorerin leiskan ja kälin demoa.
Tekninen rakenne, käyttäjän päässä JS, server-side servlettejä ja engineitä.
Kalvot varmaan selvittävät tätäkin esitystä paremmin kuin nämä muistiinpanot.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Antti Tani, HY: Semanttinen profiilieditori personoituihin palveluihin
*Tarpeita personoinnille useissa sovelluksissa, näyttäisi siis erilaiselta eri käyttäjille.
*Personoinnin tärkein tehtävä on toimia täydentävänä tiedonsuodatuskerroksena (räätälöidyt suositukset, automaattiset rajausvalinnat hakuun etc).
*Käyttäjäkohtainen uutisvirta uusista tapahtumista tai uutisista
*Personointia varten tarvitaan käyttäjätietoa (profiili)
*Käyttäjätieto lähtökohtaisesti sovelluskohtaista, jokainen murunen oltava perusteltavissa konkreettisella käyttökohteella, jotka ovat sovellusriippuvaisia.
*Monissa sovelluksissa tarvittaisiin samanlaista käyttäjätietoa, mutta kaikki sovellukset käsittelevät käyttäjätietoa vain sovelluksen sisällä -> käyttäjä joutuu syöttämään joka kerta samat tiedot uudelleen ja uudelleen, tieto on pirstaloitunut eri sovelluksiin
*Keskitetty käyttäjätietojen hallinta, auttaa myös läpinäkyvyyteen. Käyttäjä voi itse muokata tietoa ja näkee ja voi määritellä mitä tietoa hänestä on tallennettu
*Käyttäjätilissä voi säilyttää myös läheisiin ym. liittyvää tietoa, tili voi sisältää useita käyttäjämalleja
Käyttäjätili
*määritelty RDF-tietomalli (käyttäjämalliskeema), jota voi laajentaa sovelluskohtaisilla ominaisuuksilla tai tietomalleilla
*käyttäjätilisovelluksesta on valmistunut peruskehikko -> käyttäjämalli koostuu sovellusnäkymistä
*Web Service -rajapinta sovelluksille -> edellytyksenä käyttäjän todentaminen. Mahdollista myös toisin päin, sekä käyttäjätiedon haku että lisäehdotukset käyttäjämalliin käyttäjän toiminnan perusteella
Jatkossa
*Ensimmäinen käyttäjätiliä hyödyntävä sovellus lienee semanttinen ilmoitusvahti kulttuuri-ja/tai terveystapahtumille
*Käyttäjätiedon tuominen ulkopuolisista sovelluksista esim. OpenID-standardia käyttäen
*Kehitys jatkuu jatkohankkeessa
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Eiku toimihan se slideshare. Mä vaan en osannu! :) http://www.slideshare.net/digikim/onk...
digikim commented on posted to #seminaarikannu 15.01.2010 (fi)
@digikim tosi jees mitä pikasesti vilasin! Pitää himassa kahlata läpi tarkemmin. Hauska tuo kalatermistön semantiikkaesimerkki :)
lindstorm commented on posted to #seminaarikannu 15.01.2010 (fi)
@digikim: Osyn bongattu? Haaga mainittu!!! <3
edit: Ei se tainnukaa olla :( näytti ihan
lintsu commented on posted to #seminaarikannu 15.01.2010 (fi)
Eero Hyvönen, Aalto ja HY: Semanttinen Kalevala
-Semantiikan avulla voidaan löytää mielenkiintoisia yhteyksiä
-Kerätään Suomen kansallista muistia suureen semanttiseen graafiin
-Tarjotaan erilaisia näkökulmia, kuten karttanäkökulmia, voidaan linkittää tekstistä esimerkiksi historiaan, museoiden esineistöön, taideteoksiin etc. kansanperinteen artefakteihin
-Ensimmäinen Kulttuurisampo-demo 2005, kaksi pro gradu-työtä, tuotti tapahtumaperustaisen skeeman, annotoitiin kaksi Kullervo-runoa ja liittyviä kulttuurisisältöjä
-Seuraava kokeilu 2006-2007
-Skeemaa yksinkertaistettiin
-Käytössä oli YSO-ontologian ensimmäisiä versioita
-Kehitettiin Kalevala-ontologiat (paikat ja toimijat)
-Annotoitiin neljä runoa Excelin ja Protegen avulla
-Toimitettiin sisältöjä (mm. nykykielisiä tulkintoja)
-Kulttuurirahaston apurahalla palkattiin sisältötyötä tekemään kansanperinteen tutkija Tuomas Palonen, SKS:ltä asiantuntijoita ja Joeli Takala tekemään Kalevala-osasovellusta DI-työnään, tukena SeColaisia
-Kaikkien 50 runon yksinkertainen sisällönkuvailu valmistui 2008
-Narratiivit valmiiksi 2009
-Skeema SAHA-editori ja ONKI-palvelimet käytössä
-Runojen siltaus Suomen Kansan Vanhoihin Runoihin 2009
-Myös kansanmusiikkikappaleita
-Julkistetaan nyt Kalevala nörtiksi!
-Verkkosivuilta löytyy artikkeleita, tavaraa etc.
http://www.seco.tkk.fi/applications/k...
(Olisipa siistiä, kun Ateneumissa taulua katsoessa voisi hakea samaan aikaan siitä lisää tietoa, aitoa monimediallisuutta olisi se)
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Lauri Harvilahti, SKS: Miten web muuttaa kalevalaista tutkimusta
Hienoa, että ollaan saatu insinöörien Kalevala, josta voidaan luovia takaisin substanssipuolelle.
Kulttuurisammossa on 1849-versio Lönnrotin Kalevalasta. Myös osa SKVR (1908-1997) ja SKVR xml-korpus (2007)
Humanistinen selitys siitä mikä on vanha runo. Nelipolvinen trokee, alkusointu, säeparallelismi ja muut toistokeinot, perinteiset runoformulat ja kielellis-poeettinen rekisteri
Norjan metsäsuomalaisilta kerätty loitsu, jossa päähenkilö Kivutar hyvä emäntä. Ongelmallisista lauseista tutkittu myös ruotsinnoksia. Kulttuurisammon puolelta etsitään semanttisesta Kalevalasta Kivutar. Löytyy Kalevalan puolelta runo, joka sisältää samat elementit kuin metsäsuomalaisilta kerätty. Voidaan todeta, että alkuperäinen runo Lönnrotin Kalevalasta opituksi ja se on vain muuttunut hieman matkalla. Lisää demotusta tiedon löytämiseen.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Linkitin tämän Qaiku-kanavan tilaisuuden webbisivulta: http://www.seco.tkk.fi/events/2010/20...
digikim commented on posted to #seminaarikannu 15.01.2010 (fi)
Tuomas Palonen, Joeli Takala, Aalto: Semanttinen Kalevala: sisällöntuotanto, toteutus ja demonstraatio
Kalevala osana Kulttuurisampoa
Kalevala jaoteltiin seuraavasti tietorakenteeksi:
* Runo
* Kohtausketju
* Kohtaus
* Tapahtuma
* Toiminta
Haun ja suosittelun kannalta tärkein taso on tapahtuma, sillä se vastaa kuvauksensa tietomäärältä lähiten Kulttuurisammon muita Kalevalan kannalta relevantteja kohteita. Alun perin ajateltiin kuvailla toiminta piinallisen tarkasti ja sen jälkeen bruteforcettaa (laskea) siitä relevantit kohteet.
Kohtaustason tarkoitus taas on edesauttaa Kalevalan selailua ja mielenkiintoisten ja tarinan kannalta merkittävien kohtien löytämistä.
Folkloristit (FM) toivat asiantuntemuksensa annotoinnin piiriin ja kohdat suosittelukoneistolla vertaistetaan Kulttuurisammon sisältöön.
Kalevalan narratiivinen rakenne
Kuva hienosta puurakenteesta (narratiivi)
Laajennusnäkymiä
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Pekka Henttonen, TaY: Case SÄHKE-asiakirjojen automaattinen luokittaminen
Asiakirjahallinta
1. osa projektia oli asiakirjojen metatietojen sisältö
-> huomio siinä, miten asiankäsittelyjärjestelmistä voitaisiin tehdä "älykkäämpiä" ottamalla huomioon käyttäjän toimintakonteksti
2. Tehtäväluokitus, organisaatiorakenne, käyttäjien tehtävät
Käytön ennustettavuus, 9/10 tapausta oletuksen mukaan.
Eli: olisi mahdollista rakentaa älykkäämpiä järjestelmiä, jotka ohjaavat käyttäjää oikeisiin tehtäväluokkiin, joko aikaisemman käytön tai käyttäjän / yksikön tehtäviä kuvaavan profiilin avulla. Toki on varauksia, kuten että ennustettavuus riippuu organisaation koosta, tehtävien eriytymisestä etc.
3. Kuntien yhteisen tehtäväluokituksen käytettävyyden parantaminen
Ilmestynyt muutama julkaisu, jos kiinnostaa saa sähköpostilla.
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Katariina Nyberg, Aalto: SÄHKE metadata
Kansallisarkisto: digitaalisesti säilytettävät asiakirjat noudattavat SÄHKE-mallia.
UML-kuva, Arkiston muodostaja - Arkisto - Ryhmä - Asia - Toimenpide - Asiakirja.
Ensimmäiset tulokset: parhaimmillaan automaattinen luokittelu onnistui 74,18% oikein. Jos mietitään, että järjestelmä olisi käsityön tukena, lukema on hyvä. Loput tietenkin täytyy käsin tarkistaa ja hoitaa. Jokaisen luokittelutapahtuman myötä ohjelma oppii lisää.
Oleellista: kun lisättiin asiakirjoihin ontologiatieto ISO:sta, parani luokittelu parhaimmillaan yli 5%
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Osma Suominen, Aalto: Case TerveSuomi.fi ja YritysSuomi.fi
Mikä on portaali?
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Eetu Mäkelä, Aalto: Kulttuurisampo - suomalainen kulttuuri semanttisessa web 2.0:ssa
Kulttuurisampo konseptina:
Suomessa on erinäisiä tahoja, joilla on tietoa ja haluavat sitä jakaa. Esim. Espoon kaupunginmuseo, esineet ja rakennukset. Valtion taidemuseo, maalauksia, piirroksia ja veistoksia. Kun toistetaan tätä tavaranantoa tarpeeksi monta kertaa, saadaan iso kasa kaikkea, joka ei mene kovin hyvin yhteen. Ei sinänsä ole vaikeaa laittaa sitä ämpäriin. Kulttuurisampo ämpäriinlaiton lisäksi muodostaa kasan semanttiseksi verkoksi.
Järjestyksestä on hyötyä siksi, että erilaisesta aineistoista voi polveilla toisiinsa, voidaan etsiä uusilla paikannimillä vanhoilla paikoilla indeksoitua kamaa, voidaan tutkia kirkkojen tiheyttä Etelä-Suomessa, voidaan tutkia parrankasvun kulttuurihistoriaa. Saadaan maailmanluokan kulttuuriportaali!
Kulttuurisampo tarjoaa toimintoja kaikille, jotka haluaa.
Smartmuseum -> Kulttuurisampo kännyköihin.
Kirjasampo-portaalilla samankaltainen setting.
Monistettava konsepti tämä sampo, ei pelkästään kulttuurille vaan kaikelle! :)
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
Kaisa Hypen, Turun kaupunginkirjasto: Kirjasampo -suomalaisen kirjallisuuden semanttinen yhteisöllinen portaali
Mikä on Kirjasampo? Keskiössä kaunokirjallisuus, muodostaa kolmanneksen yleisten kirjastojen kokoelmista. Tiedonhakuun tai -tallennukseen ei paljoa kiinnitetty huomiota. Hanke syntyi käytännön tarpeesta saada väline, jolla voidaan monipuolisesti hakea kaunokirjallisuutta, mihin kirjastolaiset voivat tuottaa sisältöä ja lukijatkin tuottaa sisältöä.
Tavoitteena helppo löydettävyys, osallistaminen, lukemiseen kannustaminen, hiljaisen tiedon ja osaamisen tuominen esiin.
Keväällä 2010 Beta-versio?
On mahdollista
Käytettävät ontologiat
"Content no longer king - Context is!"
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
lisätietoja Kaunokirjallisuushankkeesta: http://wiki.kirjastot.fi/index.php/Pr...
digikim commented on posted to #seminaarikannu 15.01.2010 (fi)
Eero Hyvönen, Aalto: Yhteenveto ja jatkohankkeet
semi commented on posted to #seminaarikannu 15.01.2010 (fi)
@semi huimaava raportti. Mitä energiajuomaa käytät? Veikkaan hypermenestystä, jos taito ja tahti tarttuu. Kiitos!
visualradio commented on posted to #seminaarikannu 15.01.2010 (fi)
@semi Tuhannet kiitokset Semi, löysin seminaarin #seminaarikannu -kanavan kautta. Kiitos myös huimaavasta raportista.
vivay commented on posted to #seminaarikannu 16.01.2010 (fi)
@semi Huikeaa! Huh. Ja asia on mielenkiintoista ja tärkeää.
@apoikola Ontologiat ja taxonomiat on tärkeä lähtökohta avoimeen/monikäyttöiseen dataan, ettei synny niin helposti mm. tässä ketjussa kuvaamiani ongelmia.
Tässä taxonomian ja ontologian välisestä erosta kompakti esitys.
Ile commented on posted to #seminaarikannu Oulu 16.01.2010 (fi)
Hei kaikki, onpa kiva että tämä rapo koettiin näin hyödylliseksi! :)
Omasta puolestani voin sanoa, että semmaa saa sulatella pienen hetken, sen verran paljon ajatuksenpoikasia ja ihmeteltävää tuli omaksumisen sivutuotteena.
semi commented on posted to #seminaarikannu 16.01.2010 (fi)
Pistin tämän linkkinä parille kamulle joiden arvelin kiinnostuvan
Herra commented on posted to #seminaarikannu 16.01.2010 (fi)
Copyright Rohea Oy 2010 | Mobile version | Feedback | API | Terms of Service | Applications and tools