Tools

apoikola said

apoikola  

Suomennos eng. kielen termille data set http://en.wikipedia.org/wiki/Data_set... ping @Ile @pe3 @ubiq saa pingata muita

48 comments

apoikola posted to #qaikusourcing 04.07.2011 (fi)

48 comments

Bottom

Ile  

Ekana tulee mieleen termi tietojoukko..

Ile commented on posted to #qaikusourcing 04.07.2011 (fi)

cami  

Tylsästi aineisto?

cami commented on posted to #qaikusourcing 04.07.2011 (fi)

tts  

www.tsk.fi/tepa antaa suomennoksen tietoaineisto

tts commented on posted to #qaikusourcing 04.07.2011 (fi)

ConnectIrmeli  

ymmärrys

ConnectIrmeli commented on posted to #qaikusourcing 04.07.2011 (fi)

apoikola  

@tts kah tuolta tuo tietoaineisto siis puskee... se on ihan ok, mutta niinkuin kaikessa suomenkielisessä terminologiassa, niin data, informaatio ja tieto sotketaan tehokkaasti

apoikola commented on posted to #qaikusourcing 04.07.2011 (fi)

tts  

@apoikola totta. Et siis etsi vakiintunutta suomennosta vaan ehdotuksia uudeksi?

tts commented on posted to #qaikusourcing 04.07.2011 (fi)

apoikola  

@tts tarkoitukseni ei ole taistella tuulimyllyjä vastaan terminologiassa, mutta ajattelen, että ehkä tämä ei olisi vielä "liian vakiintunut".

Avoimen datan teeman nouseminen yleisempään keskusteluun lisää mielestäni painetta lanseerata data -terminologiaa ehkä muissa yhteyksissä vakiintuneen tieto -terminologian tilalle tai rinnalle (esm. datajournalismi).

Oma ajatukseni on siis, että data on digitaalista raaka-ainetta, josta sitten jalostetaan jotain informatiivista, joka parhaillaan saattaa tuottaa uutta tietoa. Sellaisenaan, jalostamatta esm. datasetti on kohtuukayukana tiedosta, niinkuin minä sen haluaisin ymmärtää.

mitäs mieltä @ubiq @Ile @cami @ConnectIrmeli

apoikola commented on posted to #qaikusourcing 06.07.2011 (fi)

ubiq  

@apoikola +1 Esm Niiniluoto esittää asian juuri noin ja jatkaa vielä: >tieto > tietämys > viisaus

ubiq commented on posted to #qaikusourcing 06.07.2011 (fi)

tts  

@apoikola niin, tieto-alkuisia sanoja on suomi täynnä ja luultavasti useimmat niistä väärissä paikoissa :) Kannatusta täältäkin 'datalle' tai jollekin muulle.

tts commented on posted to #qaikusourcing 07.07.2011 (fi)

ConnectIrmeli  

@apoikola Kuulostaa tuo viimeisin kommenttisi hyvältä. -Heitin tuon ymmärryksen hätäiseen edellä sillä ajatuksella, että viisauden jälkeen tulee ymmärrys ;) @ubiq

Olisi hyvä, jos tuota data <=> viisaus -ketjua voisi mahdollisimman moneen käyttöön laittaa pelkän esim. tieto -sanan mukaan. Näkisin nuolien menevän molempiin suuntiin...?! Viisaudesta käsin monikäyttöistä dataa...?!

ConnectIrmeli commented on posted to #qaikusourcing 07.07.2011 (fi)

Mitro  

Hei eipäs nyt sotketa käsitteitä! @apoikola Dataset on tietojoukko, kun sillä tarkoitetaan alkuperäistä wikipedian määritystä. Voi se olla myös "valittu joukko tietueita" tai tietuejoukko. Aineisto on ihan jotain muuta, ja tietoaineisto, se ei ole mitään muuta kuin kapulakieltä! Tietojoukko, tai jopa tietuejoukko, on varmin termi, jonka tässä asiayteydessä tietotekniikka-ammattilainen ymmärtää parhaiten.

Kaikkien @Ile @cami @tts @ConnectIrmeli @ubiq on hyvä tiedostaa, että tiedon, datan ja tietämyksen taksonomiat ovat erilaiset riippuen tutkimusalasta. Kolme vuotta sitten ihmistieteiden seminaarilla törmäilin, kun oma taksonomiani oli tietojenkäsittelytieteistä ja ihmistieteissä käsitteiden suhteet olivat tarkalleen päälaellaan omiini nähden.

Mitro commented on posted to #qaikusourcing 07.07.2011 (fi)

Mitro  

@apoikola tietojoukko on valinta, tai leikkaus käsillä olevasta aineistosta. Leikkaus sinänsä lähempänä merkitystä kuin pelkkä aineisto, koska sitä on jo rajattu jollain loogisella kriteerillä. Siis aineisto on se data, eli raaka-aine, tietojoukko on aineistosta valittu osa, puolivalmiste, jota käytetään tuottamaan sitä uutta tietoa, jos näin sen haluat nähdä.

Mitro commented on posted to #qaikusourcing 07.07.2011 (fi)

Mitro  

Data, eli aineisto, on sitten sinänsä sekin jo määritelmällisesti vähintään jollain tasolla määrämuotoista, yleensä tietokannassa (esim relaatiokannassa). Emme puhu tässä itseasiassa filosofiasta, vaan tekniikasta.

Mitro commented on posted to #qaikusourcing 07.07.2011 (fi)

ConnectIrmeli  

@Mitro Tavoittelen eri ääripäiden välille jonkinlaista dialogia. Tietojenkäsittelytieteilijä oppii filosofilta ihan hirmuisen paljon ja päinvastoin.

ConnectIrmeli commented on posted to #qaikusourcing 07.07.2011 (fi)

ubiq  

@Mitro Hyviä pointteja. Sinänsä olen hieman samaa mieltä että nimenomaan avoimen datan kannalta asiaa voi tarkastella teknisten määrittelyjen eikä yhteiskuntatieteiden kautta. En kuitenkaan näkisi WP:aa tässä minään lähteenä vaan siellä nimenomaan kannustetaan käyttämään lähteitä.

WP:n mukaan "A data set (or dataset) is a collection of data". Ja "The term data refers to qualitative or quantitative attributes of a variable or set of variables" eli kuten @Mitro tuossa totesi, 'tieto'joukko on usein - paitsi Pohjois-Korean äänestysprosentti - otos, näyte, leikkaus etc. Ping @jaanahuhta

Eli tämä on - jos kesähelteillä alkaa mähkiä - hieman sama kuin että verkosto muodostuu - tai voidaan rajata - yhteisen nimittäjän kautta ja ilman sitä ei ole verkostoa. Pistä @Mitro jotain linkkejä 'tietojen'käsittelytieteen puolelle, tämä on erinomaisen kiinnostavaa.

Koko ongelmaa ei olisi elleivät suomalaiset olisi kehittäneet kaikenlaisia tieto-alkuisia sanoja ml. itse kantasana =)

ubiq commented on posted to #qaikusourcing 07.07.2011 (fi)

Mitro  

@ConnectIrmeli point well taken. Tämä onkin Qaikun rikkaus, että hommat voivat joskus lähteä oudoille ja rikastuttaville poluille. @ubiq WP ei ollut lähteeni, vaan @apoikola esitti sen avulla asiayhteyden, eli kontekstin, jonka puitteissa hän etsi suomennosta. Valitettavasti minulla ei ole juuri tuohon asian lähteitä. Ovat joskus 20-vuotta sitten päähän peruskursseilla taottuja määrityksiä. Ehkä @ihmis-suski tai @semi tuoreempina tietävät suoraan lähteitä.

@ubiq mielestäni avoimen datan yhdeydessä asiaa pitää käsitellä toisaalta teknisenä asiana, jolloin määritysten kenttä on tietotekninen ja tiedon välitys kulkee rajapinnoittain ja toistaalta filosofinen tai yhteiskunnallinen, jolloin puhutaan tiedon merkityksestä, eli tietotekniseltä kannalta metadatasta.

Mitro commented on posted to #qaikusourcing 07.07.2011 (fi)

Mitro  

Niin juu, itse en oikein osaa nähdä itseäni tieteilijänä, varsinkaan tietojenkäsittelyn alalla. Ehkä käytäntöitsijänä. Tieteenalanikin on kauppatieteellinen, joko kasvuyritystoiminta tai sitten tietojärjestelmätiede ja siinä erityisesti sähköinen liiketoiminta. Nuo käpistelijät ovat sitten ihan oma lukunsa. Satun vain olemaan ollut tietokantasuunnittelija joskus. Käsitteet normalisoin automaattisesti suoraan Boyce-Codd -normaalimuotoon

Mitro commented on posted to #qaikusourcing 07.07.2011 (fi)

Mitro  

Ymmärryksestä ja sen sellaisesta: @ConnectIrmeli

Ensin tulee toisaalta data/aineisto, ja toisaalta kokemus. Aineistoa supistetaan tietojoukoksi ja kokemuksesta valitaan sopiva konteksti. Näistä yhdessä syntyy ymmärrys. Viisaus on sitten sitä, että osaa arvioida onko ymmärryksestä hyötyä vai ei ja kuinka paljon. Viisauteen vaikuttaa se onko asiassa järkeä (eli logiikkaa) ja onko homma älykästä, eli tuottaa tulosta.

On myös sanottu, että ennen toimintaa tulee tieto ja sen ymmärrys. Vasta sitten tulee toiminta. Tämä on yleinen ja kirjallisuudessakin toistuva harhaluulo. Väliltä puuttu yksi keskeinen komponentti/vaihe: sisäistäminen. On paljon asioita, joita tiedän ja jotka ymmärrän, mutta jotka eivät jalostu toiminnaksi itselläni. Vaikkapa GTD:n periaatteet Ping: @tair @troppone @mandrl @jal @samulik ja @pe3

Ymmärtämisen jälkeen asian voi selittää muille. Jotta asia jalostuisi teoiksi, se pitää sisäistää ja ottaa osaksi omaa sisäistä ohjaustaan. Tähön liittynee jotenkin se äly ja hyödyllisyyden ja merkityksen saaminen. Filosofit kertokoot tarkemmin, mitä tarkoitan.

Mitro commented on posted to #qaikusourcing 07.07.2011 (fi)

cami  

Hyviä pointteja täällä. Data set -termiä kuulee käytettävän yhteyksissä, joissa pelkkä data riittäisi. Se on siis levinnyt alkuperäisestä käyttötarkoituksesta, johon @Mitro viittaa. Todennäköisesti siksi, että set on helpompi taivuttaa :)

cami commented on posted to #qaikusourcing 07.07.2011 (fi)

TAir  

@mitro et al. Ehkä ymmärrys rakentaa informaatiosta myös erilaisia tietämyksiä?

Esim. antropologiassa haastateltavia kutsutaan informanteiksi (mielestäni hieman alentava nimitys), koska selitettävän/kuvailtavan/ymmärrettävän ilmiön näkökulmasta heillä on kiinnostavaa informaatiota. Informanteille itselleen tuo informaatio (esim. perinnevarasto) on kuitenkin omaan elämänpiiriin liittyvää tietoa/kokemusta/viisautta. Sopivien välineiden (kuten viitekehys ja menetelmä) avulla tutkija lajittelee ja analysoi informaation ja (ymmärtävässä tutkimuksessa, yksinkertaistettuna) pyrkii (re)konstruoimaan sen, mitä informantti jo tiesi. Tavoitteena tietämys, i.e. informaatiosta jalostunut tieto yhdistettynä muuhun kontekstuaaliseen ymmärrykseen.

Onko se, mitä tutkija lopuksi ymmärtää samaa vai eriä kuin "alkuperäinen tieto"?
- peruskäsitteistö tälle kentälle tulee pitkälti kommunikaatioteorioista, mutta väittäisin, että k.o. viitekehyksessä esim. eri perinnelajien ja suullisen tradition ulottuvuuksien tunnistaminen on keskeisemmässä asemassa kuin data-informaatio-tieto-pohdinnat.

Ovatko arkistojen ja kortistojen materiaalit dataa vai informaatiota, esim. Kansallisarkisto, Kansanrunousarkisto - vaiko vain aineistoa?-)
ping @touqo

TAir commented on posted to #qaikusourcing 07.07.2011 (fi)

jaanahuhta  

Numeroiden filosofiaa tai terminologiaa en ole joutunut pohtimaan. Käytetään iloisesti (joskus jopa sekaisin) käsitteitä: lähtöaineisto, tiedonkeruuaineisto, kokonaisaineisto, tilasto, otosaineisto...
Datasta puhutaan kai lähinnä teknisissä yhteyksissä?!

@Mitro @ubiq @apoikola Mitä ovat esimerkiksi ne erittäin raa'at hallinnolliset rekisteritiedot, joista yhdistämällä, poistamalla, jetsuttamalla luodaan kokonaisaineisto, josta voidaan tehdä tilasto tai josta voidaan poimia tutkimusta varten otos(aineisto)? Usein niillä alkuperäisillä datoilla ei ole mitään itseis(käyttö)arvoa, kun ne ovat syntyneet viranomaistoiminnan oheistuotteena johonkin tiettyyn tarkoitukseen. Esimerkkinä vaikkapa erilaiset palvelussuhderekisterit.

Viranomaisten keräämiä tietoja halutaan avoimiksi, mutta mä en aina oikein hiffaa, että mistä tasosta ja vaiheesta ollaan kiinnostuneita. Koska jos puhutaan niistä raaka/lähdeaineistoista, niin katse kääntyy niiden alkuperäisten omistajien puoleen ja siten koko asia ei tule kauheasti koskettamaan yhdisteltyjä aineistoja kuin ehkä vain tilastojen osalta. Ja niitä voidaan syöttää nettiin lisää, mutta silloin ei ehkä päästä avoimesti koskaan sellaisten yhdistettyjen tietojen lähteelle, joilla olisi oikeasti kunnollista käyttöarvoa.

jaanahuhta commented on posted to #qaikusourcing 07.07.2011 (fi)

apoikola  

Tämä keskusteluhan on lähtenyt hyvässä mielessä iloisesti lapasesta :)

@jaanahuhta kiteyttää mielestäni olennaisen tämän termikysymyksen ytimessä, kun kontekstina on julkishallinnon (ja miksei muidenkin toimijoiden) avoin data ja siinä yhteydessä datasetit:

"Viranomaisten keräämiä tietoja halutaan avoimiksi, mutta mä en aina oikein hiffaa, että mistä tasosta ja vaiheesta ollaan kiinnostuneita."

Kovin moni muukaan ei hiffaa ja tieto- / data-terminologia hämää myös.

Oma ajatustapani avoimesta datasta puhuttaessa on, että data on raaka-ainetta, jonka jalostusketjut eivät ole suoraviivaisia ja yksioikoisia.

Se, mikä voi jollekin olla lopputuotettta, informaatiota, kenties tietoa(?), vaikkapa valmis tilastoaineisto, voi olla jossain toisessa yhteydessä "vain" dataa, jota yhdistellään muuhun dataan, suodatetaan, visualisoidaan jne. ja syntyy jotain, joka edelleen voi toimia raaka-aineena johonkin muuhun.

Näin ollen, ei ole olemassa jotain tiettyä "tasoa" tai jalostusastetta, jonka ylittävää tai alittavaa julkishallinnon tietoa pyritään avaamaan, vaan yleisesti ottaen kaikki käy :) Kuitenkin niin, että mieluiten data avattaisiin lähellä sen syntypaikkaa, eikä ainoastaan monen muokkauskerroksen jälkeen, jolloin dataa on jo voinut hävitä matkalla (olkoonkin, että informaatioarvo on lisääntynyt).

Parempi tietysti edelleen, että kun dataa jalostetaan ja siivotaan ja päästään "roskavaiheesta" eteenpäin, niin myös näiden tekojen jälkeen muokattu data voitaisiin avata, jolloin jatkokäyttäjällä olisi valittavanaan raakadata (mahdollisesti rikkaampi aineisto) ja jo käsitelty data (mahdollisesti helpommin käytettävä).

Takaisin kysymykseen, eli mikä se datasetti nyt sitten olikaan..? Sillä viitataan niihin "datoihin" ( kuten @cami totesi, näin ei voi taivuttaa ), joita avataan. Esimerkiksi taannoin vaalien alla Hesari julkaisi vaalikoneen "datat" avoimena... käytännössä yksi iso csv-tiedosto, jossa monta riviä ja monta saraketta. Minä pitäisin tätä yksittäistä julkaisun kohdetta datasettinä?

apoikola commented on posted to #qaikusourcing 07.07.2011 (fi)

jal  

Joka ei tiedä, eikä tiedä ettei tiedä, on narri. Vältä häntä.
Joka ei tiedä, mutta tietää ettei tiedä, on etsijä. Auta häntä.
Joka tietää, muttei tiedä että tietää, nukkuu. Herätä hänet.
Joka tietää, ja tietää että tietää, on mestari. Seuraa häntä.

(Tuli vain mieleen tiedosta ja tietämisestä. Googletin, kuten "Pinnalliset" tekevät, ja löysin mm. tämän: ‘‘Tietämisen portaat’’ nimetään usein seuraavasti: data, informaatio, tieto, ymmärrys ja viisaus.)

Edit: sillä aikaa kun näpyttelin tämän, @apoikola kirjoitti lapasesta lähtö -viestinsä:-)

jal commented on posted to #qaikusourcing 07.07.2011 (fi)

ubiq  

Huomioiden kaiken muunkin englannismin nyky-Suomessa, varmaan datasetti olisi varmaan ihan kelpoisa :) mitä oppaankin yhteydessä mähkittiin. Lähinnä tulee mieleen datajoukko ja dataluettelo, joista ensimmäinen on lähes siedettävä, muttei erityisen hyvä sekään.

Sinänsä kyllä kernaasti jatkaisin tätä syntynyttä yleiskelaa. Ihan hallinnon näkökulmasta löytyy ainakin esm seuraavaa erityyppistä dataa, karkeasti sen muuttuvuus/pysyvyysjärjestyksessä. En edes yritä olla kattava keskellä kesää:

  • (jokseenkin) stabiili data (kuten paikkatieto)
  • tilastot (kuten tuossa ylhäällä todettiin; otos, leikkaus, otanta etc.)
  • rekisterit (joissa on yksi entiteetti, kuten rekisterinumero tai ihminen ja sen ympärillä on aattribuutteja / muuttujia)
  • määräaikainen tai sovitusti vaihtuva data (budjetti, aikataulut)
  • dynaaminen data (kuten sää- ja liikennedata, joissa suurin relevanssi on nykyhetkellä ja ennusteella)
Teknisesti katsoen nuo kaikki voivat olla tietokanta-muodossa. Niin ikään kaikilla noilla voi olla historia (ulottuvuus), jolla silläkin voidaan tehdä kaikenlaista.

ubiq commented on posted to #qaikusourcing 07.07.2011 (fi)

Keskilinkki  

@apoikola @Ile @cami @tts @ConnectIrmeli @ubiq @Mitro @TAir @jaanahuhta @jal Sorry kaikki, että tämä keskustelu on jäänyt huomaamatta, vaikka nämä suomentamisasiat kiinnostavat (http://www.coss.fi/coss-news/avoimen-lahdekoodin-suomentajan-jorma-karvosen-haastattelu).

ATK-sanakirja suomennos sanoille "data set" = "tiedosto"

Keskilinkki commented on posted to #qaikusourcing 07.07.2011 (fi)

Ile  

@Keskilinkki Tiedosto on oikein huonon kuuloinen vaihtoehto. Nyt kun integraatioissa vihdoin päästään pois tiedostojen tekemisestä / siirtelystä / tallentamisesta / parsinnasta, ei datasetit mihikään katoa...

Ile commented on posted to #qaikusourcing 07.07.2011 (fi)

apoikola  

@jal +1 pinnallisille, hyvä kirja, voin lainata tai laittaa book crossing -henkeen kiertoon, jos joku haluaa.

@Keskilinkki tiedosto tuo minulle mieleen jollain tapaan paketoidun "datasetin", joka voidaan sitten vaikka laittaa levyn kulmalle ladattavaksi, kopioida, lähettää sähköpostin liitteenä, tallentaa usb-tikulle tms.

Mikä olisi nimitys sille lähtöaineistolle (jotain terminologiaa tässä on pakko käyttää, vaikka vasta terminologiaa etsinkin), joka sitten tiedostomuodossa tai vaikka kyselyrajapinnan kautta kokonaan tai osissa voidaan jakaa edelleen?

apoikola commented on posted to #qaikusourcing 07.07.2011 (fi)

jal  

@apoikola minulla on hyllyssäni myös, jo luettuna tuo Carrin kirja.

Edellisessä kommentissasi mainitsema iso csv-tiedosto tosiaan kai voisi olla @keskilinkki:n mainitseman ATK-sanakirja -selityksen mukaan data set...

Kun it-toimittajana joskus piti yrittää suomenkielisiä vastineita it-termeille käyttää, niin aika harvoin Atk-sanakirjasta muistelen löytyneen sellaisia, joita kehtasi käyttää:-)

jal commented on posted to #qaikusourcing 07.07.2011 (fi)

Keskilinkki  

@jal Itse olen suomentamisessa lähtenyt siitä, että en yritä keksiä mitään itse vaan käytän ensi sijassa sanakirjan vaihtoehtoa. Vasta sitten kun konteksista ja muusta ilmenee, että kyseessä ei ole paras vaihtoehto, alan etsiä muita vaihtoehtoja.

Monesti eri alojen asiantuntijat korjaavat, jos osoittautuu, etä sanakirjan vaihtoehto ei käy tässä konteksissa.

ATK-sanakirja on kehittynyt vuosien mittaan. Muistan, kuinka 1980-luvulla siellä "data" oli suomennettu sanalla "anne". Tällaiset uudet keksityt termit, jotka eivät vakiintuneet yleiseeen käyttöön, ovat jääneet pois käytöstä ja nykyään siellä on suuri osa mielestäni hyviä ja vakiintuneita termejä. Siksi käytän ensi sijassa niitä. Mutta tietysti ala ja käyttöympäristö muuttuvat ja tulee uusia sanoja ja joskus myös sanojen uudelleenkäyttöä muissa merkityksissä.

Keskilinkki commented on posted to #qaikusourcing 07.07.2011 (fi)

TarjaO  

@apoikola Ehdotan, että datajulkaisu, jos tarkoitetaan aineistoa, joka on annettavissa tai annettu muiden käyttöön ja jatkojalostukseen.

TarjaO commented on posted to #qaikusourcing 08.07.2011 (fi)

Mitro  

Mielestäni se data set on aina valittu joukko jostain isommasta. Jos valinnan tulos tallennetaan, voi se olla tiedosto. Muuten tiedostolle on muu vakiintunut merkityksensä.

Hienoa kelaa kaikilta! Se oli nimenomaan sana informaatio, joka käsitettiin hyvin erilailla eri tietiessä, ping @ubiq. Ihmistieteissä informaatio ei sisällä merkitystä vaan on "raakadataa" kun taas tietojenkäsittelyssä informaatio on data + merkitys.

@jaanahuhta tieto viittaa myös ylempään siis tietoon siitä, miten asiat ovat ja mikä on elämän tarkoitus etc. Tähän keskusteluun tarvittanee kattavuuden vuoksi myös teologi!

@apoikola ja @jaanahuhta kyse ei liene siitä, että kerätty raaka-aine/data/lähtöaineisto olisi data set, eli tässä tapauksessa tarvittava tietojoukko + roskaa. Sillä on ollut jokin muu, joskus jopa historian hämärään jäävä merkitys ja syy, miksi koko aineisto on kerätty/kertynyt alunperin. Se, että siitä poimitaan tietojoukko ei tee lopusta roskaa. Se ei vain ole juuri tässä käyttöyhteydessä tarpeellista.

Mitro commented on posted to #qaikusourcing 08.07.2011 (fi)

Mitro  

BI (Business intelligence) puolella sitten homma lähtee jo reippaasti laajenemaan. @ubiq mainitsee dynaamisen datan. On periaatteessa kahdenlaisia tietokantoja (nyt sitten tietokatnateknisesti, ei merkitysnäkökulmaisesti) nimittäin transaktiokantoja (on-line transaction processing) OLTP ja raportointikantoja (on-line analytical processing) OLAP. Näistä ensimmäiset on dynaamisia ja jälkimmäiset usein suuria tiotvarastoja ja jäykkiä. Dynaamisuudella tarkoitetaan tässä yhteydessä dataan kohdistuvaa muutosmäärää. Transaktiokannoissa on usein vain tämänhetkinen tilanne ja DW (datawarehouse) kannassa voi olla myös aikaulottuvuus mukana.

Osaisikohan @Ile määritellä mikä on Data Mart?

Mitro commented on posted to #qaikusourcing 08.07.2011 (fi)

Mitro  

@TarjaO tuo ehdotuksesi datajulkaisu saattaisi ilmeisesti olla juuri se, mitä @apoikola kaipaa. Se ikäänkuin sisältää merkityksen, että raaka-ainetta data on annettu tietoiseti julkaisu käyttöön ja että käyttöönantaminen on tehty yhdessä muodossa hyödynnettäväksi, eli julkaistu.

Kun tuotan maistelen, niin aivan loistava! @apoikola siinä se on! datajulkaisu

Mitro commented on posted to #qaikusourcing 08.07.2011 (fi)

Ile  

@Mitro Joo, voin yrittää. Kun DW (data warehouse) projekti kusee ja näyttää siltä, että vuosien työn jälkeen mitään ei ole saatu aikaan, aletaan kutsua sitä mitä on olemassa datamartiksi ja sanotaan liiketoiminnalle, että tässä on nyt tämä yksi näkökulma asiaan. No ei :-) Oikeastikin DW voidaan ositella useaan erillisiin datamartteihin: Voi olla, että yrityksen aivan lkaikki data kerätään EDW:hen (enterprise data warehouse), mutta se on liian iso möhkäle raportoitavaksi suoraan (esim. suorituskykysyistä tai sitten siinä on liian karkeat summaustasot tai liian pieni historia). Siitä voidaan koostaa osajoukosta tietoa datamartteihin, jotka ovat esim. osasto-/yritys- tms. kohtaisia osakokonaisuuksia. Nämä datamartit voivat sitten tarjota tarkempaa tiedon tasoa pidemmältä aikajaksolta.

DW ja DM voivat olla taikasanoja datanavauksessa. Jos jollekin yritykselle ehdottaa datanavausta, voi vastauksena olla "meidän tietojärjestelmät eivät kestä ko. kuormaa" (puhutaan silloin usein noista OLTP-kannoista) tai pääsynhallinnat / yksityisyydensuoja-asiat tms. ovat esteenä.

Siinä vaiheessa kannattaa kysyä, löytyykö tiedot raportointikannasta / DW:stä / datamarteista? Nämä raportointikannat ovat usein luonteeltaan paljon lähempänä sitä, mitä haluttaisiin datanavauksen avulla julkaista. Näiden DW-systeemien kyljessä on myös raportointimoottorit (esim. Cognos, BO=Business Objects), joissa on triviaalia tehdä halutunlaisia raporrtteja jotka ajastetaan + automaattijulkaistaan. Esim. Cognoksella on 15 minuutin homma tehdä seuraava:

1) Meillä on järjestelmässä rapotti XXX joka on liiketoiminnan käytössä. Ko. raportti on kooste DW-kannan tiedoista ja se avautuu yrityksen intranetistä html-, pdf- tai excel muodossa
2) Tehdään ajastus, jossa samainen raportti ajetaan kerran tunnissa, output muoto on xml ja raportti tallennetaan verkkolevylle
3) Tehdään ajastus, joka kopioi ko. XML:n secure copyllä ulkoverkossa olevan palvelimen staattiseen webbikansioon

Näin saatiin aikaan datajulkaisu halutusta datajoukosta ilman, että liian tarkat tiedot karkaavat ulos ja olisi aiheutettu liikaa kuormaa yrityksen operatiivisille järjestelmillä.

Ile commented on posted to #qaikusourcing 08.07.2011 (fi)

jaanahuhta  

@Mitro Mikä olisi parempi nimi kuvaamaan "tiedonkeruuta"? Erilaisiin tiedonkeruisiin annettu syöte on yleensä kaikkea muuta kuin "oikeaa tietoa". Se on usein valinta vähimmän väärän vaihtoehdon välillä, arvausta, luuloa, tahallista harhaanjohtamista....
Tarkoitan, että tuossa vaiheessa se ei ainakaan ole tietoa vastaanottajan(kaan) näkövinkkelistä katsottuna.

jaanahuhta commented on posted to #qaikusourcing 08.07.2011 (fi)

jal  

Ja sitten, vaikka termeistä an sich olisikin päästy jonkinlaiseen yksimielisyyteen, ollaan edelleen samassa de facto -ongelmassa: mitä kukin ymmärtää minkin termin pitävän sisällään...

jal commented on posted to #qaikusourcing 08.07.2011 (fi)

ConnectIrmeli  

@jal Niin kuin esim. tuo mielenkiintoinen kehitelmä tietääkö siitä, ettei tiedä vai ei... Olen löytänyt sen tällaisessa muodossa joitakin vuosia sitten ja ymmärtänyt portaat näin:

1) Ei tiedä ettei tiedä <= tarvitsee apua ja herättelyä
2) Tietää ettei tiedä => muuntuu etsijäksi ja auttaa toisia
3) Tietää että tietää => raportoi ja kirjaa ja jakaa löytämäänsä
4) Ei tiedä, että tietää <= tietämisen mustasta vyöstä dan -asteisiin; pitkälle harjoitettu tietoisuus ja intuition hyödyntäminen hallussa

Tällainen "kevyempi" lähde edelliseen on: The Conscious Competence Ladder, Making learning a happier experience http://www.mindtools.com/pages/articl...

Mulla on jossain kätköissä tieteellisempikin lähde, muttei äkkiseltään löydy. W.B. Gudykunst on tutkijan nimi. Täytyypäs palata tuohon tikapuuhun taas!

ConnectIrmeli commented on posted to #qaikusourcing 08.07.2011 (fi)

jal  

@ConnectIrmeli heh, viittaan aikaisempaan omaan kommenttiini tässä ketjussa; taisi olla jotain arabialaista viisautta.

jal commented on posted to #qaikusourcing 08.07.2011 (fi)

apoikola  

@TarjaO datajulkaisu on erittäin hyvä ja käyttökelpoinen termi - suomenkielinen avoimen datan kenttä kiittää ja kumartaa ainakin, jos minulta kysytään. Ja uudissanasta taitaa olla kysymys, koska ainakaan google ei näytä kovin relevantteja hittejä.

Itse olen jotenkin kömpelösti tainnut tähän mennessä kirjoittaa "julkaistuista tietoaineistoista", huh...

Varsinaisesti tämä ei ehkä kuitenkaan vielä ratkaise sitä datasetin suomennoksen ongelmaa, sillä mitä ovat ne datasetit, joita ei vielä ole julkaistu? Datasetit joita vasta ehkä mietitään julkaistavaksi tai kenties julistetaan salaisiksi?

Mitä tykkäätte @ubiq @pe3 @hyvaelama @Ile ja muut, vakiintuuko datajulkaisu sanana käyttöön? Hyvänä puolena esim. tilastokeskukselle ja monen monelle muullekin jo ennestään julkaisujen tekoon tottuneelle organisaatiolle olisi omaksua datajulkaisu muiden dataan pohjautuvien julkaisujen, kuten tilastokatsausten kaveriksi.

apoikola commented on posted to #qaikusourcing 08.07.2011 (fi)

Ile  

@apoikola Minä ainakin otan datajulkaisun käyttöön :-) Oisko se vaikka niin, että julkaisematon data on data-aineistoa?

Ile commented on posted to #qaikusourcing 08.07.2011 (fi)

jaanahuhta  

@apoikola Julkaisu / julkistus?

jaanahuhta commented on posted to #qaikusourcing 08.07.2011 (fi)

Ile  

@jaanahuhta Minusta julkistus viittaa siihen tapahtumaan, jonka tuotteena on datajulkaisu..

Ile commented on posted to #qaikusourcing 08.07.2011 (fi)

jaanahuhta  

@Ile Mut esim. Tilastokeskuksessa ne ovat tilastojulkistuksia, ei julkaisuja.

jaanahuhta commented on posted to #qaikusourcing 08.07.2011 (fi)

TarjaO  

@apoikola Runoilija palveluksessanne :) Datajulkaisu tosin taitaa kääntyä takaisin englanniksi data release.

TarjaO commented on posted to #qaikusourcing 09.07.2011 (fi)

apoikola  

@TarjaO ... vai data publication?

@jaanahuhta en ole mikään tilastonikkari ja siksi oma kommenttini julkaisu / julkistus -kysymykseen on täsmälleen sama, kuin @Ile :llä

apoikola commented on posted to #qaikusourcing 10.07.2011 (fi)

apoikola  

ja vielä @Ile data-aineisto olisi verrannollinen jo melko paljon käytettyyn tietoaineistoon, kävisi minulle kyllä.... ainakin makustelen asiaa.

apoikola commented on posted to #qaikusourcing 10.07.2011 (fi)

Mitro  

@jaanahuhta Ongelmasi tiedonkeruun saralla on kaksiosainen. Ensimmäisessä ei ole ongelmaa, jos se ymmärretään tietojärjestelmien näkökulmasta. Tällöin tietoa, eli dataa, keräävät skannerit ja erilaiset määrämuotoiset jutut, eikä mainitsemaasi ongelmaa ole. Jos sitten kerätään vapaamuotoista tietoa, meillä on tuo mainitsemasi ongelma. Sanoisin tätä jälkimmäistä haastatteluksi tai aineiston keruuksi (tutkimustarkoituksessa). Ensimmäiseen tiedonkeruu lienee oikea termi. Tieto kertyy (operatiiviseen) tietokantaan.

Tilastokestus saa julkistaa, muille se on yleiskielellä julkaisu. Vertautuu issue.

Mitro commented on posted to #qaikusourcing 13.07.2011 (fi)

jaanahuhta  

@Mitro Aineistonkeruu olisi munkin mielestä osuvampi, Nyt käytetään tiedonkeruuta. Se antaa jotenkin kuvan siitä, että kerätään samaa tietoa, jota työnnetään ulos. Ja niin moni oikeastikin kuvittelee. (Miksi tuntuu luontevammalta kirjoittaa aineiston keruu erikseen, mutta tiedonkeruu yhteen?)

jaanahuhta commented on posted to #qaikusourcing 13.07.2011 (fi)

Login or register to leave a comment

Publicity
These messages are public and can be seen by anyone.