Omat tiedot on voinut jo vuosien ajan ladata some-palveluista, mutta nykyisin sama onnistuu myös Amazon-verkkokaupasta. Sivulta www.amazon.com/hz/privacy-central/data-requests/preview.html löytyy painike, jolla voi ladata joko halutun osa-alueen tiedot tai kaiken mahdollisen.
Request your data. |
Valitsin kaiken mahdollisen ja parin päivän kuluttua tulikin ilmoitus, että tiedot ovat ladattavissa ja paketin koko on 1 Gt.
Paketin koko lähes 2 GB. |
Vaikka ilmoitus mainitsee yhden gigan, luku on pyöristetty alaspäin ja tiedostokoko oli 1,98 gigatavua. Se ei ole ihme, sillä olen ollut Amazonin asiakas heinäkuusta 1996 lähtien ja tilannut vuosien mittaan kaikenlaista. Olen myös tuonut USA:sta useamman Alexa-laitteen - älykaiuttimen, joka tottelee puhuttuja komentoja. Tietääkseni niitä ei vieläkään myydä Suomessa, toisin kuin vastaavaa Googlen laitetta.
Lähes kahden gigan zip-paketti on valtava, mutta jaettu siististi kansioihin. Tiedostot ovat lähinnä csv-muotoisia, mukana muutama json ja tilauksista PDF-tiedostoja.
Olen käynyt läpi tiedostoja vain pintapuolisesti, mutta niistä tulee sama havainto kuin vastaavista kotimaisista tietopyynnöistä: dataa ehtii kertyä vuosien mittaan valtavia määriä ja osa siitä on eri tietojärjestelmissä, mikä tekee datasta hajanaista ja vaikeuttaa täyden historian profilointia.
Muutama Prime-elokuvakin tullut katsottua. |
Joka tapauksessa vasta kun saa kaiken eteensä valtavina Excel-taulukkoina ymmärtää, miten suuren digitaalisen jalanjäljen meistä jokainen nykyään luo. Amazon on tietolouhinnan ässä, mutta en usko senkään pystyvän hyödyntämään kuin murto-osan tiedoista. Suomi ei sen näkökulmasta ole edes kiinnostava paikka, monet laskentamallit ovat pelkkiä pohjia, koska näitä palveluita ei Suomessa tarjota.
Tiedoissa on paljon kenttiä, joiden keräämistä voi perustella esim. teknisen tuen tarpeilla, mutta yhtä hyvin niitä voisi väittää ei-välttämättömiksi ja silloin kerääminen on turhaa.
Oma ostohistoria löytyy Amazonista muutenkin, joten se ei ollut kovin kiinnostava. Odotin löytäväni laajan profiilin, jonka perusteella kohdistetaan mainoksia, mutta löysin vain muutamia listoja aiheista, joista olen ollut kiinnostunut (vähän Twitterin ja Facebookin tapaan). Osa listoista oli ihan metsässä ("leukemia and lymphoma society", "Saatva Mattress"). Ehkä suomalaisia ei profiloida tämän paremmin tai sitten profiilitietoja ei tallenneta pysyvästi, jolloin niitä ei myöskään tarvitse toimittaa kysyjälle?
Eikä tämäkään AdvertisingAmazonAudiences.csv-tiedosto näytä kovin paljastavalta:
Amazon Audiences in which you are included
In-Market:Books & Magazines
In-Market:Books & Magazines:Computers & Internet
In-Market:Books & Magazines:Computers & Technology
In-Market:Books & Magazines:Education Studies & Teaching
In-Market:Books & Magazines:Science, Nature & Math
In-Market:Books & Magazines:Textbooks & Study Guides
In-Market:Business & Industrial:Office Products
In-Market:Software & Apps:Software
In-Market:Video Entertainment
Lifestyle:Business & Industry
Lifestyle:Entertainment:Music
Lifestyle:Video Entertainment
Observation,Date,Expiration Date,Reward Id
COOLDOWN,2024-12-16T01:12:12.318Z,2024-12-30T01:12:12.318Z,729b0c3f-60b1-4fa1-b000-82e32d331b6e
MISSION-EXPIRED,2024-12-01T01:12:11.830Z,Not Applicable,729b0c3f-60b1-4fa1-b000-82e32d331b6e
LOOP_CREATED-CONTROL,2024-10-23T11:58:06.036Z,2024-12-25T11:58:06.036Z,adf633d2-3b4a-4a96-ac3b-8010a09c9e3e
COOLDOWN,2024-10-08T10:12:12.070Z,2024-10-23T10:12:12.070Z,adf633d2-3b4a-4a96-ac3b-8010a09c9e3e
MISSION-Pending,2024-10-02T00:30:30.864Z,Not Applicable,729b0c3f-60b1-4fa1-b000-82e32d331b6e
MISSION_END_DATE_UPDATED,2024-10-02T00:30:30.864Z,2024-12-01T00:30:30.864Z,729b0c3f-60b1-4fa1-b000-82e32d331b6e
LOOP_CREATED-TREATMENT,2024-10-02T00:30:30.864Z,2024-12-16T00:30:30.864Z,729b0c3f-60b1-4fa1-b000-82e32d331b6e
CUSTOMER_TARGETED,2024-10-01T23:10:24.661Z,Not Applicable,b89bcb84-0093-42f6-b2f1-0a1b25802f8e
CUSTOMER_TARGETED,2024-10-01T23:04:45.604Z,Not Applicable,729b0c3f-60b1-4fa1-b000-82e32d331b6e
LOOP_CREATED-CONTROL,2024-08-06T09:03:08.577Z,2024-10-08T09:03:08.577Z,adf633d2-3b4a-4a96-ac3b-8010a09c9e3e
CUSTOMER_TARGETED,2024-07-30T23:09:28.124Z,Not Applicable,adf633d2-3b4a-4a96-ac3b-8010a09c9e3e
LOOP_CREATED-CONTROL,2024-06-20T12:17:10.928Z,2024-07-15T22:59:59Z,40df975a-344b-43c7-8852-a569c297846d
CUSTOMER_INCLUDED,2024-06-14T23:48:16.131Z,Not Applicable,40df975a-344b-43c7-8852-a569c297846d
COOLDOWN,2024-06-05T11:12:12.173Z,2024-06-20T11:12:12.173Z,40df975a-344b-43c7-8852-a569c297846d
MISSION-EXPIRED,2024-05-19T11:12:11.891Z,Not Applicable,40df975a-344b-43c7-8852-a569c297846d
CUSTOMER_EXCLUDED,2024-04-06T23:50:18.155Z,Not Applicable,40df975a-344b-43c7-8852-a569c297846d
HVAS_COMPLETED,2024-04-05T02:38:24.468Z,Not Applicable,40df975a-344b-43c7-8852-a569c297846d
MISSION-Pending,2024-04-03T10:32:55.659Z,Not Applicable,40df975a-344b-43c7-8852-a569c297846d
LOOP_CREATED-TREATMENT,2024-04-03T10:32:55.659Z,2024-06-05T10:32:55.659Z,40df975a-344b-43c7-8852-a569c297846d
MISSION_END_DATE_UPDATED,2024-04-03T10:32:55.659Z,2024-05-19T10:32:55.659Z,40df975a-344b-43c7-8852-a569c297846d
CUSTOMER_TARGETED,2024-03-16T00:07:12.411Z,Not Applicable,40df975a-344b-43c7-8852-a569c297846d
Kiinnostavimpia olivat Alexaan liittyvät tiedot. Amazon on nimittäin tallentanut kaikki sille antamani käskyt ja kyselyt, vieläpä pakkaamattomina wav-tiedostoina. Ja niitä oli tuhansia, sillä olen käyttänyt Alexaa ohjaamaan kodin valoja, aamun herätyskelloa ja ajastinta.
Mikä erikoisinta, äänitteistä oli mukana aina myös alkuperäinen "Alexa!" herätyssana (wake word). Sehän tarkoittaa, että Alexan täytyy kuunnella ja tallentaa ääntä koko ajan, vaikka sitä ei lähetettäisi mihinkään. Jos tallennus alkaisi vasta sisäänrakennetun wake wordin tullessa, ensimmäinen sekunti olisi jo menetetty. Hmmm.
Äänitteet ovat niin täydellisiä, että nyt kuunnteltuina ne aktivoivat aina Alexan tekemään saman asian.
Ennen tekoälyn läpilyöntiä käytin Alexaa myös monissa demoissa. Näiden äänitteiden kuuntelu kertoo, miten vaikeaa puheentunnistaminen on. Tilojen akustiikka ja taustahäly vaihtelevat suuresti, mikä tekee tulkinnan ihmiskorvallekin vaikeaksi.
Vuosien takaisten äänikomentojen ja niihin saatujen vastausten kuuleminen yhdessä niistä purettujen tekstien kanssa havainnollistaa sitä valtavaa tietomäärää, jota tekoälypalvelut keräävät ja käyttävät itsensä kouluttamiseen.
Se kannattaa aina muistaa, kun palveluita käyttää.
Ei kommentteja:
Lähetä kommentti