perjantai 27. joulukuuta 2024

Alexa kuuntelee ja Amazon muistaa - kaikki on tallessa

Omat tiedot on voinut jo vuosien ajan ladata some-palveluista, mutta nykyisin sama onnistuu myös Amazon-verkkokaupasta. Sivulta www.amazon.com/hz/privacy-central/data-requests/preview.html löytyy painike, jolla voi ladata joko halutun osa-alueen tiedot tai kaiken mahdollisen. 

Request your data.

Valitsin kaiken mahdollisen ja parin päivän kuluttua tulikin ilmoitus, että tiedot ovat ladattavissa ja paketin koko on 1 Gt. 

Paketin koko lähes 2 GB.

Vaikka ilmoitus mainitsee yhden gigan, luku on pyöristetty alaspäin ja tiedostokoko oli 1,98 gigatavua. Se ei ole ihme, sillä olen ollut Amazonin asiakas heinäkuusta 1996 lähtien ja tilannut vuosien mittaan kaikenlaista. Olen myös tuonut USA:sta useamman Alexa-laitteen - älykaiuttimen, joka tottelee puhuttuja komentoja. Tietääkseni niitä ei vieläkään myydä Suomessa, toisin kuin vastaavaa Googlen laitetta.

Lähes kahden gigan zip-paketti on valtava, mutta jaettu siististi kansioihin. Tiedostot ovat lähinnä csv-muotoisia, mukana muutama json ja tilauksista PDF-tiedostoja.

Olen käynyt läpi tiedostoja vain pintapuolisesti, mutta niistä tulee sama havainto kuin vastaavista kotimaisista tietopyynnöistä: dataa ehtii kertyä vuosien mittaan valtavia määriä ja osa siitä on eri tietojärjestelmissä, mikä tekee datasta hajanaista ja vaikeuttaa täyden historian profilointia. 

Muutama Prime-elokuvakin tullut katsottua.

Joka tapauksessa vasta kun saa kaiken eteensä valtavina Excel-taulukkoina ymmärtää, miten suuren digitaalisen jalanjäljen meistä jokainen nykyään luo. Amazon on tietolouhinnan ässä, mutta en usko senkään pystyvän hyödyntämään kuin murto-osan tiedoista. Suomi ei sen näkökulmasta ole edes kiinnostava paikka, monet laskentamallit ovat pelkkiä pohjia, koska näitä palveluita ei Suomessa tarjota.

Tiedoissa on paljon kenttiä, joiden keräämistä voi perustella esim. teknisen tuen tarpeilla, mutta yhtä hyvin niitä voisi väittää ei-välttämättömiksi ja silloin kerääminen on turhaa.

Oma ostohistoria löytyy Amazonista muutenkin, joten se ei ollut kovin kiinnostava. Odotin löytäväni laajan profiilin, jonka perusteella kohdistetaan mainoksia, mutta löysin vain muutamia listoja aiheista, joista olen ollut kiinnostunut (vähän Twitterin ja Facebookin tapaan). Osa listoista oli ihan metsässä ("leukemia and lymphoma society", "Saatva Mattress"). Ehkä suomalaisia ei profiloida tämän paremmin tai sitten profiilitietoja ei tallenneta pysyvästi, jolloin niitä ei myöskään tarvitse toimittaa kysyjälle?

Eikä tämäkään AdvertisingAmazonAudiences.csv-tiedosto näytä kovin paljastavalta:

Amazon Audiences in which you are included

In-Market:Books & Magazines

In-Market:Books & Magazines:Computers & Internet

In-Market:Books & Magazines:Computers & Technology

In-Market:Books & Magazines:Education Studies & Teaching

In-Market:Books & Magazines:Science, Nature & Math

In-Market:Books & Magazines:Textbooks & Study Guides

In-Market:Business & Industrial:Office Products

In-Market:Software & Apps:Software

In-Market:Video Entertainment

Lifestyle:Business & Industry

Lifestyle:Entertainment:Music

Lifestyle:Video Entertainment

Tiedosto CustomerObservations.csv oli vähän mielenkiintoisempi, jos sitä osaisi tulkita:

Observation,Date,Expiration Date,Reward Id

COOLDOWN,2024-12-16T01:12:12.318Z,2024-12-30T01:12:12.318Z,729b0c3f-60b1-4fa1-b000-82e32d331b6e

MISSION-EXPIRED,2024-12-01T01:12:11.830Z,Not Applicable,729b0c3f-60b1-4fa1-b000-82e32d331b6e

LOOP_CREATED-CONTROL,2024-10-23T11:58:06.036Z,2024-12-25T11:58:06.036Z,adf633d2-3b4a-4a96-ac3b-8010a09c9e3e

COOLDOWN,2024-10-08T10:12:12.070Z,2024-10-23T10:12:12.070Z,adf633d2-3b4a-4a96-ac3b-8010a09c9e3e

MISSION-Pending,2024-10-02T00:30:30.864Z,Not Applicable,729b0c3f-60b1-4fa1-b000-82e32d331b6e

MISSION_END_DATE_UPDATED,2024-10-02T00:30:30.864Z,2024-12-01T00:30:30.864Z,729b0c3f-60b1-4fa1-b000-82e32d331b6e

LOOP_CREATED-TREATMENT,2024-10-02T00:30:30.864Z,2024-12-16T00:30:30.864Z,729b0c3f-60b1-4fa1-b000-82e32d331b6e

CUSTOMER_TARGETED,2024-10-01T23:10:24.661Z,Not Applicable,b89bcb84-0093-42f6-b2f1-0a1b25802f8e

CUSTOMER_TARGETED,2024-10-01T23:04:45.604Z,Not Applicable,729b0c3f-60b1-4fa1-b000-82e32d331b6e

LOOP_CREATED-CONTROL,2024-08-06T09:03:08.577Z,2024-10-08T09:03:08.577Z,adf633d2-3b4a-4a96-ac3b-8010a09c9e3e

CUSTOMER_TARGETED,2024-07-30T23:09:28.124Z,Not Applicable,adf633d2-3b4a-4a96-ac3b-8010a09c9e3e

LOOP_CREATED-CONTROL,2024-06-20T12:17:10.928Z,2024-07-15T22:59:59Z,40df975a-344b-43c7-8852-a569c297846d

CUSTOMER_INCLUDED,2024-06-14T23:48:16.131Z,Not Applicable,40df975a-344b-43c7-8852-a569c297846d

COOLDOWN,2024-06-05T11:12:12.173Z,2024-06-20T11:12:12.173Z,40df975a-344b-43c7-8852-a569c297846d

MISSION-EXPIRED,2024-05-19T11:12:11.891Z,Not Applicable,40df975a-344b-43c7-8852-a569c297846d

CUSTOMER_EXCLUDED,2024-04-06T23:50:18.155Z,Not Applicable,40df975a-344b-43c7-8852-a569c297846d

HVAS_COMPLETED,2024-04-05T02:38:24.468Z,Not Applicable,40df975a-344b-43c7-8852-a569c297846d

MISSION-Pending,2024-04-03T10:32:55.659Z,Not Applicable,40df975a-344b-43c7-8852-a569c297846d

LOOP_CREATED-TREATMENT,2024-04-03T10:32:55.659Z,2024-06-05T10:32:55.659Z,40df975a-344b-43c7-8852-a569c297846d

MISSION_END_DATE_UPDATED,2024-04-03T10:32:55.659Z,2024-05-19T10:32:55.659Z,40df975a-344b-43c7-8852-a569c297846d

CUSTOMER_TARGETED,2024-03-16T00:07:12.411Z,Not Applicable,40df975a-344b-43c7-8852-a569c297846d

Kiinnostavimpia olivat Alexaan liittyvät tiedot. Amazon on nimittäin tallentanut kaikki sille antamani käskyt ja kyselyt, vieläpä pakkaamattomina wav-tiedostoina. Ja niitä oli tuhansia, sillä olen käyttänyt Alexaa ohjaamaan kodin valoja, aamun herätyskelloa ja ajastinta.

Mikä erikoisinta, äänitteistä oli mukana aina myös alkuperäinen "Alexa!" herätyssana (wake word). Sehän tarkoittaa, että Alexan täytyy kuunnella ja tallentaa ääntä koko ajan, vaikka sitä ei lähetettäisi mihinkään. Jos tallennus alkaisi vasta sisäänrakennetun wake wordin tullessa, ensimmäinen sekunti olisi jo menetetty. Hmmm.

Äänitteet ovat niin täydellisiä, että nyt kuunnteltuina ne aktivoivat aina Alexan tekemään saman asian. 

Ennen tekoälyn läpilyöntiä käytin Alexaa myös monissa demoissa. Näiden äänitteiden kuuntelu kertoo, miten vaikeaa puheentunnistaminen on. Tilojen akustiikka ja taustahäly vaihtelevat suuresti, mikä tekee tulkinnan ihmiskorvallekin vaikeaksi.

Vuosien takaisten äänikomentojen ja niihin saatujen vastausten kuuleminen yhdessä niistä purettujen tekstien kanssa havainnollistaa sitä valtavaa tietomäärää, jota tekoälypalvelut keräävät ja käyttävät itsensä kouluttamiseen.

Se kannattaa aina muistaa, kun palveluita käyttää.

Ei kommentteja: