sunnuntai 15. huhtikuuta 2018

Facebookin pelätty algoritmi onkin ihan tyhmä

Facebookin sanotaan urkkivan kaikki tietomme ja käyttävän niitä mainontaan. Mutta miten hyvin Facebook profiloi meidät? Ei lainkaan hyvin, jos on uskominen sen itsensä näyttämiin tietoihin.

Tiedot näkyvät Facebookin mainosasetuksista, joihin pääsee myös valikosta Asetukset > Mainokset. Sivu näyttää, mistä mainostajista olet tykännyt ja kenen sivuilla olet vieraillut. Lisäksi alakohta Omat tietosi > Omat luokkasi näyttää, miten Facebook on sinut luokitellut mainontaa varten.

Tämä on nyt se kuuluisa ja pelottava urkintakohta. Mutta lista ei näytä lainkaan ihmeelliseltä -- itselläni se on tämän näköinen:

Näinkö vähän Facebook tietää?
Näytä lisää -painike avaa vielä muutaman lisäkohdan, jotka ovat yhtä vaarattoman näköisiä (tyyliin Mobiililaitteen käyttäjä yli 25 kk).

Herää epäilys, että olen vain suojannut tietoni tavallista paremmin urkintaa vastaan, mutta Ilta-Sanomien jutun perusteella muiden tiedot eivät ole yhtään sen osuvampia. Oletko nähnyt tätä hyvin piilotettua valikkoa? Näin Facebook profiloi sinut, sanoo Ilta-Sanomat (mistähän ovat keksineet, että valikko on hyvin piilotettu?). Jutussa oleva näyttö on samaa tasoa itseni kanssa.

Facebook siis tietää, että käytän mobiilisovellusta ja että käytössäni on Samsung S7-puhelin. Sen lisäksi Facebook luulee, että kuulun luokkaan "Jalkapallon ystävät", mikä ei lainkaan pidä paikkaansa. En ole koskaan katsellut yhtään kokonaista jalkapallo-ottelua. Kumma kyllä Facebook on tehnyt samanlaisen merkinnän myös Ilta-Sanomien esimerkin sivulle ("Jalkapallofanit (korkea sitoutuminen sisältöön)").

Meillä molemmilla on myös luokitus Ekspatriaattien läheiset kaverit. Ilmeisesti kavereissamme on useita ulkomailla asuvia suomalaisia, joista merkintä on tullut.

Siinä se. Facebookin yksityisyyttä uhkaava algoritmi ei ole pystynyt päättelemään mitään järkevää. Pitäisi olla melkein pettynyt. Ilmankos mainokset ovat mitä sattuu.

Asialle on kaksi vaihtoehtoista selitystä:

A) Facebookilla on meistä piilotettua tietoa, joka ei näy mainosasetuksissa. Zuckerberg siis valehteli viime viikon kuulemisissa kun väitti, ettei mitään varjoprofiileita olisi.

B) Facebookin algoritmit eivät seuraa suomalaisia kovin tarkasti. Olemme liian pieni markkina-alue eikä suomenkielisten päivitysten analysointi onnistu tai kannata. Ilmeisesti jenkkikäyttäjien kohdalla luokitukset ovat laajempia ja täsmällisempiä? Foxin uutisen mukaan Facebook jopa arvioi, onko käyttäjä enemmän demokraatti vai republikaani. Jos joku on rekisteröinyt itsensä Yhdysvaltojen Facebookiin ja omistaa lukuisia amerikkalaisia kavereita, olisi kiinnostavaa tietää löytyykö listalta tällainen luokka ja onko sen tieto oikea.

Ilmeisesti suomalaisten ei kuitenkaan tarvitse olla kovin huolissaan Facebookin seurannasta. Luultavasti luokitukseen vaikuttaa kansainvälisten brändien mainosten tykkääminen ja jakaminen, koska ne on helppo tunnistaa kielestä riippumatta, sekä tietenkin itse palvelulle kerrotut henkilötiedot ja kiinnostuksen kohteet.

Mainosasetukset-otsikon alla on kohta Sivustojen ja sovellusten käyttöön perustuvat mainokset, joka on oletusarvona Kyllä. Sen yhteydessä on valinta Näytä selainkäyttäytymiseen perustuvaa kohdennettua verkkomainontaa, joka ilmeisesti säätelee Facebookin ulkopuolisesta surffailusta kertyvää mainosdataa. Jos sen asettaa arvoon Ei, surffailun Facebookin ulkopuolella ei pitäisi vaikuttaa mainoksiin. Ei siis enää loputtomia vaate-, kodinkone- ja matkamainoksia, jos on kerrankin hakenut näistä jotain Googlella.

Miltä oma mainosprofiilisi näyttää? Onko Facebook onnistunut keräämään sinusta oikeasti merkittäviä tietoja?

20 kommenttia:

Mikko kirjoitti...

Ei ole Jalkapallon ystäviä täällä. En harrasta lainkaan penkkiurheilua ja jalkapallo-otteluita en ole katsonut koskaan edes osittain.

Sen sijaan löytyy "Housemate-based households" ("People living in households where one or more people are not immediate or extended family"), joka ei pidä lainkaan paikkaansa.

Mitään muita erikoisempia ryhmiä ei ole.

Petteri Järvinen kirjoitti...

Ilmeisesti sama luokitus, joka näkyy suomeksi "Kämppäkaveripohjaiset kotitaloudet" Ilta-Sanomien kuvassa. Näiden tietojen valossa Facebookin urkinta ei tunnu selvittävän edes perusasioita.

Anonyymi kirjoitti...

Facebookin käyttöliittymästä ei voi päätellä, mitä tietoja kerätään tai mitä backend tekee. Uskon, että yksityisyysasetuksilla ei voi vaikuttaa yhtiön keräämään dataan. Kaikki tieto ja data otetaan talteen. Asetukset vastaavat jalankulkijoiden liikennevalojen nappia, joka ei oikeasti nopeuta valon vaihtumista vihreäksi. Placebo-efektin vuoksi nappi antaa vaikutelman, että käyttäjä hallitsee prosessia.

petrip kirjoitti...

Vaikea uskoa etteikö tietoa olisi enemmän. Muutama pikkutieto osuu kohdalleen mutta tosi vähän siellä mitään oli

Petteri Järvinen kirjoitti...

Mahdollisesti Zuckerberg valehteli varjoprofiileista. Senaatille ja kongressille valehtelu on sinällään vakava asia. Oudolta tuntuu, ettei Facebook tallentaisi surffaustietoja ulkopuolisista palveluista. Ne eivät näy itselle ladattavissa tiedoissa, joten missä ne ovat? Vai eikö niilläkään pysty luokittelemaan käyttäjiä tämän paremmin? Jokin tässä mättää.

Anonyymi kirjoitti...

@Petteri

Miksi Zuckerberg olisi puhunut muunnettua totuutta varjoprofiileista valaehtoisessa kuulemisessa?

Minusta on aivan selvää mitä ja miten he keräävät muistakin tietoja. Heille kertyy väistämättäkin tietoja niistäkin käyttäjistä, jotka eivät ole FB:n käyttäjäksi ryhtyneitä kun ihmiset surfailevat webissä ja sivuilla on niitä heidän peukutuksen mahdollistavia pieniä kuvia juttujen ja kommenttien vieressä.

Selain lataa ne Facebookin palvelimilta. Selain välittää HTTP referer -tiedon heille latauksen yhteydessä. Se talletetaan ja samalla asetetaan selaimeen yksilöllinen Cookie hyvin pitkällä vanhenemisajalla ja koko ajan käyttäen Cache-Control: no-cache asetusta. Näin selain hakee sen joka kerta heiltä erikseen eikä vain välimuistista.

Kun käyttäjä jolla on tämä cookie menee toiselle sivulle, niin sama tumppu ladataan jälleen uudestaan ja talletetaan referer tieto jälleen - aha tämä sama käyttäjä ja hän tuli sivulle tuolta sivulta. Joskus 15v sitten tähän käytettiin 1x1 kokoisia läpinäkyviä gif -tiedostoja ja niitä kutsuttiin Web-bugeiksi (viittaus salakuuntelu mikrofoneihin). Sitten tuli some ja niitä ei enää ollut tarvetta piilotella, niille keksittiin hyötykäyttöä ts. viittauksen jakaminen muille.

No mitä hyötyä tästä cookien asettamisesta sitten on Facebookille? Se, että jos/kun käyttäjä myöhemmin erehtyy kirjautumaan jollekin Facebookin kanssa tietoa vaihtavan tahon sivulle tai päättääkin liittyä Facebookin jäseneksi, niin he voivat tuon keksin perusteella yhdistää hänen aiemman selailuhistoriansa tähän käyttäjään. Samalla tavalla jos käyttäjä luo itselleen toisen identiteetin FB:n tai mihin tahansa muuhun jonka kanssa he vaihtavat tietoja tai josta he ostavat tietoja, niin he voivat helposti tunnistaa että kyse on samasta käyttäjästä.

Kaiken tiedon kerääminen ja sen yhdistely voidaan tehdä myös jälkikäteen hyvin pitkälle taaksepäin mikäli käyttäjä on ns. naiivi ja helppo kohde, kuten lähes kaikki tekniikkaa tuntemattomat ja asiasta hieman enemmän tietämättömät käytännössä aina ovat.

Facebookin kannattaa siten kerätä kaikki selailutieto mitä se suinkin saa käsiinsä ja jalostaa siitä sitten profiilia myös liittymättömistä käyttäjistä.

Verkon selailu selainten perusasetuksilla (ilman suojaavia lisäosia, kolmannen osapuolen cookien kieltämistä, välimuistin ja cookien poistamista sivulta poistumisen jälkeen) on verrattavissa tietoliikenteen salaamiseen ilman PFS:n kaltaista järjestelyä -- eli ei kovin turvallista, koska se jättää mahdollisuuden jälkikäteen purkamiseen.

Minusta Zuckerber oli rehellinen ja sanoin asian kuten se on. He keräävät tietoja muistakin ja siitä on heille hyötyä toiminnassa.

Petteri Järvinen kirjoitti...

Zuckerberg sanoi, että tietoja Facebookin ulkopuolelta kerätään tietoturvasyistä. Web-surffailun kerääminen on hyvin tiedossa, mutta mihin tiedot kerätään, jos ne eivät näy itselle ladattavissa tiedoissa?

Zuckerberg sai valehdella, kuuleminen ei ollut valaehtoinen.

Petteri Järvinen kirjoitti...

Facebookin oma selitys surffausta seuraavasta Facebook-pikselistä:

"Miten Facebook-pikseli toimii?

Kun joku käy sivustossasi ja tekee toiminnon, esimerkiksi ostoksen, Facebook-pikseli aktivoituu ja raportoi toiminnon. Tällä tavalla tiedät, kun asiakas teki toiminnon Facebook-mainoksesi näkemisen jälkeen. Pystyt myös tavoittamaan kyseisen asiakkaan uudelleen käyttämällä mukautettua kohderyhmää. Kun sivustossasi tapahtuvien konversioiden määrä kasvaa, Facebook esittää mainoksiasi entistä paremmin ihmisille, jotka muita todennäköisemmin tekevät tiettyjä toimintoja. Tätä kutsutaan konversioiden optimoinniksi."

Anonyymi kirjoitti...

@Petteri

Eikös "tietoturvasyyksi" riitä jo yksinomaan se, että he pyrkivät estämään väärien identiteettien käyttämisen.

Yksi tapa pyrkiä siihen on tietysti hankkia ja ylläpitää kattavaa käsitystä siitä kuka kukakin on, riippumatta siitä onko kyseinen taho (jo) heidän käyttäjänsä vai ei.

Yksinkertaistettu esimerkki. Jos et olisi vielä FB:n käyttäjä, mutta he olisivat tunnistaneet sinut muista yhteyksistä ja sitten joku toinen yrittäisi esiintyä sinuna, niin heidän olisi se helpompi tunnistaa toteamalla kerätystä datasta että heidän keräämänsä varjoprofiilin Petteri Järvinen ei ole sama kun nyt se joka sinne kyseisen nimisen profiilin loi.

Riittävän kattava ja hyvälaatuinen data voi auttaa monella tavalla myös tietoturvan luomisessa. Toki se data on kaksiteräinen miekka ja jonka joutuminen vääriin käsiin on riski sinänsä.

Anonyymi kirjoitti...

@Petteri

Niin vielä sen verran, että tietovarastotermejä käyttäen FB ei näytä omia tietojaan pyytävälle suoraan "Master dataa" ja siitä kerättyä Tietovarastoa, vaan se luo pyydettäessä siitä käyttäjäkohtaisen "Data martin", jonka sitten saa ladata itselleen.

Master datan tai pääsyn antaminen tietovarastoon olisi vaikea järjestää ja siitä voisi aiheutua tietoturvauhkia, ehkä myös mahdollisesti ei haluta paljastaa kaikkea sitä mistä ja miten tietoja on kerätty ja se on helpompi pitää omana tietona kun ei päästetä muita tekemään suoraan hakuja Tietovarastoon.

Petteri Järvinen kirjoitti...

Tässä onkin tuore FB:n selitys palvelun ulkopuolisen tiedon keräämisestä:

https://newsroom.fb.com/news/2018/04/data-off-facebook

Anonyymi kirjoitti...

@Petteri

Niin, eli juuri sitä mitä sen yllä totesin olevan, hieman toisin sanoin. Ei sen päättely kovin vaikeaa ole kun tuntee käytetyn tekniologian mahdollisuudet. Päättelyn edellytykset on jokaisella vähänkin itse omakohtaisesti web palveluja rakentaneella, julkisia palveluja hostanneella ja edes satunnaisesti lokeja lukeneelle, jos on ymmärtänyt mitä on tekemässä eikä vain noudata toisten tekemiä ohjeita.

Anonyymi kirjoitti...

US puoluekanta on julkista tietoa kun ihminen rekisteröityy äänestäjäksi niin samalla hän ilmoittaa mitä puoluetta kannattaa.

Nuo tiedot ovat myös julkisesti kaupan, joten puoluekannan saa selville ihan ostamalla ne piirikunnittain.

Petteri Järvinen kirjoitti...

Ilta-Sanomien jutun mukaan "Facebook paljasti: näitä tietoja keräämme sinusta vaikka et ole käyttäjä", osoite https://www.is.fi/digitoday/tietoturva/art-2000005644950.html.

Ei varmaan ole jutun kirjoittaneen suomalaisen toimittajan vika, etten ymmärrä lainkaan mitä siinä yritetään sanoa tiedonkeruusta.

Petteri Järvinen kirjoitti...

US puoluekanta on julkista tietoa kun ihminen rekisteröityy äänestäjäksi niin samalla hän ilmoittaa mitä puoluetta kannattaa.

Onko tosiaan näin? Itse en tunne asiaa riittävän hyvin, mutta sivistysmaissa tiedon pitäisi olla yksityisyyden piirissä. Vaaliasiat vaihtelevat kovasti osavaltiosta toiseen, onko tämä kaikissa näin? Löytyykö linkkiä?

Anonyymi kirjoitti...

onko tosiaan näin?

Wikipedian artikkelin mukaan ei tarvitse. Voi ilmoittaa olevansa riippumaton. Mutta esivaaleihin ei voi silloin osallistua. Omituinen käytäntö sinänsä, jos/ kun ehdokkaita asettavat puolueet ja valitsijayhdistykset antavat ei-jäsenten osallistua esivaaleihin.

https://en.wikipedia.org/wiki/Voter_registration_in_the_United_States#Party_affiliation

ps. linkkiä ei näköjään voi enää liittää html tägillä.

Petteri Järvinen kirjoitti...

Eikös SDP järjestänyt äänestyksen presidenttiehdokkaasta, johon saivat osallistua myös puolueeseen kuulumattomat?

Linkit toimivat ainakin vielä päivällä. Olisiko https-osoitteissa jokin rajoitus?

http://en.wikipedia.org/wiki/Voter_registration_in_the_United_States#Party_affiliation

Petteri Järvinen kirjoitti...

Ei, kyllä https toimii myös:

https://en.wikipedia.org/wiki/Voter_registration_in_the_United_States#Party_affiliation

Anonyymi kirjoitti...

@Petteri

Ei toiminut minulla anonyyminä. Blogger ts. tämä ohjelmisto totesi tuosta yllä olevasta linkistä ensin, että https:// ei ole sallittu ts. ei kelpuuta html'ää jolloin vaihdon http:// ja sama juttu. A-tägi ts. html-linkki tägi oli kirjoitettu oikein, tarkastin sen kirjain kirjaimelta. Kirjotin sitä kommenttia iPadilla, selaimena Safari, vaikka tuskin sillä nyt mitään merkitystä asian kannalta on.

Petteri Järvinen kirjoitti...

Onpa erikoista. Ainakin Macin Safarilla toimii, koska kirjoitan sillä tätä.

Hesari