Hyppää sisältöön, linkkilistaan.

Arkisto Huhtikuu 2004 24. päivä

Sanasuodatus ja sensuuri

Internet, lauantaina 24.4.2004,

Thauvinin linkkilistan kautta löysin Cnetin uutisen Googlen ylivarovaisesta SafeSearch-ominaisuudesta. SafeSearchin tarkoituksena on estää moraalittomien, tai lähinnä pornografisten, sivujen näkyminen niiden käyttäjien ruuduilla, jotka ovat ominaisuuden kääntäneet päälle. Ainoa huono asia on se, että SafeSearch pohjaa tunnistusalgoritminsa melkein puhtaasti domain-nimen merkkijonovertailuun. Tästä johtuen artikkelissä käsitelty AV-tuotteiden myyntisivusto PartsExpress.com on jäänyt kokonaan näkymättömiin, nimessä esiintyjän sanan sex vuoksi.

Merkkijonopohjainen tunnistusmenetelmä pitäisi olla jätetty taakse jo 1990-luvun alkuvuosina. Tekniikka ja laskentateho on kehittynyt niin paljon, että varsinkin Googlen kaltaisella tiedon indeksoijalla ja analysoijalla pitäisi olla resursseja kehittää SafeSearchiä parempi ratkaisu. Algoritmin riippakiveksi on tullut varsinkin merkkijono sex, joka artikkelin lukemalla voi todeta esiintyvän kohtalaisen taajaan (esimerkiksi ArkansasExtermination.com, JewishSussex.com, BassExpert.com, …).

Googlen SafeSearch on silti vasta neljä vuotta vanha tekniikka. Sen kehittänyt insinööri kertoo artikkelissa, että algoritmi etsii domain-nimestä avainsanoja, joiden löydyttyä pistää koko sivun karenteeniin käymättä läpi sivun varsinaista sisältöä. Kuulostaa siltä, kuin (Sir) Tim Berners-Leen semanttiselle netille olisi todellakin tarvetta.

Mutta ei tämän ongelman kanssa olla ensimmäistä kertaa. Loka- ja marraskuun 2000 Mikrobittien kautta löydämme kaksi samantapaista, ja varsin hupaisaa tilannetta.

Eräs losangelesilainen asianajaja Sherril Babcock yritti rekisteröityä BlackPlanet.com:n jäseneksi, mutta ei päässyt rekisteröitymislomakkeen filtteröinnin lävitse. Syynä oli nimessä esiintyvä cock. Asianajajatar onnistui lopulta aikeissaan, kun hän rekisteröityi palveluun väärällä nimellä Babpenis.

Samoihin aikoihin Digital Freedom Networkin järjestämässä kilpailussa palkittiin tietokoneen sensoriohjelmien typerimpiä tulkintoja. Kärkitiloille pääsi Sympatico-niminen palvelin, joka kieltäytyi rekisteröimästä käyttäjätunnusta Heather, sillä nimi sisälsi merkkijonon eat her. Toiselle sijalle pääsi itse Microsoftin Hotmail, joka ei hyväksynyt sähköpostiosoitetta hillaryanne@hotmail.com. Syynä oli tietenkin se, että siinä esiintyi sana aryan, mikä on vähintäänkin poliittisesti epäkorrektia.

Ykköstila meni kuitenkin eräälle lukiolaispojalle, joka huomasi, ettei hänen High Schoolinsa sensoriohjelma päästänyt häntä oman oppilaitoksen sivuille. Tähän oli syynä merkkijono high, joka tunnetusti merkitsee pilvessä olemista.

Cnetin artikkelissa esiintynyt PartsExpress.com on päättänyt taipua Googlen edessä ja ottaa käyttöön uuden domain-nimen, Parts-Express.com. Näin on tehty muuallakin, joskin ei Googlen takia.

Analysointi voidaan kohdistaa myös itseen. Tänne sivulle suurin osa ihmisistä tulee Pinserin kautta. Pinseri sisältää taas merkkijonon in, joka sanakirjan mukaan, siitä kuitenkaan tarkistamatta, tarkoittaa sisään tai sisällä olemista. Varsin rivoa tuokin. On tosin vain tiukkojen välimuistien ongelma. <huumori />

Arkisto

Copyright © 2004–2005 Lauri Seppänen. Kommentointi HaloScan.