Ska Meta få träna AI-modeller på vårt innehåll?

juni 26, 2024

De senaste veckorna har det delats en hel del inlägg på sociala medier om hur Meta, som äger Facebook och Instagram, kommer börja träna AI-modeller på användarnas inlägg. Om man inte vill detta måste man själv gå in och invända för att på så vis kunna bli exkluderad från träningsdatan.

Så vad gäller egentligen? Finns det negativa effekterna av att AI tränas på vårt innehåll och vilka är anledningarna att invända mot detta? Och hur gör man i så fall?

Eftersom jag fått mycket frågor om detta tänkte jag att vi ska gå igenom det i veckans nyhetsbrev och försöka få lite perspektiv på det hela.

Teknifik är ett nyhetsbrev med guider, tips och fördjupande insikter om teknik, internet och sociala medier. Det levereras kostnadsfritt till din inkorg cirka en gång i veckan. Som prenumerant hjälper du mig att kunna fortsätta skriva. Tack! 💌

Jag vill veta mer >>

Hur funkar det här med att ”träna AI-modeller” egentligen?

Kortfattat så är ju den stora grejen med AI just nu så kallade stora språkmodeller, LLMs (Large Language Models). Det är denna typ av AI-modeller som driver chatbot-tjänster som ChatGPT, Copilot, Gemini och Meta A.I.

För att skapa en LLM så krävs stora mängder text-data. Det kan vara blogginlägg, böcker, tidningsartiklar, forskningsrapporter, foruminlägg m.m.

Denna data, extremt enkelt beskrivet, går AI-modellen igenom för att hitta mönster i hur vi kommunicerar i text. Det är så modellen ”lär sig” att kommunicera på samma sätt som människor gör. Efter att ha tränats på denna data kan modellen med hög träffsäkerhet gissa vilket ord som är mest sannolikt att komma efter ett annat i olika kontexter.

Det gör att den kan producera egen text som svar på kommandon (promts) som vi matar in. Ju mer data av hög kvalité techföretag har att tillgå, desto större och mer kapabla modeller kan de träna upp.

▸ Tips: Lär dig mer om hur LLMs fungerar via Google Academy (15 min YouTube-video).

Hur företagen samlat träningsdata är omdebatterat och ifrågasatt

Framförallt sen lanseringen av ChatGPT av Open AI har det uppstått en stor debatt kring hur AI-modellers träningsdata har samlats in.

Generellt så har företagen bakom AI-modellerna ”skrapat” all öppen text de kunnat komma över på internet och matat in den i sina modeller. Det inkluderar alltså tidningsartiklar, böcker, blogginlägg, forumtrådar och mycket mer. Har det legat öppet på internet har det ansetts vara okej att använda.

Detta har nu ifrågasatts av till exempel New York Times som stämt Open AI för att de tränat sin AI på deras upphovsrättsskyddade material.

På samma sätt har generativa AI-modeller för bilder och video tränats på bilder som legat öppet på internet. Detta har varit starkt ifrågasatt av konstnärer och designers som sett hur deras stil och uttryck kan kopieras av AI-tjänster som Midjourney och Dall-E. Jag har skrivit lite om det tidigare här.

Men frågan om generativ AI och upphovsrätt är uppe i den juridiska hetluften just nu och det kommer nog ta lång tid innan den är helt ”löst”. Upphovsrätt har alltid varit snårigt på nätet och lär fortsätta vara det.

Jakten på högkvalitativ träningsdata är den nya guldrushen

En man i gruvarbetarkläder klättrar upp för ett berg med guldglimmande data. — Skapad med Midjourney.

Det stora AI-racet som pågår just nu gör att alla stora techbolag är ute efter ny träningsdata att mata in i sina kommande modeller. Problemet är bara att det inte finns hur mycket data som helst.

Nu publiceras det också stora mängder AI-genererad text på nätet. Och forskning har visat att när man tränar AI på AI-genererad text-data blir det lite rundgång i systemet och modellen börjar producera sämre resultat.

Så för att vinna AI-racet och kunna skapa nya, mer kraftfulla LLMs behöver företagen gräva fram stora mängder människoskapad text. Och där sitter ju Meta helt klart på en guldgruva.

Meta vill träna AI-modeller på dina offentliga inlägg – är det ett problem?

I slutet av maj 2024 började Meta skicka ut notifikationer till europeiska användare om en uppdatering i deras integritetspolicy. Där uppgav de att de ansåg sig ha det som i GDPR kallas ”berättigat intresse” att använda din data för att träna sina AI-modeller, men upplyste också om att du har rätt att göra invändningar mot detta.

Jag fick det här mailet till ett gammalt inaktivt instagram-konto den 31 maj:

Utdrag från ett epostmeddelande som lyder: Vi uppdaterar vår integritetspolicy i och med att vi utökar AI hos Meta

Hej!

Snart kommer våra AI hos Meta-upplevelser till din region. AI hos Meta är vår samling funktioner och upplevelser med generativ AI, till exempel Meta AI och kreativa AI-verktyg, samt de modeller som driver dem.

Vad innebär det för dig?

I vårt arbete med att ge dig de här upplevelserna utgår vi från den rättsliga grund som kallas berättigat intresse när vi använder dina uppgifter för att utveckla och förbättra AI hos Meta. Det innebär att du har rätt att göra invändningar mot hur dina uppgifter används i dessa syften. Om din invändning godkänns tillämpas den framledes.

Vi har uppdaterat vår integritetspolicy så att den överensstämmer med de här ändringarna. Uppdateringarna träder i kraft den 26 juni 2024.

Vänliga hälsningar
Metas integritetsteam

Det här mailet är ju väldigt vagt. Vad är ”dina uppgifter” i sammanhanget? Och vad innebär den väldigt breda formuleringen ”utveckla och förbättra AI hos Meta”. Det låter ju lite som att ”vi får använda vad vi vill för att göra vad vi vill”.

Och som vi alla vet så har man generellt bara två alternativ gällande Meta: godkänn deras integritetspolicy eller sluta använd tjänsterna (Facebook, Instagram, WhatsApp, Messenger).

I det här fallet så ges man iallafall möjligheten att göra en invändning, som i och för sig behöver godkännas, men ändå. Där kan vi tacka EU för GDPR ändå!

Vad är Meta AI ens?

En skärmbild av en gruppkonversation på messenger där Metas AI ger förslag på vegetariska recept. — Bild: Meta

Metas nya AI har inte implementerats i EU än. Men i korthet är det en chatbot, liknande ChatGPT eller Copilot, som kommer integreras i såväl Messenger som sökrutan och på andra ställen på Facebook och Instagram.

Du kommer kunna ställa frågor, be om hjälp med saker, generera text och AI-bilder.

Den nya integritetspolicyn skapade oro bland användare

Vi vet att vi redan frivilligt (men ofta relativt ovetandes) delar med oss av enorma mängder data till Facebook som används för att styra vad vi får se i flödet och vilken reklam vi serveras. Ändå var det många som reagerade negativt på tanken att Meta skulle kunna använda ens inlägg för att träna AI.

Läser man vidare så framgår det:

Att det enbart gäller offentliga inlägg, bilder och kommentarer. Så alltså inte privata meddelanden på Messenger eller Instagram, och inte heller bilder och inlägg om man har privat konto.
Att det enbart gäller konton tillhörande personer över 18 år.
Att datan anonymiseras innan den matas till AI-modellen, så den kan inte kopplas till någon särskild person.

Meta själva uppger också att syftet är att hjälpa deras AI-modeller förstå lokala företeelser och språkbruk, för att deras AI-tjänster ska kunna bli så bra och tillförlitliga som möjligt. Men vi vet ju i nuläget alldeles för lite om dessa AI-tjänster och det är kanske inte ens någon funktion merparten av användare önskar eller känner behov av?

Det vill säga, är vad vi får verkligen värt priset vi betalar i form av vår data?

Det är helt enkelt sunt att man blir lite skeptisk, tycker jag. Och inte bara jag.

Tung organisation för dataintegritet skickar klagomål

Organisationen NOYB (non of your business) reagerade kraftigt på Metas nya integritetspolicy och skickade omedelbart klagomål till 11 EU-länders integritetsskyddsmyndigheter. Där trycker de bland annat på de otroligt vaga formuleringarna som ger Meta väldigt stora friheter. De menar också att Meta skulle kunna genomföra detta på ett bättre sätt om de gav användare möjligheten att godkänna, istället för enbart att invända.

Irland bad efter detta Meta att stoppa utrullningen av den nya integritetspolicyn, som skulle trätt i kraft idag, den 26 juni. Vilket de då fått lov att göra.

Så du som oroat dig men inte skickat in en invändning än kan andas ut lite i nuläget.

Är Metas AI-planer så farliga egentligen?

Visst går det att avfärda kritiken mot Meta genom att säga att det egentligen inte är så stor skillnad mot det som Meta redan gör och har gjort i många år. Man kan även peka på hur populär tjänster som ChatGPT snabbt blivit, och att det kan ligga i användares intresse att det finns bra AI-modeller som inte bara förstår engelska utan även svenska och våra lokala sedvänjor och vår kultur. Man kan också argumentera för att ju fler människor som bidrar med data som har (enligt en själv då) bra värderingar, desto bättre chatbots kommer vi få.

Samtidigt kan man också peka på hur Metas tidigare datahantering generellt gjort att människor delat med sig av mycket mer data än de kanske egentligen vill, och att vi är ”fast” i deras tjänster eftersom så mycket av vårt sociala liv sker där. Det är helt enkelt svårt att välja bort och ta sig ur utan att det får konsekvenser för ens sociala liv.

I det här fallet har vi chansen att tänka efter mer före och då är det kanske sunt att vi gör det?

Skärmbild från MIdjourney med prompten "the ceo of the company", fyra bilder som visar män i 30-40 årsåldern i kavaj. Tre håller armarna i kors. En av männen är asiatisk, de andra är vita. — En chef, enligt AI-tjänsten Midjourney. Vit eller asiatisk, runt 40 år, kostym med armarna i kors.

Vi har också sett hur AI-modeller bär med sig felaktigheter och fördomar som den inte bara fortsätter sprida utan även kan hjälpa till att förstärka. Så att implementera en AI-chatbot på en så stor plattform som Facebook kan ifrågasättas enbart utifrån dessa premisser.

Vill man vara optimistisk kan man alltså säga att nej, det är inte nödvändigtvis något farligt med att Meta får träna sin AI-modell på våra offentliga inlägg. Det är text du redan frivilligt delat öppet på nätet och med Meta. Resultatet kan bli bättre AI-tjänster som vi kanske kommer uppskatta att använda framöver.

Vill man vara lite mer pessimistisk kan man säga att vi inte borde tillåta att Meta får så bred tillgång till vår data för att träna AI på så vaga premisser. De borde vara tydligare och de borde be om lov (opt-in istället för opt-out). Dessutom är det kanske inte ens så värt med chatbotar och generativ AI på Meta, oavsett?

Som kreatör har du fler anledningar att invända

Om du använder sociala medier för att sprida kreativt material av något slag som fotografi, illustrationer, konst, poesi, litterära texter så borde du absolut överväga att invända.

Som tidigare nämnt är frågor kring upphovsrätt och AI en het debatt. I fallen med Midjourney, Dall-E och ChatGPT gavs ingen möjlighet att invända, verktyg för att bli exkluderad ur modellerna har erbjudits först i efterhand när det visat sig att det gått att kopiera konstnärers stil osv.

Jag tycker också det är högst rimligt att ifrågasätta om AI-modeller som kan användas för att ersätta vissa yrkesgrupper och kreatörer på vissa områden verkligen borde få tränas på samma yrkesgrupps material, helt utan ersättning.

Så gör du för att invända mot användningen

Facebook (enklast via dator)

Se till att du är inloggad på Facebook
Tryck på denna länk: https://www.facebook.com/privacy/genai
Skrolla ned till detta stycket Integritet och generativ AI och tryck på länken för ”rätten att göra invändningar”.
Du kommer nu till ett formulär. Här måste du välja ditt land och fylla i epostadressen som är kopplad till ditt konto.
Du behöver även fylla i en motivering.
- Om du är verksam inom ett kreativt område har flera intresseorganisationer tagit fram särskilda motiveringar som du kan kopiera och klistra in. Se till exempel: Svenska tecknare, Svenska fotografers riksförbund, Musikerförbundet, Konstnärernas riksförbund, Dramatikerförbundet.
- Om du vill invända som privatperson kan du skriva en personlig motivering i stil med
  
  ”Jag vill inte att mina inlägg eller mina personuppgifter används för att träna AI då jag känner mig osäker och obekväm med detta. Jag vill därför utöva min rätt enligt dataskyddsförordningen och invända mot att mina personuppgifter används i detta syfte.”.
  
  Eller så kan du köra på något lite mer juridiskt, t.ex. i stil med texten från Svenska tecknares text:
  
  ”Jag vill härmed använda min rätt att göra invändningar mot behandling av min information med stöd av artikel 21 dataskyddsförordningen. Jag vill inte att min information, inklusive mina bilder och tillhörande bildtexter, inlägg och information om mig, eller annan information som finns i någon av Metas produkter, används för att utveckla och träna AI. Jag anser att varken Meta eller tredje part har berättigade intressen för att behandla min information för AI hos Meta. Även för det fall det skulle anses föreligga berättigade intressen, så anser jag att dessa intressen inte väger tyngre än mitt intresse av skydd för mina personuppgifter och andra intressen, rättigheter och friheter. Intressen, rättigheter och friheter är ett brett begrepp som tar sikte på dataskydd och integritet, men även andra grundläggande rättigheter och friheter liksom mer allmänna intressen (jfr skäl 75 i dataskyddsförordningen). ”
Efter att du skickat in har Meta en månad på sig att besvara din begäran.

Instagram (appen)

Gå till din profil och tryck på menyn (tre strecken).
Skrolla hela vägen ned till avsnittet Mer info och support och tryck på Om > Integritetspolicy
Skrolla jäääättelångt ned till rubriken Vilken är vår rättsliga grund för att behandla dina uppgifter och vilka rättigheter har du? och tryck på knappen Göra invändningar
Tryck på länken göra invändningar mot > och på frågan ”Skriver du till oss med anledning av AI hos Meta?” välj Ja.
Fyll i epostadress, land och motivering (se förslag ovan).

Lite om vad jag tänker

Om jag ska avsluta med en kort personlig reflektion så kan jag känna mig så trött på hela det här AI-racet. Det känns som att techbolagen rusar för att skapa och implementera mer AI, överallt, även där ingen riktigt efterfrågat det?

Det finns absolut AI-funktioner som kan ha stor nytta för många, exempelvis: få hjälp att analysera kalkylark, bättre stavnings- och grammatikkontroll på det man skriver, möjligheten att visualisera idéer eller koncept på ett mer unikt sätt med generativ AI för bilder, automatisera monotona och onödigt krångliga administrativa uppgifter över flera system, automatiskt transkribera och texta video osv.

▸ Läs mer: Så använder jag ChatGPT nu – men är det hållbart?

Men vurmen för chatbotar och att de ska finnas tillgängliga precis överallt, jag vet inte jag. Det finns många frågetecken som inte besvarats. Bara en sådan enkel sak som att de ofta har helt fel eller ”hallucinerar” (dvs hittar på)? Problemen med bias. Problemen med att det kan urholka människors källkritik när svaren serveras så direkt och sammanfattat. Problemen med upphovsrätt. Problemen med att massor av AI-slaskinnehåll skapas och sprids på sociala medier.

Jag tycker inte vi ska vara rädda för AI. Och jag tycker inte rädsla eller okunskap ska leda till att felaktig information och teknikpanik sprids. Det är viktigt att vi hjälps åt att lära oss om AI så vi kan ta aktiva och informerade beslut. Det är bra att vi är skeptiska och eftertänksamma. Det är bra att vi använder våra rättigheter. Jag kommer invända av princip.

Vad tänker du om det här? Dela gärna med dig av dina reflektioner genom att trycka på ”kommentera”!

Om du vill nå mig finns jag på hello@teknifik.se 💌

Stort tack till er som efter förra nyhetsbrevet tipsade och delade vidare på sociala medier. Det genererade många nya prenumeranter och det betyder så mycket för mig och Teknifiks framtid. Jag försöker göra mig lite mindre beroende av Meta och deras algoritmer för att sprida mitt innehåll. 😉 Så ju fler som prenumererar direkt på Teknifik desto bättre!

Tack för att du läser! Semestertider väntar så vi får se hur många nyhetsbrev det blir under sommarmånaderna, jag väljer att hålla det lite öppet för när inspiration och lust slår till. Oavsett så hörs vi snart.

/Elin

Prenumerera på Teknifik

Teknifik är nyhetsbrevet och bloggen för dig som vill inspireras till en smartare och enklare digital vardag. Nyhetsbrevet är för närvarande vilande, men sporadiska inlägg kan dyka upp. Som prenumerant får du nya inlägg direkt till din inkorg.

Denna prenumeration är gratis och du kan avsluta när du vill.

4 reaktioner på ”Ska Meta få träna AI-modeller på vårt innehåll?”

Alexandra
26 juni, 2024 kl. 10:26

Jag har stänga konton överallt, privat. Men jag kände att jag ville invända på mitt öppna musikerkonto på instagram. Mest för att jag inte helt förstår AI och tycker det spontant känns obehagligt att den skulle tränas på mitt kreativa innehåll. Finns det risk att jag känner mig ”plagierad” i framtiden?

Kanske jag ändrar mig senare men hellre då säga nej först och sen öppna upp i framtiden isf. Tror det handlar mycket om det du skriver också, att man inte riktigt förstår deras motivation. Vad vill de med det?

De tjänar ju också redan pengar på mig som användare. Så varför ska jag ge bort allt gratis ännu mer? Nu lägger jag ju inte upp så väldigt mycket kreativt innehåll i deras tjänst utan det blir mest ”behind scenes” på stories. Men ändå. Ibland lägger jag ändå upp lite mer ”ljudliga” inlägg.

Men ja, det handlar nog mycket om en allmän skepsis för att jag inte helt fattar- varken vad AI faktiskt är och innebär för oss (på djupet), eller vad de vill använda just sin AI till.

Svara
1. Elin Häggberg // Teknifik
  26 juni, 2024 kl. 16:23
  
  Tack för att du delar dina reflektioner. Jag tycker Meta helt klart har ett ansvar att bättre övertyga oss om att deras AI är ”värt det” för oss. Och som musiker förstår jag att du tvekar.
  
  Svara
Ulrika
26 juni, 2024 kl. 14:14

Hej Elin!

Tack för din artikel.

Det skulle finnas något att märka sitt material med på internet.
Text, bild, musik o s v.
”Copyright skydd gäller allt material och alla, även ai”
Finns det någon möjlighet i dagsläget
eller tänker du att det inte behövs/ska behövas?

Tips till kommande artikel, kan vi rensa upp och spara el
genom mängden data vi lägger ut och även tiden vi är på våra enheter?
Hur mycket skulle det röra sig om.
Tänker dessa nya serverhallar som drar så mycket ström m m.
Skulle i s f vilja starta en kampanj för att få Facebook med flera att införa val för inlägg etc om hur länge de ska sparas och även att kunna rensa genom att kryssa i rensa material före år xx.

Ha en härlig dag!
Ulrika

Svara
1. Elin Häggberg // Teknifik
  26 juni, 2024 kl. 16:31
  
  Hej!
  Ja det har börjat efterfrågas den typen av tekniska lösningar för att hindra AI från att ”slurpa i sig” ens material. För bilder finns t ex en sorts ”filter” man kan lägga på innan man laddar upp som hindrar AI från att läsa av den korrekt. https://www.theverge.com/24063327/ai-art-protect-images-copyright-generators
  
  För text finns ännu ingen sådan grej. Men jag läste en intressant artikel som föreslog en kod-märkning liknande som finns idag för att inte sökmotorer ska indexera webbinnehåll. Men allt sådant där är uppe i luften.
  
  Att skriva ut sådant där om copyright-skydd som alla gör på sin hemsida (inklusive jag själv) har egentligen ingen bäring i svensk lag btw. Man har automatiskt upphovsrätt till allt man skapat, oavsett om man skriver ut ”Copyright” eller inte. 👍 Det som snurrar i amerikanska domstolar nu är ju om AI-förtagen FÅR använda upphovsrättsskyddat material som träningsdata eller inte enligt klausulen som heter ”fair use”. Som sagt. Snårigt detta och lär nog inte komma någon lösning än på länge.
  
  Och sen kan man ju fråga sig om det egentligen spelar så stor roll för den större delen av materialet på internet? Fattar att stora medier som New York Times vill stämma – det handlar ju om deras affärsmodell. För mig som bloggare kanske effektiva AI-verktyg som ChatGPT är mer värt än att jag ska ”skydda” mina gamla inlägg från att användas som träningsdata. Tål att tänkas på!
  
  Angående elanvändning kopplat till data så skrev jag faktiskt om det för några år sen. Kortfattat kan man väl säga att det är rätt lite vi som individer påverkar med det vi gör men i stor skala är det viktigt hur teknikföretag driver sina serverhallar mm. Läs här: https://teknifik.se/2019/11/stream-skam-och-smutsiga-moln-hur-hallbart-ar-internet/
  
  Svara