Rättslig domedag för generativ AI-chattGPT om den grips för att plagiera eller göra intrång, varnar AI-etik och AI-lag

Ge kredit där kredit förfaller.

Det är lite visdom som du kanske har fostrats till att tro på. Man antar eller föreställer sig faktiskt att vi alla kan vara överens om att detta är en rättvis och förnuftig tumregel i livet. När någon gör något som förtjänar erkännande, se till att de får sitt välförtjänta erkännande.

Den motsatta synpunkten verkar mycket mindre övertygande.

Om någon gick runt och insisterade på att krediten borde inte bli erkänd när krediten förfaller, ja, du kanske hävdar att en sådan tro är oartigt och möjligen underhänt. Vi befinner oss ofta högljutt störda när kredit luras av någon som har åstadkommit något anmärkningsvärt. Jag vågar påstå att vi missgynnar särskilt när andra felaktigt tar åt sig äran för andras arbete. Det är en oroväckande dubbelsnack. Personen som borde ha fått äran nekas sin stund i solen. Dessutom njuter trickstern i rampljuset även om de felaktigt lurar oss att förskingra våra gynnsamma tillgivenheter.

Varför all denna diskurs om att skaffa kredit på de mest rätta sätten och avvärja de felaktiga och föraktliga sätten?

För vi verkar stå inför en liknande situation när det kommer till det senaste inom artificiell intelligens (AI).

Ja, påståenden är att detta sker bevisligen via en typ av AI som kallas Generativ AI. Det finns en hel del handvridning att Generative AI, den hetaste AI i nyheterna nuförtiden, redan har tagit åt sig äran för vad den inte förtjänar att ta åt sig äran för. Och detta kommer sannolikt att förvärras när generativ AI blir alltmer utvidgad och utnyttjad. Mer och mer kredit ger den generativa AI:n, medan tyvärr de som rikt förtjänar den sanna äran lämnas kvar i stoftet.

Mitt föreslagna sätt att tydligt beteckna detta påstådda fenomen är genom två snälla slagord:

  • 1) Plagiat i stor skala
  • 2) Upphovsrättsintrång i stor skala

Jag antar att du kanske är medveten om generativ AI på grund av en mycket populär AI-app känd som ChatGPT som släpptes i november av OpenAI. Jag kommer att säga mer om generativ AI och ChatGPT ett ögonblick. Håll ut.

Låt oss genast komma till kärnan i vad som får folks getter, så att säga.

Vissa har ivrigt klagat på att generativ AI potentiellt kan lura bort människor som har skapat innehåll. Du förstår, de flesta generativa AI-appar är data som tränas genom att undersöka data som finns på Internet. Baserat på dessa data kan algoritmerna finslipa ett enormt internt mönstermatchande nätverk inom AI-appen som sedan kan producera till synes nytt innehåll som förvånansvärt ser ut som om det var skapat av mänsklig hand snarare än ett stycke automatisering

Denna anmärkningsvärda bedrift beror till stor del på användningen av internetskannat innehåll. Utan volymen och rikedomen av internetinnehåll som en källa för dataträning skulle den generativa AI i stort sett vara tom och vara av litet eller inget intresse för att användas. Genom att låta AI undersöka miljontals och åter miljoner onlinedokument och text, tillsammans med all slags tillhörande innehåll, härleds mönstermatchningen gradvis för att försöka efterlikna mänskligt producerat innehåll.

Ju mer innehåll som undersöks, är oddsen att mönstermatchningen blir mer finslipad och blir ännu bättre på mimik, allt annat lika.

Här är då zillion dollar frågan:

  • Stor fråga: Om du eller andra har innehåll på Internet som någon generativ AI-app har tränats på, gör det förmodligen utan din direkta tillåtelse och kanske helt utan din medvetenhet alls, bör du ha rätt till en del av kakan om vilket värde som helst den där generativa AI-dataträningen?

Vissa hävdar häftigt att det enda rätta svaret är Ja, särskilt att dessa mänskliga innehållsskapare verkligen förtjänar deras klipp av handlingen. Saken är den att du skulle vara hårt pressad att hitta någon som har fått sin beskärda del, och ännu värre, nästan ingen har fått någon som helst del. Skaparna av Internetinnehåll som ofrivilligt och omedvetet bidrog nekas i huvudsak sin rättmätiga kredit.

Detta kan karakteriseras som fruktansvärt och upprörande. Vi gick precis igenom uppackningen av den vise visdomen att kredit ska ges där kredit ska. När det gäller generativ AI, uppenbarligen inte så. Den mångåriga och dygdiga tumregeln om kredit tycks vara känslomässigt kränkt.

Oj, säger repliken, du överdriver fullständigt och misstolkar situationen. Visst, den generativa AI undersökte innehåll på Internet. Visst, detta var till stor hjälp som en del av dataträningen av den generativa AI. Visserligen skulle de imponerande generativa AI-apparna idag inte vara lika imponerande utan detta genomtänkta tillvägagångssätt. Men du har gått en bro för långt när du säger att innehållsskaparna borde tilldelas någon speciell sken av kredit.

Logiken är som följer. Människor går ut på Internet och lär sig saker från Internet, gör det rutinmässigt och utan något krångel i sig. En person som läser bloggar om VVS och sedan binge-tittar på gratis tillgängliga videor om VVS-fixar kan nästa dag gå ut och jobba som rörmokare. Behöver de ge en del av sin VVS-relaterade remittering till bloggaren som skrev om hur man putsar ett handfat? Behöver de ge en avgift över till vloggaren som gjorde videon som visar stegen för att fixa ett läckande badkar?

Nästan säkert inte.

Dataträningen av den generativa AI är bara ett sätt att utveckla mönster. Så länge utdata från generativ AI inte bara är en upprepning av exakt det som undersöktes, kan du övertygande hävda att de har "lärt sig" och därför inte är föremål för att ge någon specifik kredit till någon specifik källa. Om du inte kan fånga den generativa AI:n genom att utföra en exakt uppstötning, tyder indikationerna på att AI:n har generaliserats bortom någon speciell källa.

Ingen kredit har någon. Eller, man antar, man kan säga att krediten går till alla. Den samlade texten och andra mänskliga innehåll som finns på Internet får äran. Vi får alla äran. Att försöka peka ut kredit till en viss källa är meningslöst. Var glad över att AI utvecklas och att mänskligheten alla berättade kommer att gynnas. Dessa inlägg på Internet borde känna sig hedrade över att de bidrog till en framtid av framsteg inom AI och hur detta kommer att hjälpa mänskligheten i evighet.

Jag ska ha mer att säga om båda dessa kontrasterande åsikter.

Under tiden, lutar du dig mot lägret som säger att krediten är förfallen och försenad för dem som har webbplatser på Internet, eller upptäcker du att den motsatta sidan som säger att Internetinnehållsskapare är bestämt inte att bli lurad är en mer övertygande hållning?

En gåta och en gåta hängde ihop.

Låt oss packa upp det här.

I dagens kolumn kommer jag att ta upp dessa uttryckta oro över att generativ AI i huvudsak plagierar eller möjligen gör intrång i upphovsrätten för innehåll som har lagts ut på Internet (som betraktas som en immateriell rättighet eller IP-fråga). Vi ska titta på grunden för dessa betänkligheter. Jag kommer då och då att hänvisa till ChatGPT under den här diskussionen eftersom det är gorillan på 600 pund av generativ AI, men kom ihåg att det finns många andra generativa AI-appar och de är generellt baserade på samma övergripande principer.

Under tiden kanske du undrar vad generativ AI egentligen är.

Låt oss först täcka grunderna för generativ AI och sedan kan vi ta en närmare titt på den aktuella frågan.

In i allt detta kommer en mängd AI-etik och AI-rättsliga överväganden.

Var medveten om att det pågår ansträngningar för att införliva etiska AI-principer i utvecklingen och användningen av AI-appar. En växande kontingent av berörda och dåvarande AI-etiker försöker se till att ansträngningarna att ta fram och införa AI tar hänsyn till en syn på att göra AI For Good och avvärja AI för dåligt. Likaså finns det föreslagna nya AI-lagar som samlas runt som potentiella lösningar för att hindra AI-strävanden från att gå amok på mänskliga rättigheter och liknande. För min pågående och omfattande bevakning av AI-etik och AI-lag, se länken här och länken här, bara för att nämna några.

Utvecklingen och spridningen av etiska AI-föreskrifter eftersträvas för att förhoppningsvis förhindra att samhället hamnar i en myriad av AI-inducerande fällor. För min bevakning av FN:s AI-etiska principer som utformats och stöds av nästan 200 länder via Unescos insatser, se länken här. På liknande sätt undersöks nya AI-lagar för att försöka hålla AI på en jämn köl. En av de senaste tagen består av en uppsättning föreslagna AI Bill of Rights som amerikanska Vita huset nyligen släppte för att identifiera mänskliga rättigheter i en tidsålder av AI, se länken här. Det krävs en by för att hålla AI- och AI-utvecklare på rätt väg och avskräcka målmedvetna eller oavsiktliga hemliga ansträngningar som kan undergrava samhället.

Jag kommer att väva in AI-etik och AI-lagrelaterade överväganden i den här diskussionen.

Grunderna för generativ AI

Den mest kända instansen av generativ AI representeras av en AI-app som heter ChatGPT. ChatGPT dök upp i allmänhetens medvetande redan i november när det släpptes av AI-forskningsföretaget OpenAI. Ända sedan ChatGPT har fått stora rubriker och förvånansvärt överträffat sina tilldelade femton minuter av berömmelse.

Jag antar att du förmodligen har hört talas om ChatGPT eller kanske till och med känner någon som har använt det.

ChatGPT anses vara en generativ AI-applikation eftersom den tar som indata en del text från en användare och sedan genererar eller producerar en produktion som består av en uppsats. AI är en text-till-text-generator, även om jag beskriver AI som en text-till-uppsats-generator eftersom det lättare klargör vad den vanligtvis används till. Du kan använda generativ AI för att komponera långa kompositioner eller så kan du få den att ge ganska korta pittige kommentarer. Allt är på ditt bud.

Allt du behöver göra är att ange en prompt så genererar AI-appen en uppsats åt dig som försöker svara på din prompt. Den komponerade texten kommer att verka som om uppsatsen skrevs av den mänskliga handen och sinnet. Om du skulle skriva in en uppmaning som sa "Berätta om Abraham Lincoln" kommer den generativa AI:n att förse dig med en uppsats om Lincoln. Det finns andra lägen för generativ AI, som text-till-art och text-to-video. Jag kommer här att fokusera på text-till-text-variationen.

Din första tanke kan vara att denna generativa förmåga inte verkar vara en så stor sak när det gäller att producera uppsatser. Du kan enkelt göra en onlinesökning på Internet och lätt hitta massor av uppsatser om president Lincoln. Kickaren i fallet med generativ AI är att den genererade uppsatsen är relativt unik och ger en originalkomposition snarare än en kopia. Om du skulle försöka hitta den AI-producerade uppsatsen på nätet någonstans, skulle du knappast upptäcka den.

Generativ AI är förutbildad och använder sig av en komplex matematisk och beräkningsformulering som har satts upp genom att undersöka mönster i skrivna ord och berättelser över webben. Som ett resultat av att undersöka tusentals och miljontals skriftliga stycken kan AI:n spy ut nya essäer och berättelser som är en sammanblandning av vad som hittades. Genom att lägga till olika probabilistiska funktioner blir den resulterande texten ganska unik i jämförelse med vad som har använts i träningsuppsättningen.

Det finns många farhågor kring generativ AI.

En avgörande nackdel är att uppsatserna som produceras av en generativ baserad AI-app kan ha olika falskheter inbäddade, inklusive uppenbart osanna fakta, fakta som är missvisande framställda och uppenbara fakta som är helt påhittade. Dessa påhittade aspekter kallas ofta för en form av AI hallucinationer, en slagord som jag ogillar men som jag beklagligt verkar få populär dragkraft ändå (för min detaljerade förklaring om varför detta är usel och olämplig terminologi, se min bevakning på länken här).

Ett annat problem är att människor lätt kan ta åt sig äran för en generativ AI-producerad uppsats, trots att de inte har skrivit uppsatsen själva. Du kanske har hört att lärare och skolor är ganska oroade över uppkomsten av generativa AI-appar. Studenter kan potentiellt använda generativ AI för att skriva sina tilldelade uppsatser. Om en elev hävdar att en uppsats skrivits av egen hand, är det liten chans att läraren ska kunna urskilja om den istället förfalskades av generativ AI. För min analys av denna förvirrande aspekt för elever och lärare, se min bevakning på länken här och länken här.

Det har förekommit några galna överdimensionerade påståenden på sociala medier om Generativ AI hävdar att den senaste versionen av AI faktiskt är det kännande AI (nej, de har fel!). De inom AI-etik och AI-lag är särskilt oroliga över denna spirande trend med utsträckta anspråk. Du kan artigt säga att vissa människor överdriver vad dagens AI faktiskt kan göra. De antar att AI har kapacitet som vi ännu inte har kunnat uppnå. Det är olyckligt. Ännu värre, de kan tillåta sig själva och andra att hamna i svåra situationer på grund av ett antagande om att AI kommer att vara kännande eller människoliknande när det gäller att kunna vidta åtgärder.

Antropomorfier inte AI.

Om du gör det kommer du att fångas i en klibbig och hård tillitsfälla av att förvänta dig att AI ska göra saker den inte kan utföra. Med det sagt är det senaste inom generativ AI relativt imponerande för vad det kan göra. Var dock medveten om att det finns betydande begränsningar som du ständigt bör ha i åtanke när du använder en generativ AI-app.

En sista förvarning för nu.

Vad du än ser eller läser i ett generativt AI-svar som verkar för att förmedlas som rent sakliga (datum, platser, personer etc.), se till att förbli skeptisk och var villig att dubbelkolla vad du ser.

Ja, datum kan hittas på, platser kan hittas, och element som vi vanligtvis förväntar oss att vara ovanliga är alla föremål för misstankar. Tro inte på vad du läser och håll ett skeptiskt öga när du undersöker generativa AI-uppsatser eller resultat. Om en generativ AI-app berättar att Abraham Lincoln flög runt landet i sitt privatjet, skulle du utan tvekan veta att detta är malarky. Tyvärr kanske vissa människor inte inser att jetplan inte fanns på hans tid, eller så kanske de vet men misslyckas med att lägga märke till att uppsatsen gör detta fräcka och skandalöst falska påstående.

En stark dos av hälsosam skepsis och ett ihållande tankesätt av misstro kommer att vara din bästa tillgång när du använder generativ AI.

Vi är redo att gå in i nästa steg av denna förklaring.

Internet och generativ AI finns i detta tillsammans

Nu när du har en aning om vad generativ AI är, kan vi utforska den irriterande frågan om huruvida generativ AI är rättvist eller orättvist "hävstångseffekt", eller skulle vissa säga uppenbart utnyttja Internetinnehåll.

Här är mina fyra viktiga ämnen som är relevanta för denna fråga:

  • 1) Dubbelproblem: Plagiat och upphovsrättsintrång
  • 2) Att försöka bevisa plagiat eller upphovsrättsintrång kommer att vara ett försök
  • 3) Att hävda plagiat eller upphovsrättsintrång
  • 4) Lagliga landminor väntar

Jag kommer att täcka vart och ett av dessa viktiga ämnen och ge insiktsfulla överväganden som vi alla borde fundera över medvetet. Var och en av dessa ämnen är en integrerad del av ett större pussel. Du kan inte titta på bara en bit. Du kan inte heller titta på någon bit isolerad från de andra bitarna.

Detta är en intrikat mosaik och hela pusslet måste övervägas ordentligt harmoniskt.

Dubbelproblem: Plagiat och upphovsrättsintrång

Det dubbla problemet för de som gör och använder generativ AI är att deras varor kan göra två dåliga saker:

  • 1) Plagiat. Den generativa AI kan tolkas som plagiera innehåll som finns på Internet enligt den Internetskanning som ägde rum under dataträning av AI.
  • 2) Upphovsrättsintrång. Den generativa AI skulle kunna hävdas som ett företag upphovsrättsintrång kopplat till internetinnehållet som skannades under dataträning.

För att förtydliga, det finns mycket mer innehåll på Internet än vad som vanligtvis skannas för dataträning av generativ AI. Endast en liten bråkdel av Internet används vanligtvis. Därför kan vi antagligen anta att allt innehåll som inte skannades under dataträning inte har något speciellt nötkött med generativ AI.

Detta är dock något diskutabelt eftersom du potentiellt kan dra en linje som kopplar samman annat innehåll som skannades med innehållet som inte skannades. Ett annat viktigt förbehåll är också att även om det finns innehåll som inte skannades, kan det fortfarande hävdas som plagierat och/eller upphovsrättsintrång om utdata från den generativa AI kanske landar på samma ordspråk. Min poäng är att det finns mycket squishiness i allt detta.

Nedre raden: Generativ AI är full av potentiella AI Etiska och AI-rättsliga juridiska gåtor när det kommer till plagiat och upphovsrättsintrång underbygga rådande datautbildningsmetoder.

Hittills har AI-makare och AI-forskare åkt igenom detta ganska skottfritt, trots det hotande och betänkligt dinglande svärdet som hänger ovanför dem. Endast ett fåtal stämningar har hittills inletts mot dessa metoder. Du kanske har hört eller sett nyhetsartiklar om sådana rättsliga åtgärder. En, till exempel, involverar text-till-bild-företagen Midjourney och Stability AI för att ha gjort intrång i konstnärligt innehåll som publicerats på Internet. En annan innebär text-till-kod-intrång mot GitHub, Microsoft och OpenAI på grund av Copilot-mjukvaran som producerar AI-appar. Getty Images har också siktat på att gå efter Stability AI för text-till-bild-intrång.

Du kan förutse att fler sådana stämningar kommer att lämnas in.

Just nu är det lite chans att inleda de rättegångarna eftersom resultatet är relativt okänt. Kommer domstolens sida med AI-tillverkarna eller kommer de som tror att deras innehåll var orättvist utnyttjat att vinna? En kostsam rättsstrid är alltid en allvarlig fråga. Att förbruka de stora juridiska kostnaderna måste vägas mot chanserna att vinna eller förlora.

AI-tillverkarna verkar nästan inte ha något annat val än att kämpa. Om de skulle grotta ner sig, till och med en smula, är oddsen att en ström av ytterligare rättegångar skulle resultera (i huvudsak öppnar dörren för ökade chanser för andra att vinna också). När det väl finns lagligt blod i vattnet, kommer de återstående lagliga hajarna att skynda till den ansedda "enkla poängen" och ett bankande och bankande monetärt blodbad skulle säkert inträffa.

Vissa anser att vi borde anta nya AI-lagar som skulle skydda AI-tillverkarna. Skyddet kan till och med vara retroaktivt. Grunden för detta är att om vi vill se generativa AI-framsteg måste vi ge AI-tillverkarna en startbana för säker zon. När rättsprocesser börjar ge segrar mot AI-tillverkarna, om det inträffar (vi vet inte än), är oron att generativ AI kommer att försvinna eftersom ingen kommer att vara villig att ge stöd till AI-företagen.

Som skickligt påpekades i en nyligen publicerad Bloomberg Law-artikel med titeln "ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI" av Dr. Ilia Kolochenko och Gordon Platt, Bloomberg Law, februari 2023, här är två viktiga utdrag som återger dessa synpunkter:

  • "En het debatt rasar nu bland amerikanska juridiska forskare och professorer i immaterialrätt om huruvida den otillåtna skrapningen och efterföljande användningen av upphovsrättsskyddad data utgör ett upphovsrättsintrång. Om synen hos jurister som ser brott mot upphovsrätten i sådan praxis råder, kan användare av sådana AI-system också vara ansvariga för sekundära intrång och potentiellt möta juridiska konsekvenser."
  • "För att på ett heltäckande sätt ta itu med utmaningen bör lagstiftare överväga att inte bara modernisera den befintliga upphovsrättslagstiftningen, utan också implementera en uppsättning AI-specifika lagar och förordningar."

Kom ihåg att vi som samhälle införde rättsskydd för expansionen av Internet, vilket nu bevittnas av Högsta domstolen som granskar den berömda eller ökända Section 230. Det verkar således inom rimliga och prejudikata skäl att vi kan vara villiga att göra något liknande skydd för att främja generativ AI. Kanske skulle skydden kunna ställas in tillfälligt och löper ut efter att generativ AI har nått en viss förutbestämd kompetensnivå. Andra skyddsbestämmelser skulle kunna utarbetas.

Jag kommer snart att publicera min analys av hur Högsta domstolens bedömning och slutgiltiga avgörande om Section 230 kan påverka tillkomsten av generativ AI. Håll utkik efter det kommande inlägget!

Tillbaka till den strängt uttryckta åsikten att vi borde ge utrymme för den samhälleliga imponerande tekniska innovationen som kallas generativ AI. Vissa skulle säga att även om det påstådda upphovsrättsintrånget har eller sker, borde samhället som helhet vara villigt att tillåta detta för de specifika syftena att främja generativ AI.

Förhoppningen är att nya AI-lagar skulle vara noggrant utformade och anpassade till de detaljer som är förknippade med dataträning för generativ AI.

Det finns gott om motargument till denna idé om att utforma nya AI-lagar för detta ändamål. En oro är att varje sådan ny AI-lag kommer att öppna slussarna för alla slags upphovsrättsintrång. Vi kommer att beklaga den dagen då vi tillät sådana nya AI-lagar att hamna i boken. Oavsett hur mycket du försöker begränsa detta till enbart AI-dataträning, kommer andra smygande eller skickligt att hitta kryphål som kommer att uppgå till ohämmade och skenande upphovsrättsintrång.

Argumenten går runt och runt.

Ett argument som inte håller särskilt vatten har att göra med att försöka stämma själva AI:n. Lägg märke till att jag har hänvisat till AI-tillverkaren eller AI-forskarna som de skyldiga intressenterna. Det här är människor och företag. Vissa föreslår att vi bör rikta in AI som den part som ska stämmas. Jag har länge diskuterat i min krönika att vi ännu inte tillskriver AI juridisk person, se länken här till exempel, och därmed skulle sådana rättegångar riktade mot AI i sig betraktas som meningslösa just nu.

Som ett tillägg till frågan om vem eller vad som ska stämmas tar detta upp ett annat saftigt ämne.

Anta att en speciell generativ AI-app är framtagen av någon AI-tillverkare som vi kommer att kalla Widget Company. Widget Company är relativt liten till storleken och har inte mycket intäkter, inte heller mycket tillgångar. Att stämma dem kommer sannolikt inte att samla de stora rikedomarna som man kanske söker. Som mest skulle du bara få tillfredsställelsen att rätta till det du uppfattar som fel.

Du vill gå efter den stora fisken.

Här är hur det kommer att uppstå. En AI-tillverkare väljer att göra sin generativa AI tillgänglig för Big Time Company, ett stort konglomerat med massor av deg och massor av tillgångar. En rättegång som namnger Widget Company skulle nu ha ett bättre mål i sikte, nämligen också genom att namnge Big Time Company. Det här är en kamp mellan David och Goliat som advokater skulle uppskatta. Naturligtvis kommer Big Time Company utan tvekan att försöka vicka av från fiskekroken. Huruvida de kan göra det är återigen en juridisk fråga som är osäker, och de kan hopplöst fastna i leran.

Innan vi kommer mycket längre på detta skulle jag vilja ha något avgörande på bordet om de påstådda intrången av generativ AI på grund av dataträning. Jag är säker på att du intuitivt inser att plagiat och upphovsrättsintrång är två lite olika bestar. De har mycket gemensamt, även om de också skiljer sig markant.

Här är en praktiskt kortfattad beskrivning från Duke University som förklarar de två:

  • ”Plagiat definieras bäst som okänd användning av en annan persons arbete. Det är en etisk fråga som involverar ett krav på kredit för arbete som sökanden inte skapat. Man kan plagiera någon annans verk oavsett upphovsrättsstatus för det verket. Till exempel är det trots allt plagiat att kopiera från en bok eller artikel som är för gammal för att fortfarande vara under upphovsrätt. Det är också plagiat att använda data hämtade från en okänd källa, även om faktamaterial som data kanske inte är upphovsrättsskyddat. Plagiat är dock lätt att bota – korrekt hänvisning till den ursprungliga källan till materialet."
  • ”Upphovsrättsintrång är å andra sidan otillåten användning av annans verk. Detta är en juridisk fråga som beror på om verket är skyddat av upphovsrätt i första hand eller inte, såväl som på detaljer som hur mycket som används och syftet med användningen. Om man kopierar för mycket av ett skyddat verk, eller kopierar i ett obehörigt syfte, kommer det inte att lösa problemet genom att bara bekräfta originalkällan. Endast genom att i förväg begära tillstånd från upphovsrättsinnehavaren undviker man risken för en intrångsavgift."

Jag påpekar vikten av dessa två problem så att du kommer att inse att åtgärder kan skilja sig åt i enlighet därmed. Dessutom är de båda inblandade i överväganden som genomsyrar AI-etik och AI-lag, vilket gör dem lika värda att undersöka.

Låt oss utforska en påstådd lösning eller lösning. Du kommer att se att det kan hjälpa en av de dubbla problemproblemen, men inte den andra.

Vissa har insisterat på att allt som AI-tillverkarna behöver göra är att citera sina källor. När generativ AI producerar en uppsats, inkludera bara specifika citat för vad som än står i uppsatsen. Ange olika webbadresser och andra indikationer på vilket internetinnehåll som användes. Detta verkar göra dem fria från betänkligheter om plagiat. Den producerade uppsatsen skulle förmodligen tydligt identifiera vilka källor som användes för formuleringen som producerades.

Det finns en del käbblar i den påstådda lösningen, men på en nivå på 30,000 XNUMX fot låt oss säga att det fungerar som ett halvt tillfredsställande botemedel mot plagiatdilemmat. Som nämnts ovan i förklaringen om upphovsrättsintrång, får du inte nödvändigtvis ut ur hundkojan genom att citera källmaterial. Om man antar att innehållet var upphovsrättsskyddat, och beroende på andra faktorer som hur mycket av materialet som användes, kan det väntande svärdet av upphovsrättsintrång svänga ner kraftigt och med slutgiltighet.

Dubbelt problem är ledordet här.

Att försöka bevisa plagiat eller upphovsrättsintrång kommer att vara ett försök

Bevisa det!

Det är den slitna refrängen som vi alla har hört vid olika tidpunkter i våra liv.

Du vet hur det går. Du kanske hävdar att något händer eller har hänt. Du kanske vet i ditt hjärta att detta har ägt rum. Men när det kommer till push-versus-shove måste du ha beviset.

I dagens språkbruk måste du visa kvitton, som de säger.

Min fråga till dig är denna: Hur ska vi bevisligen bevisa att generativ AI har utnyttjat internetinnehåll på ett olämpligt sätt?

Man antar att svaret borde vara enkelt. Du ber eller säger åt den generativa AI:n att producera en utskriven uppsats. Du tar sedan uppsatsen och jämför med det som finns på Internet. Om du hittar uppsatsen, bam, har du den generativa AI:n spikad på den ökända väggen.

Livet verkar aldrig vara så enkelt.

Tänk dig att vi får generativ AI för att producera en uppsats som innehåller cirka 100 ord. Vi går runt och försöker nå alla skrymslen av Internet och söker efter de 100 orden. Om vi ​​hittar de 100 orden, som visas i exakt samma ordning och på ett identiskt sätt, verkar vi ha blivit heta.

Anta dock att vi på Internet hittar en till synes "jämförbar" uppsats även om den bara matchar 80 av de 100 orden. Detta verkar fortfarande vara tillräckligt, kanske. Men tänk dig att vi bara hittar en instans av 10 ord av de 100 som matchar. Är det tillräckligt för att hävda att antingen plagiat har förekommit eller att upphovsrättsintrång har inträffat?

Gråhet finns.

Text är rolig på det sättet.

Jämför detta med text-till-bild eller text-till-konst omständigheter. När generativ AI tillhandahåller en text-till-bild- eller text-till-art-funktion, anger du en textprompt och AI-appen producerar en bild baserad på uppmaningen du angav. Bilden kan vara olik alla bilder som någonsin har setts på denna eller någon annan planet.

Å andra sidan kan bilden påminna om andra bilder som finns. Vi kan titta på den generativa AI-producerade bilden och något av maginstinkt säga att den säkert ser ut som någon annan bild som vi har sett tidigare. I allmänhet visuell aspekter av jämförelse och kontrast är lite lättare att genomföra. Som sagt, vänligen vet att enorma juridiska debatter säkerställer vad som utgör överlappning eller replikering av en bild från en annan.

En annan liknande situation finns med musik. Det finns generativa AI-appar som låter dig ange en textuppmaning och utgången som produceras av AI är ljudmusik. Dessa text-till-ljud- eller text-till-musik AI-funktioner har precis börjat dyka upp. En sak du kan satsa din högsta dollar på är att musiken som produceras av generativ AI kommer att bli mycket granskad för intrång. Vi verkar veta när vi hör musikintrång, även om detta återigen är en komplex juridisk fråga som inte bara är baserad på hur vi känner inför den upplevda replikeringen.

Tillåt mig ytterligare ett exempel.

Text-till-kod-generativ AI ger dig möjligheten att ange en textuppmaning och AI:n kommer att producera programmeringskod åt dig. Du kan sedan använda denna kod för att förbereda ett datorprogram. Du kan använda koden exakt som den genereras, eller så kan du välja att redigera och justera koden för att passa dina behov. Det finns också ett behov av att se till att koden är lämplig och användbar eftersom det är möjligt att fel och falskheter kan uppstå i den genererade koden.

Ditt första antagande kan vara att programmeringskoden inte är annorlunda än text. Det är bara text. Visst är det en text som ger ett särskilt syfte, men det är ändå text.

Tja, inte precis. De flesta programmeringsspråk har ett strikt format och en strikt struktur för karaktären av kodningssatserna för det språket. Detta är på sätt och vis mycket smalare än ett fritt flödande naturligt språk. Du är något inrutad i hur kodningssatserna är formulerade. På samma sätt är sekvensen och sättet som påståendena används och arrangeras på något inramade.

Sammantaget är möjligheten att visa att programmeringskoden plagierats eller kränkts nästan enklare än naturligt språk. Således, när en generativ AI går för att skanna programmeringskod på Internet och senare genererar programmeringskod, kommer chansen att argumentera för att koden var flagrant replikeras att vara relativt mer övertygande. Inte en slam dunk, så förvänta dig bittra strider om detta.

Min övergripande poäng är att vi kommer att ha samma AI-etik och AI-lagfrågor som konfronteras med alla former av generativ AI.

Plagiat och upphovsrättsintrång kommer att vara problematiska för:

  • Text-till-text eller text-till-uppsats
  • Text-till-bild eller text-till-konst
  • Text-till-ljud eller text-till-musik
  • Text-till-video
  • Text-till-kod
  • Annat

De är alla föremål för samma oro. Vissa kan vara lite lättare att "bevisa" än andra. Alla kommer att få sina egna mardrömmar av AI-etik och AI-lag.

Att hävda plagiat eller upphovsrättsintrång

För diskussionsändamål, låt oss fokusera på text-till-text eller text-till-uppsats generativ AI. Jag gör det delvis på grund av ChatGPTs enorma popularitet, som är text-till-text-typen av generativ AI. Det finns många människor som använder ChatGPT, tillsammans med många andra som använder olika liknande text-till-text-generativa AI-appar.

Vet de människor som använder generativa AI-appar att de potentiellt litar på plagiat eller upphovsrättsintrång?

Det verkar tveksamt att de gör det.

Jag skulle våga påstå att det rådande antagandet är att om den generativa AI-appen är tillgänglig för användning, måste AI-tillverkaren eller företaget som har ställt in AI:n veta eller vara säker på att det inte finns något otrevligt med de varor de erbjuder för användning. Om du kan använda den måste den vara ovanför.

Låt oss återkomma till min tidigare kommentar om hur vi ska försöka bevisa att en viss generativ AI arbetar på en felaktig grund vad gäller dataträningen.

Jag kan också tillägga att om vi kan fånga en generativ AI som gör det, kommer sannolikt chanserna att få tag på de andra att öka. Jag säger inte att alla generativa AI-appar skulle vara i samma båt. Men de kommer att hamna i ganska hårda hav när en av dem klistras fast i väggen.

Det är därför det också kommer att vara oerhört värt att hålla ett öga på de befintliga rättegångarna. Den första som vinner vad gäller det påstådda intrånget, om detta inträffar, kommer möjligen att betyda undergång och dysterhet för de andra generativa AI-apparna, såvida inte en viss snävhet undkommer de bredare frågorna. De som förlorar när det gäller det påstådda intrånget betyder inte nödvändigtvis att de generativa AI-apparna kan ringa i klockor och fira. Det kan vara så att förlusten tillskrivs andra faktorer som inte är lika relevanta för de andra generativa AI-apparna, och så vidare.

Jag hade nämnt att om vi tar en 100-ords uppsats och försöker hitta de exakta orden i exakt samma sekvens på Internet, kan vi ha ett relativt solidt argument för plagiat eller upphovsrättsintrång, allt annat lika. Men om antalet ord som matchar är lågt verkar vi vara på tunn is.

Jag skulle vilja gräva djupare i det.

En uppenbar aspekt av att göra en jämförelse består av exakt samma ord i exakt samma sekvens. Detta kan inträffa för hela passager. Detta skulle vara bekvämt att upptäcka, nästan som att lämnas till oss på ett silverfat.

Vi kan också vara misstänksamma om bara ett stycke ord matchar. Tanken skulle vara att se om de är avgörande ord eller kanske utfyllnadsord som vi lätt kan ta bort eller ignorera. Vi vill inte heller bli lurade av användningen av ord i deras förflutna eller framtida tid, eller annat snålt. Dessa variationer i ord bör också beaktas.

En annan nivå av jämförelse skulle vara när orden inte är särskilt samma ord i stor utsträckning, men orden, även i ett varierat tillstånd, fortfarande verkar göra samma poäng. Till exempel kommer en sammanfattning ofta att använda ganska liknande ord som en originalkälla, men vi kan urskilja att sammanfattningen verkar baserad på originalkällan.

Den svåraste nivån av jämförelse skulle baseras på koncept eller idéer. Anta att vi ser en uppsats som inte har samma eller liknande ord som jämförelsebas, men essensen eller idéerna är desamma. Vi är visserligen på väg in i ett tufft territorium. Om vi ​​utan vidare skulle säga att idéer är nära skyddade, skulle vi lägga locket på nästan alla former av kunskap och kunskapsutvidgning.

Vi kan återigen hänvisa till en praktisk förklaring från Duke University:

  • "Upphovsrätten skyddar inte idéer, bara det specifika uttrycket för en idé. Till exempel beslutade en domstol att Dan Brown inte gjorde intrång i upphovsrätten till en tidigare bok när han skrev The Da Vinci Code eftersom allt han lånade från det tidigare arbetet var de grundläggande idéerna, inte detaljerna i handlingen eller dialogen. Eftersom upphovsrätten är avsedd att uppmuntra kreativ produktion, att använda någon annans idéer för att skapa ett nytt och originellt verk upprätthåller syftet med upphovsrätten, det bryter inte mot den. Endast om man kopierar en annans uttryck utan tillåtelse är upphovsrätten potentiellt intrång.”
  • ”För att undvika plagiat, å andra sidan, måste man erkänna källan även till idéer som är lånade från någon annan, oavsett om uttrycket av de idéerna är lånat med dem. En omskrivning kräver alltså citering, även om den sällan väcker några upphovsrättsliga problem.”

Vänligen notera som tidigare identifierat skillnaderna mellan de dubbla problemaspekterna.

Att omsätta jämförelsemetoderna i praktiken är något som har pågått i många år. Tänk på det så här. Elever som skriver uppsatser för sina skolarbeten kan frestas att hämta innehåll från Internet och låtsas att de skrivit de A-klassade Pulitzer-priset.

Lärare har använt plagiatkontrollprogram under lång tid för att hantera detta. En lärare tar en elevs uppsats och matar in den i plagiatkontrollen. I vissa fall kommer en hel skola att licensiera användningen av ett program för plagiatkontroll. Närhelst eleverna lämnar in en uppsats måste de först skicka uppsatsen till plagiatkontrollprogrammet. Läraren informeras om vad programmet rapporterar.

Tyvärr måste du vara extremt försiktig med vad dessa plagiatkontrollprogram har att säga. Det är viktigt att noggrant bedöma om de rapporterade indikationerna är giltiga. Som redan nämnts kan förmågan att fastställa om ett verk kopierades vara oklar. Om du tanklöst accepterar resultatet av kontrollprogrammet, kan du felaktigt anklaga en elev för att kopiera när de inte gjorde det. Detta kan vara själskrossande.

När vi går vidare kan vi försöka använda plagiatkontrollprogram för att testa generativa AI-utgångar. Behandla de utskrivna uppsatserna från en generativ AI-app som om de var skrivna av en student. Vi mäter sedan vad plagiatkontrollen säger. Detta görs med en nypa salt.

Det finns en nyligen genomförd forskningsstudie som försökte operationalisera dessa typer av jämförelser i samband med generativ AI på just detta sätt. Jag skulle vilja gå igenom några intressanta fynd med dig.

Först krävs lite extra bakgrund. Generativ AI kallas ibland LLMs (stora språkmodeller) eller helt enkelt LMs (språkmodeller). För det andra är ChatGPT baserad på en version av ett annat OpenAI-generativt AI-paket som heter GPT-3.5. Före GPT-3.5 fanns det GPT-3, och innan det var GPT-2. Nuförtiden anses GPT-2 vara ganska primitiv i jämförelse med den senare serien, och vi väntar alla med spänning på den kommande avtäckningen av GPT-4, se min diskussion på länken här.

Forskningsstudien som jag kortfattat vill utforska bestod av att undersöka GPT-2. Det är viktigt att inse eftersom vi nu är längre bortom kapaciteten hos GPT-2. Dra inga förhastade slutsatser om resultaten av denna analys av GPT-2. Icke desto mindre kan vi lära oss mycket av bedömningen av GPT-2. Studien har titeln "Do Language Models Plagiarize?" av Jooyoung Lee, Thai Le, Jinghui Chen och Dongwon Lee, som visas i ACM WWW '23, 1–5 maj 2023, Austin, TX, USA.

Detta är deras huvudsakliga forskningsfråga:

  • "I vilken utsträckning (inte begränsat till memorering) utnyttjar LM:er fraser eller meningar från sina träningsexempel?"

De använde dessa tre nivåer eller kategorier av potentiellt plagiat:

  • "Ordagrant plagiat: Exakta kopior av ord eller fraser utan omvandling."
  • "Plagiat i parafraser: Synonym substitution, ordomställning och/eller tillbakaöversättning."
  • "Idéplagiat: Representation av kärninnehåll i en långsträckt form."

GPT-2 var verkligen utbildad på internetdata och därför en lämplig kandidat för denna typ av analys:

  • "GPT-2 är förtränad på WebText och innehåller över 8 miljoner dokument hämtade från 45 miljoner Reddit-länkar. Eftersom OpenAI inte har släppt WebText offentligt använder vi OpenWebText som är en återskapande av WebText-korpusen med öppen källkod. Den har använts på ett tillförlitligt sätt av tidigare litteratur."

Selektiva nyckelfynd som utdrag från studien består av:

  • "Vi upptäckte att förutbildade GPT-2-familjer plagierar från OpenWebText."
  • "Våra resultat visar att finjustering avsevärt minskar ordagrant plagiatfall från OpenWebText."
  • "I överensstämmelse med Carlini et al. och Carlini et al., finner vi att större GPT-2-modeller (stora och xl) generellt genererar plagierade sekvenser oftare än mindre."
  • "Men olika LMs kan visa olika mönster av plagiat, och därför kanske våra resultat inte direkt generaliserar till andra LMs, inklusive nyare LMs som GPT-3 eller BLOOM."
  • "Dessutom är automatiska plagiatdetektorer kända för att ha många fellägen (både i falska negativa och falska positiva).
  • "Med tanke på att en majoritet av LMs utbildningsdata skrapas bort från webben utan att informera innehållsägare, har deras upprepning av ord, fraser och till och med kärnidéer från utbildningsset till genererade texter etiska konsekvenser."

Vi behöver definitivt mycket fler studier av det här slaget.

Om du är nyfiken på hur GPT-2 kan jämföras med GPT-3 när det gäller dataträning så finns det en ganska markant kontrast.

Enligt rapporterade indikationer var dataträningen för GPT-3 mycket mer omfattande:

  • – Modellen tränades med hjälp av textdatabaser från internet. Detta inkluderade hela 570 GB data från böcker, webbtexter, Wikipedia, artiklar och andra artiklar på internet. För att vara ännu mer exakt matades 300 miljarder ord in i systemet” (BBC Science Focus magazine, "ChatGPT: Allt du behöver veta om OpenAI:s GPT-3-verktyg" av Alex Hughes, februari 2023).

För er som är intresserade av mer djupgående beskrivningar av dataträningen för GPT-3, här är ett utdrag från det officiella GPT-3-modellkortet som publicerats på GitHub (senast uppdaterad datum listad som september 2020):

  • "GPT-3 träningsdatauppsättning består av text som lagts upp på internet eller av text som laddats upp på internet (t.ex. böcker). Internetdata som den har tränats på och utvärderats mot hittills inkluderar: (1) en version av CommonCrawl-datauppsättningen, filtrerad baserat på likhet med högkvalitativa referenskorpora, (2) en utökad version av webbtextdataset, (3 ) två internetbaserade bokkorpus och (4) engelskspråkiga Wikipedia.”
  • "Med tanke på dess träningsdata är GPT-3:s utdata och prestanda mer representativa för internetuppkopplade befolkningar än de som är genomsyrade av verbal, icke-digital kultur. Den internetanslutna befolkningen är mer representativ för utvecklade länder, rika, yngre och manliga åsikter, och är mestadels USA-centrerad. Rikare nationer och befolkningar i utvecklade länder uppvisar högre internetpenetration. Den digitala könsuppdelningen visar också att färre kvinnor är representerade online över hela världen. Dessutom, eftersom olika delar av världen har olika nivåer av internetpenetration och åtkomst, underrepresenterar datasetet mindre uppkopplade samhällen."

En avvikelse från ovanstående indikation om GPT-3 är att en tumregel bland de som gör generativ AI är att ju mer internetdata du kan skanna, ökar oddsen för att förbättra eller avancera den generativa AI.

Du kan se på detta på något av två sätt.

  • 1) förbättrad AI. Vi kommer att ha generativ AI som kryper över så mycket av Internet som möjligt. Det spännande resultatet är att den generativa AI kommer att bli bättre än den redan är. Det är något att se fram emot.
  • 2) Kopieringspotential i överflöd. Denna utvidgning av genomsökning av Internet gör på ett obehagligt och engagerande sätt problemet med plagiat och upphovsrättsintrång potentiellt större och större. Medan det tidigare inte var så många innehållsskapare som påverkades, kommer storleken att blomstra. Om du är en advokat på sidan av innehållsskaparna får du tårar i ögonen (kanske tårar av bestörtning, eller tårar av glädje över vilka framtidsutsikter detta ger när det gäller stämningar).

Är glaset halvfullt eller halvtomt?

Du bestämmer.

Lagliga landminor väntar

En fråga som du kanske funderar över är om ditt upplagda internetinnehåll anses vara rättvist för att det skannas. Om ditt innehåll ligger bakom en betalvägg är det förmodligen inte ett mål för att skannas eftersom det inte lätt kan nås, beroende på betalväggens styrka.

Jag skulle gissa att de flesta vanliga människor inte har sitt innehåll undangömt bakom en betalvägg. De vill att deras innehåll ska vara allmänt tillgängligt. De antar att folk kommer att titta på det.

Betyder det att ditt innehåll är tillgängligt för allmänheten också axiomatiskt att du godkänner att det ska skannas för användning av generativ AI som datatränas?

Kanske, kanske inte.

Det är en av de där rättsliga frågorna som rullar med ögonen.

Återgår till det tidigare citerade Bloomberg-lag artikeln nämner författarna vikten av de allmänna villkoren (T&C) som är förknippade med många webbplatser:

  • "Den lagliga landminan – som i hög grad ignoreras av omedvetna AI-företag som driver online-bots för dataskrapning – är gömd i villkoren som är allmänt tillgängliga på offentliga webbplatser av alla slag. I motsats till den för närvarande oreglerade IP-lagstiftningen och upphovsrättsintrångsdilemmat, stöds en webbplatss villkor och villkor av väletablerad avtalslagstiftning och kan vanligtvis verkställas i domstol med ett tillräckligt antal prejudikat.”

De indikerar att om du antar att din webbplats har en licensrelaterad sida, är chansen stor att om du använde en standardiserad modern mall kan den innehålla en avgörande klausul:

  • "Därför innehåller de flesta allmänna villkoren för webbplatser – i överflöd tillgängliga i fri tillgång – en klausul som förbjuder automatisk dataskrapning. Ironiskt nog har sådana fritt tillgängliga mallar möjligen använts för ChatGPT-träning. Därför kan innehållsägare vilja granska sina villkor och infoga en separat klausul som helt och hållet förbjuder all användning av innehåll från webbplatserna för AI-träning eller andra relaterade ändamål, oavsett om det samlas in manuellt eller automatiskt, utan föregående skriftligt tillstånd från webbplatsägaren .”

En extra kicker ingår i deras analys av potentiella åtgärder för innehållsskapare att vidta om sina webbplatser:

  • "Därför kan det vara en hållbar lösning för de författare av kreativt innehåll som inte är angelägna om att ge frukterna av deras intellektuellt arbete för AI-utbildningsändamål utan att få betalt för det eller åtminstone ges en ordentlig kredit för sitt arbete."

Du kanske vill rådfråga din advokat om detta.

Vissa säger att detta är ett viktigt sätt att försöka tala om för AI-skaparna att innehållsskapare är mycket seriösa när det gäller att skydda sitt innehåll. Att se till att din licensiering har rätt ordalydelse verkar märka AI-tillverkarna.

Andra är dock lite nedslående. De säger förtvivlat att du kan fortsätta att sätta det hårdaste och mest dödliga juridiska språket på din webbplats, men i slutändan kommer AI-tillverkarna att skanna det. Du kommer inte att veta att de gjorde det. Du kommer att få en jäkla tid som bevisar att de gjorde det. Det är osannolikt att du upptäcker att deras utdata återspeglar ditt innehåll. Det är en uppförsbacke som du inte kommer att vinna.

Motargumentet är att du ger upp striden innan den ens fördes. Om du inte åtminstone har tillräckligt med juridiskt språk, och om du någonsin fångar dem, kommer de att vicka och vässla sig fram för att slippa allt ansvar. Allt för att du inte postade rätt sorts juridiska språkspråk.

Under tiden skulle ett annat tillvägagångssätt som försöker få dragkraft bestå av märkning din webbplats med något som säger att webbplatsen inte ska skannas av generativ AI. Tanken är att en standardiserad markör skulle utarbetas. Webbplatser kan förmodligen lägga till markören på sin webbplats. AI-tillverkare skulle få veta att de borde ändra sin dataskanning för att hoppa över de markerade webbplatserna.

Kan en markörstrategi vara framgångsrik? Bekymmer inkluderar kostnaderna för att skaffa och lägga upp markörerna. Tillsammans med om AI-tillverkarna kommer att följa markörerna och se till att de undviker att skanna de markerade platserna. Ett annat perspektiv är att även om AI-tillverkarna inte går med på markeringarna, ger detta ytterligare en ledtråd för att gå till domstol och hävda att innehållsskaparen gick den sista milen för att försöka varna för AI-skanningen.

Usch, allt får huvudet att snurra.

Slutsats

Några sista kommentarer om detta svåra ämne.

Är du redo för ett förvirrande perspektiv på hela denna AI som ett plagiatörs- och upphovsrättsintrångsdilemma?

Mycket av antagandet om att "fånga" generativ AI i plagiat eller upphovsrättsintrång beror på att upptäcka utdata som liknar mycket tidigare arbeten såsom innehållet på Internet som potentiellt skannades under dataträning.

Anta dock att ett dela-och-härska-trick är på gång här.

Här är vad jag menar.

Om den generativa AI:n lånar en liten bit härifrån och en liten bit därifrån, och i slutändan blandar ihop dem för att producera en viss utdata, minskar chanserna att kunna ha ett gotcha-ögonblick avsevärt. Varje utdata kommer till synes inte att stiga till ett tillräckligt tröskelvärde för att du med säkerhet skulle kunna säga att det var kopierat från ett visst källobjekt. Den resulterande uppsatsen eller andra utdatasätt kommer endast att kunna matchas till en del. Och genom det vanliga tillvägagångssättet att försöka argumentera för att plagiat eller upphovsrättsintrång har förekommit, måste du vanligtvis visa upp mer än någon liten liten bit som spelar in, särskilt om biten inte är en framstående och kan hittas överallt på Internet (underbud). tillräcklig bevisbörda för förskingring).

Kan du fortfarande övertygande deklarera att dataträningen av generativ AI har rivit bort webbplatser och innehållsskapare även om det föreslagna beviset är en till synes oväsentlig andel?

Tänk på det.

Om vi ​​står inför potentiellt plagiat i stor skala och upphovsrättsintrång i stor skala, kan vi behöva ändra vår strategi för att definiera vad som utgör plagiat och/eller upphovsrättsintrång. Kanske finns det ett argument för plagiat eller upphovsrättsintrång i huvudsak eller i stort. En mosaik som består av tusentals eller miljontals små utdrag kan tolkas som att den begår sådana kränkningar. Det uppenbara problemet är dock att detta kan göra att allt slags innehåll plötsligt hamnar under ett paraply av intrång. Det här kan vara en hal backe.

Tunga tankar.

På tal om tunga tankar sa Leo Tolstoj, den legendariske författaren, berömt: "Den enda meningen med livet är att tjäna mänskligheten."

Om din webbplats och andras webbplatser genomsöks för att förbättra AI, och även om du inte får ett enda öre för det, kanske du har högtidlig tröst i den brinnande tron ​​att du bidrar till mänsklighetens framtid? Det verkar vara ett litet pris att betala.

Tja, om inte AI visar sig vara den fruktade existentiella risken som utplånar alla människor från existensen. Du borde inte ta åt dig äran för det. Jag antar att du lika snart inte skulle bidra till det där hemska resultatet. Om man lägger den olyckliga förutsägelsen åt sidan, kanske du tänker att om AI-tillverkarna tjänar pengar på sin generativa AI, och de verkar njuta av vinstjaget, borde du också få en del av kakan. Dela och dela lika. AI-tillverkarna bör be om tillåtelse att skanna vilken webbplats som helst och sedan även förhandla fram ett pris som ska betalas för att ha fått göra scanningen.

Ge kredit där kredit förfaller.

Låt oss ge Sir Walter Scott sista ordet för nu: "Åh, vilket trassligt nät vi väver. När vi först övar på att lura.”

Detta kanske gäller om du tror att bedrägeri är på gång, eller kanske inte gäller om du tror att allt är väl och helt rättframt och legitimt. Ge dig själv generöst beröm för att du funderat över detta. Du förtjänar det.

Källa: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- och-ai-lag/