Hur hårt ska vi driva generativ AI ChatGPT till att sprida hatretorik, frågar AI-etik och AI-lag

Vad ska vi göra med generativ AI som producerar stötande innehåll som hatpropaganda?

Getty

Alla har sin brytpunkt.

Jag antar att du också kan säga det allt har sin brytpunkt.

Vi vet att människor till exempel ibland kan knäppa och uttala kommentarer som de inte nödvändigtvis menar att säga. På samma sätt kan du ibland få en enhet eller maskin att i princip knäppa, som att trycka din bil för hårt och den börjar vackla eller flyga isär. Således är uppfattningen att människor eller "alla" sannolikt har en brytpunkt, och på samma sätt kan vi hävda att objekt och saker i allmänhet också tenderar att ha en brytpunkt.

Det kan finnas ganska vettiga och viktiga skäl att ta reda på var brytpunkten finns. Till exempel, du har utan tvekan sett de här videorna som visar upp en bil som ställs genom sina steg för att identifiera vilka brytpunkter den har. Forskare och testare kommer att ramla in en bil i en tegelvägg för att se hur väl stötfångaren och fordonets struktur kan motstå den negativa effekten. Andra tester kan omfatta användning av ett specialiserat rum eller lager som producerar extrem kyla eller extrem värme för att se hur en bil kommer att klara sig under olika väderförhållanden.

Jag tar upp detta hjärtliga ämne i dagens kolumn så att vi kan diskutera hur vissa för närvarande driver hårt på artificiell intelligens (AI) för att identifiera och förmodligen avslöja en specifik typ av brytpunkt, nämligen brytpunkten inom AI som producerar hatpropaganda.

Ja, det stämmer, det pågår olika ad hoc och ibland systematiska ansträngningar för att bedöma om det är möjligt att få AI att sprida hatretorik. Detta har blivit en ivrig sport, om man så vill, på grund av det ökande intresset för och populariteten för generativ AI.

Du kanske är medveten om att en generativ AI-app känd som ChatGPT har blivit stadens överordnade tal som ett resultat av att kunna generera otroligt flytande uppsatser. Rubriker fortsätter att skrälla och berömma den häpnadsväckande texten som ChatGPT lyckas producera. ChatGPT anses vara en generativ AI-applikation som tar som indata en del text från en användare och sedan genererar eller producerar en utdata som består av en uppsats. AI är en text-till-text-generator, även om jag beskriver AI som en text-till-uppsats-generator eftersom det lättare klargör vad den vanligtvis används till.

Många blir förvånade när jag nämner att den här typen av AI har funnits ett tag och att ChatGPT, som släpptes i slutet av november, inte på något sätt gjorde anspråk på priset som first-mover till denna text-till-uppsatssfär benägenhet. Jag har diskuterat under åren andra liknande generativa AI-appar, se min täckning på länken här.

Anledningen till att du kanske inte känner till eller kommer ihåg de tidigare fallen av generativ AI beror kanske på den klassiska "misslyckande att framgångsrikt lansera" gåtan. Här är vad som vanligtvis har hänt. En AI-tillverkare släpper sin generativa AI-app och gör det med stor spänning och ivrig förväntan att världen kommer att uppskatta uppfinningen av en bättre råttfälla, kan man säga. Till en början ser allt bra ut. Människor är förvånade över vad AI kan göra.

Tyvärr är nästa steg att hjulen börjar lossna från den ökända bussen. AI:n producerar en uppsats som innehåller ett fult ord eller kanske en ful fras. En viral tweet eller annat inlägg på sociala medier visar tydligt att AI gjorde detta. Fördömande uppstår. Vi kan inte ha AI som går runt och genererar stötande ord eller stötande kommentarer. En enorm motreaktion uppstår. AI-tillverkaren försöker kanske justera AI:s inre funktioner, men komplexiteten i algoritmerna och data lämpar sig inte för snabba lösningar. En rasering uppstår. Fler och fler exempel på AI-avgivande foulness hittas och publiceras online.

AI-tillverkaren har motvilligt men uppenbarligen inget annat val än att ta bort AI-appen från användning. De fortsätter som sådana och ber ofta om ursäkt som de ångrar om någon blev förolämpad av AI-utgångarna som genererades.

Tillbaka till ritbordet går AI-makaren. En läxa har dragits. Var mycket försiktig med att släppa generativ AI som producerar fula ord eller liknande. Det är dödskyssen för AI. Dessutom kommer AI-tillverkaren att få sitt rykte skadat och misshandlat, vilket kan pågå under lång tid och undergräva alla deras andra AI-insatser, inklusive sådana som inte har något att göra med generativ AI i sig. Att få din petard förtjust i utsändandet av stötande AI-språk är ett nu bestående misstag. Det händer fortfarande.

Tvätta, skölj och upprepa.

I början av den här typen av AI var AI-tillverkarna inte lika samvetsgranna eller skickliga på att skrubba sin AI när det gäller att försöka förhindra stötande utsläpp. Nuförtiden, efter att tidigare ha sett sina kamrater bli helt krossade av en PR-mardröm, verkar de flesta AI-makare ha fattat budskapet. Du måste sätta så många skyddsräcken på plats som du kan. Försök att förhindra AI från att avge fula ord eller fula fraser. Använd vilken mysningsteknik eller filtreringsmetoder som helst som hindrar AI från att generera och visa ord eller uppsatser som befinns vara olämpliga.

Här är ett smakprov på banrubrikens ordspråk som används när AI fångas för att avge oansedda utdata:

"AI visar på fruktansvärd toxicitet"
"AI stinker av rent trångsynthet"
"AI blir flagrant offensivt kränkande"
"AI spyr fram skrämmande och omoraliskt hattal"
Annat

För att underlätta diskussionen här, kommer jag att hänvisa till utmatning av stötande innehåll som att likställa med produktion av hatpropaganda. Med detta sagt, var medveten om att det finns alla möjliga stötande innehåll som kan produceras, som går utöver gränserna för hatretorik. Hatretorik tolkas vanligtvis som bara en form av stötande innehåll.

Låt oss fokusera på hatretorik för denna diskussion, för att underlätta diskussionen, men inser att annat stötande innehåll också förtjänar granskning.

Gräver i hatretorik av människor och av AI

FN definierar hatpropaganda den här vägen:

"I vanligt språk hänvisar 'hatfullhet' till kränkande diskurs som riktar sig till en grupp eller en individ baserat på inneboende egenskaper (som ras, religion eller kön) och som kan hota den sociala freden. För att tillhandahålla ett enhetligt ramverk för FN för att ta itu med frågan globalt, definierar FN:s strategi och handlingsplan mot hatretorik hatretorik som "all form av kommunikation i tal, skrift eller beteende, som attackerar eller använder nedsättande eller diskriminerande språk med hänvisning till en person eller en grupp på grundval av vem de är, med andra ord, baserat på deras religion, etnicitet, nationalitet, ras, hudfärg, härkomst, kön eller annan identitetsfaktor.' Men hittills finns det ingen universell definition av hatretorik enligt internationell lag om mänskliga rättigheter. Begreppet är fortfarande under diskussion, särskilt i relation till åsikts- och yttrandefrihet, icke-diskriminering och jämlikhet” (FN-webbplatsinlägg med rubriken ”Vad är hatretorik?”).

AI som producerar text kan komma in i hatpropagandasfären. Du kan säga detsamma om text-till-art, text-to-audio, text-to-video och andra lägen för generativ AI. Det finns alltid möjligheten att till exempel en generativ AI skulle producera ett konstverk som doftar av hatretorik. För denna diskussion kommer jag att fokusera på text-till-text- eller text-till-essä-möjligheterna.

In i allt detta kommer en mängd AI-etik och AI-rättsliga överväganden.

Var medveten om att det pågår ansträngningar för att införliva etiska AI-principer i utvecklingen och användningen av AI-appar. En växande kontingent av berörda och dåvarande AI-etiker försöker se till att ansträngningarna att ta fram och införa AI tar hänsyn till en syn på att göra AI For Good och avvärja AI för dåligt. Likaså finns det föreslagna nya AI-lagar som samlas runt som potentiella lösningar för att hindra AI-strävanden från att gå amok på mänskliga rättigheter och liknande. För min pågående och omfattande bevakning av AI-etik och AI-lag, se länken här och länken här, bara för att nämna några.

Utvecklingen och spridningen av etiska AI-föreskrifter eftersträvas för att förhoppningsvis förhindra att samhället hamnar i en myriad av AI-inducerande fällor. För min bevakning av FN:s AI-etiska principer som utformats och stöds av nästan 200 länder via Unescos insatser, se länken här. På liknande sätt undersöks nya AI-lagar för att försöka hålla AI på en jämn köl. En av de senaste tagen består av en uppsättning föreslagna AI Bill of Rights som amerikanska Vita huset nyligen släppte för att identifiera mänskliga rättigheter i en tidsålder av AI, se länken här. Det krävs en by för att hålla AI- och AI-utvecklare på rätt väg och avskräcka målmedvetna eller oavsiktliga hemliga ansträngningar som kan undergrava samhället.

Jag kommer att väva in AI-etik och AI-lagsrelaterade överväganden i den här diskussionen om AI som sprider hatretorik eller annat stötande innehåll.

En bit av förvirring som jag omedelbart skulle vilja reda ut är att dagens AI inte är kännande och därför kan du inte proklamera att AI kan producera hatretorik på grund av en målmedveten människoliknande avsikt som själsligt förkroppsligad på något sätt i AI:n. Zany hävdar att den nuvarande AI:n är kännande och att AI:n har en korrumperad själ, vilket gör att den genererar hatretorik.

Löjlig.

Fall inte för det.

Med tanke på detta keystone-recept blir vissa upprörda över sådana indikationer eftersom du till synes släpper AI:n. Under det udda sättet att tänka kommer uppmaningen härnäst att du uppenbarligen är villig att låta AI generera alla slags fruktansvärda resultat. Du är för AI som sprider hatretorik.

Usch, en ganska skruvad form av ologiska. Den verkliga kärnan i saken är att vi måste hålla AI-tillverkarna ansvariga, tillsammans med vem som än arbetar med AI eller driver AI. Jag har länge diskuterat att vi ännu inte är på väg att erkänna juridisk person till AI, se mina analyser på länken här, och fram till dess är AI i huvudsak utanför det juridiska ansvaret. Det finns dock människor som ligger bakom utvecklingen av AI. Dessutom ligger människor bakom fältet och driften av AI. Vi kan gå efter dessa människor för att de bär ansvaret för deras AI.

För övrigt kan detta också vara knepigt, särskilt om AI:n flyter ut på Internet och vi inte kan fastställa vilken eller vilka människor som gjorde detta, vilket är ett annat ämne som jag har tagit upp i mina kolumner på länken här. Knepigt eller inte, vi kan fortfarande inte proklamera att AI är den skyldiga parten. Låt inte människor smygande använda falsk antropomorfisering för att gömma sig och undkomma ansvar för vad de har åstadkommit.

Åter till saken.

Du kanske undrar varför det är så att alla AI-tillverkare inte bara begränsar sin generativa AI så att det är omöjligt för AI att producera hatretorik. Det här verkar lättsamt. Skriv bara lite kod eller upprätta en checklista med hatiska ord, och se till att AI:n aldrig genererar något liknande. Det verkar kanske konstigt att AI-tillverkarna inte redan tänkt på denna snabblösning.

Tja, jag hatar att berätta det här, men komplexiteten i att tolka vad som är eller inte är hatretorik visar sig vara mycket svårare än du kan anta att det är.

Flytta detta till människors domän och hur människor chattar med varandra. Antag att du har en människa som vill undvika att uttala hatretorik. Den här personen är mycket medveten om hatretorik och hoppas verkligen undvika att någonsin ange ett ord eller en fras som kan utgöra hatretorik. Den här personen är ständigt uppmärksam på att inte tillåta ett jota av hatretorik att fly från munnen.

Kommer den här människan som har en hjärna och är uppmärksam på att undvika hatretorik alltid och utan någon chans att halka kunna försäkra sig om att de aldrig avger hatretorik?

Din första impuls kan vara att säga att ja, naturligtvis, en upplyst människa skulle kunna uppnå det målet. Människor är smarta. Om de satsar på något kan de få det gjort. Period, slutet på historien.

Var inte så säker.

Anta att jag ber den här personen att berätta för mig om hatretorik. Dessutom ber jag dem att ge mig ett exempel på hatretorik. Jag vill se eller höra ett exempel så att jag kan veta vad hatretorik består av. Mina skäl till att fråga detta är ovanligt.

Vad ska personen säga till mig?

Jag tror att man kan se fällan som har lagts. Om personen ger mig ett exempel på hatretorik, inklusive att faktiskt ange ett fult ord eller en fras, har de nu själva yttrat hatretorik. Bam, vi har dem. Medan de lovade att aldrig säga hatretorik, har de verkligen gjort det nu.

Orättvist, utbrister du! De sa bara det ordet eller de orden för att ge ett exempel. I sina hjärtan trodde de inte på ordet eller orden. Det är helt ur sitt sammanhang och upprörande att deklarera att personen är hatisk.

Jag är säker på att du ser att att uttrycka hatretorik inte nödvändigtvis beror på en hatisk grund. I det här användningsfallet, om vi antar att personen inte "menade" orden, och de bara reciterade orden i demonstrationssyfte, skulle vi förmodligen hålla med om att de inte hade menat att stärka hattalet. Naturligtvis finns det några som kan insistera på att det är fel att uttala hatretorik, oavsett orsak eller grund. Personen borde ha avvisat begäran. De borde ha stått på sitt och vägrat säga hatord eller fraser, oavsett varför eller hur de uppmanas att göra det.

Detta kan bli något cirkulärt. Om du inte kan säga vad som utgör hatretorik, hur kan andra veta vad de ska undvika när de gör yttranden av något slag? Vi verkar ha fastnat. Du kan inte säga det som inte ska sägas, inte heller kan någon annan berätta för dig vad det är som inte kan sägas.

Det vanliga sättet att kringgå detta dilemma är att med andra ord beskriva det som anses vara hatretorik, utan att åberopa själva hatretoriken. Tron är att tillhandahållandet av en övergripande indikation är tillräckligt för att informera andra om vad de behöver undvika. Det verkar vara en förnuftig taktik, men den har också problem och en person kan fortfarande falla i att använda hatretorik eftersom de inte märkte att den bredare definitionen omfattade detaljerna i vad de har yttrat.

Allt detta handlar om människor och hur människor talar eller kommunicerar med varandra.

Kom ihåg att vi är fokuserade här på AI. Vi måste få AI:n att undvika eller helt stoppa sig själv från att avge hatpropaganda. Du kanske hävdar att vi kanske kan göra det genom att se till att AI aldrig ges eller tränas på något som utgör hatretorik. Voila, om det inte finns någon sådan ingång kommer det förmodligen inte att finnas någon sådan utdata. Problemet löst.

Låt oss se hur detta utspelar sig i verkligheten. Vi väljer att beräkningsmässigt låta en AI-app gå ut på Internet och undersöka tusentals och åter tusentals uppsatser och berättelser som publicerats på Internet. Genom att göra det tränar vi AI beräkningsmässigt och matematiskt i hur man hittar mönster bland de ord som människor använder. Det är så det senaste inom generativ AI utvecklas, och det är också en avgörande grund för varför AI är så till synes flytande i att producera uppsatser på naturligt språk.

Berätta för mig, om du kan, hur skulle beräkningsträning baserad på miljoner och miljarder ord på Internet göras på ett sådant sätt att någon sken av eller ens bitar av hattal inte vid något tillfälle omfattades?

Jag skulle våga påstå att detta är en svår och nästan omöjlig strävan.

Oddsen är att hatretorik kommer att slukas upp av AI och dess nätverk för beräkningsmönstermatchning. Att försöka förhindra detta är problematiskt. Plus, även om du har minimerat det, finns det fortfarande några som kan smyga igenom. Du har i stort sett inget annat val än att anta att vissa kommer att finnas inom nätverket för mönstermatchning eller att en skugga av sådana formuleringar kommer att förankras.

Jag kommer att lägga till fler vändningar.

Jag tror att vi alla kan erkänna att hatretorik förändras över tid. Det som kan ha uppfattats som att det inte är hatretorik kan bli kulturellt och samhälleligt avgjort som hatretorik vid en senare tidpunkt. Så om vi tränar vår AI på Internet-text och sedan låt oss säga att AI:n fryses för att inte genomföra ytterligare utbildning på Internet, kan vi ha stött på hatretorik vid den tiden, även om det inte ansågs hatretorik vid den tiden. Först i efterhand kan det nämnda talet förklaras som hatretorik.

Återigen, kärnan är att bara att försöka lösa detta problem genom att se till att AI:n aldrig utsätts för hatretorik inte kommer att vara silverkulan. Vi kommer fortfarande att behöva hitta ett sätt att förhindra AI från att avge hatretorik på grund av till exempel att ändra seder som sedan inkluderar hatretorik som tidigare inte ansågs vara sådan.

Ännu en vändning är värd att begrunda.

Jag nämnde tidigare att när man använder generativ AI som ChatGPT, skriver användaren in text för att sporra AI:n att producera en uppsats. Den inmatade texten anses vara en form av uppmaning eller uppmaning för AI-appen. Jag ska förklara mer om detta om ett ögonblick.

Föreställ dig i alla fall att någon som använder en generativ AI-app bestämmer sig för att gå in som en prompt en viss mängd hatretorik.

Vad ska hända?

Om AI:n tar dessa ord och producerar en uppsats som utdata baserat på dessa ord, är chansen stor att hattalet kommer att inkluderas i den genererade uppsatsen. Du förstår, vi fick AI:n att säga hatretorik, även om den aldrig tränats på hatretorik vid start.

Det är något annat du behöver veta.

Kom ihåg att jag just nämnde att en människa kan snubblas genom att be dem ge exempel på hatretorik. Detsamma kan man försöka med AI. En användare anger en prompt som ber AI:n att ge exempel på hatretorik. Bör AI följa och ge sådana exempel? Jag slår vad om att du förmodligen tror att AI inte borde göra det. Å andra sidan, om AI:n är beräkningsriggad för att inte göra det, utgör detta en potentiell nackdel som de som använder AI:n inte kommer att kunna bli om vi någonsin kan säga att bli instruerade av AI:n om vad hatretorik faktiskt är ( utöver att bara generalisera om det)?

Svåra frågor.

Jag tenderar att kategorisera AI-utsända hatretorik i dessa tre huvudkategorier:

Vardagsläge. AI avger hatretorik utan någon uttrycklig maning från användaren och som om man gör det på ett "vanligt" sätt.
Av Casual Prodding. AI avger hatretorik som uppmanas av en användare om deras angivna prompt eller serie av prompter som verkar innefatta eller direkt söka sådana utsläpp.
Per Bestämd Stoking. AI avger hatretorik efter en mycket bestämd och envis serie av snabba push och prods av en användare som är angelägen om att få AI:n att producera sådan produktion.

De tidigare generationerna av generativ AI skulle ofta utsända hatretorik på kort sikt; sålunda kan du klassificera dessa instanser som en typ av vardagsläge instansiering. AI-tillverkare drog sig tillbaka och lekte med AI för att göra det mindre troligt att det lätt fastnade i produktion av hatretorik.

Vid lanseringen av den mer raffinerade AI är oddsen att se någon vardagsläge fall av hatretorik minskade dramatiskt. Istället skulle hatpropaganda sannolikt bara uppstå när en användare gjorde något som en uppmaning som kan utlösa beräkningsmässigt och matematiskt en koppling till hatrelaterat tal i mönstermatchningsnätverket. En användare kan göra detta av en slump och inte inse att det de tillhandahåller som en uppmaning särskilt skulle generera hatretorik. Efter att ha fått hatretorik i en utskriven uppsats insåg och såg användaren ofta att något i deras uppmaning logiskt sett kunde ha lett till att hatretorik inkluderades i utmatningen.

Detta är vad jag refererar till som casual prodding.

Nuförtiden är de olika ansträngningarna att begränsa AI-genererat hatretorik relativt starka i jämförelse med tidigare. Som sådan måste du nästan gå ut ur ditt sätt att få hatretorik att produceras. Vissa människor väljer att medvetet se om de kan få hatretorik att komma ur dessa generativa AI-appar. Jag kallar detta beslutsam eldning.

Jag vill betona att alla tre av dessa angivna lägen kan förekomma och att de inte utesluter varandra. En generativ AI-app kan potentiellt producera hatretorik utan någon form av uppmaning som verkar stimulera sådan produktion. På samma sätt kan något i en prompt logiskt och matematiskt tolkas som relaterat till varför hatretorik har avgetts. Och sedan är den tredje aspekten, som målmedvetet försöker få fram hatpropaganda, den kanske svåraste av lägena att försöka få AI:n att undvika att bli hetsad att uppfylla. Mer om detta för en stund.

Vi har ytterligare en uppackning att göra i detta spännande ämne.

Först bör vi se till att vi alla är på samma sida om vad Generativ AI består av och även vad ChatGPT handlar om. När vi väl täcker den grundläggande aspekten kan vi göra en övertygande bedömning av denna tunga fråga.

Om du redan är mycket bekant med Generativ AI och ChatGPT kan du kanske skumma nästa avsnitt och fortsätta med avsnittet som följer det. Jag tror att alla andra kommer att finna lärorika de viktiga detaljerna om dessa frågor genom att noggrant läsa avsnittet och komma igång.

En snabb primer om Generativ AI och ChatGPT

ChatGPT är ett interaktivt konversationsorienterat system för allmänt bruk av AI, i grunden en till synes ofarlig allmän chatbot, men den används aktivt och ivrig av människor på ett sätt som fångar många helt och hållet, som jag kommer att utveckla inom kort. Denna AI-app utnyttjar en teknik och teknik inom AI-området som ofta kallas Generativ AI. AI:n genererar utdata som text, vilket är vad ChatGPT gör. Andra generativt baserade AI-appar producerar bilder som bilder eller konstverk, medan andra genererar ljudfiler eller videor.

Jag kommer att fokusera på de textbaserade generativa AI-apparna i den här diskussionen eftersom det är vad ChatGPT gör.

Generativa AI-appar är oerhört lätta att använda.

Allt du behöver göra är att ange en prompt så genererar AI-appen en uppsats åt dig som försöker svara på din prompt. Den komponerade texten kommer att verka som om uppsatsen skrevs av den mänskliga handen och sinnet. Om du skulle skriva in en uppmaning som sa "Berätta om Abraham Lincoln" kommer den generativa AI:n att förse dig med en uppsats om Lincoln. Detta klassificeras vanligtvis som generativ AI som fungerar text-till-text eller vissa föredrar att kalla det text-till-uppsats produktion. Som nämnts finns det andra lägen för generativ AI, såsom text-to-art och text-to-video.

Din första tanke kan vara att denna generativa förmåga inte verkar vara en så stor sak när det gäller att producera uppsatser. Du kan enkelt göra en onlinesökning på Internet och lätt hitta massor av uppsatser om president Lincoln. Kickaren i fallet med generativ AI är att den genererade uppsatsen är relativt unik och ger en originalkomposition snarare än en kopia. Om du skulle försöka hitta den AI-producerade uppsatsen på nätet någonstans, skulle du knappast upptäcka den.

Generativ AI är förutbildad och använder sig av en komplex matematisk och beräkningsformulering som har satts upp genom att undersöka mönster i skrivna ord och berättelser över webben. Som ett resultat av att undersöka tusentals och miljontals skriftliga stycken kan AI:n spy ut nya essäer och berättelser som är en sammanblandning av vad som hittades. Genom att lägga till olika probabilistiska funktioner blir den resulterande texten ganska unik i jämförelse med vad som har använts i träningsuppsättningen.

Därför har det blivit uppståndelse om att elever ska kunna fuska när de skriver uppsatser utanför klassrummet. En lärare kan inte bara ta uppsatsen som bedrägliga elever hävdar är deras egen skrift och försöka ta reda på om den har kopierats från någon annan onlinekälla. Sammantaget kommer det inte att finnas någon definitiv redan existerande uppsats online som passar den AI-genererade uppsatsen. Allt som allt måste läraren motvilligt acceptera att studenten skrev uppsatsen som ett originalarbete.

Det finns ytterligare farhågor om generativ AI.

En avgörande nackdel är att uppsatserna som produceras av en generativ baserad AI-app kan ha olika falskheter inbäddade, inklusive uppenbart osanna fakta, fakta som är missvisande framställda och uppenbara fakta som är helt påhittade. Dessa påhittade aspekter kallas ofta för en form av AI hallucinationer, en slagord som jag ogillar men som jag beklagligt verkar få populär dragkraft ändå (för min detaljerade förklaring om varför detta är usel och olämplig terminologi, se min bevakning på länken här).

Jag skulle vilja klargöra en viktig aspekt innan vi går in på det här ämnet.

Det har förekommit en del ojämna påståenden på sociala medier om Generativ AI hävdar att den senaste versionen av AI faktiskt är det kännande AI (nej, de har fel!). De inom AI-etik och AI-lag är särskilt oroliga över denna spirande trend med utsträckta anspråk. Du kan artigt säga att vissa människor överdriver vad dagens AI faktiskt kan göra. De antar att AI har kapacitet som vi ännu inte har kunnat uppnå. Det är olyckligt. Ännu värre, de kan tillåta sig själva och andra att hamna i svåra situationer på grund av ett antagande om att AI kommer att vara kännande eller människoliknande när det gäller att kunna vidta åtgärder.

Antropomorfier inte AI.

Om du gör det kommer du att fångas i en klibbig och hård tillitsfälla av att förvänta dig att AI ska göra saker den inte kan utföra. Med det sagt är det senaste inom generativ AI relativt imponerande för vad det kan göra. Var dock medveten om att det finns betydande begränsningar som du ständigt bör ha i åtanke när du använder en generativ AI-app.

Om du är intresserad av det snabbt växande uppståndelsen om ChatGPT och Generativ AI, har jag gjort en fokuserad serie i min kolumn som du kanske tycker är informativ. Här är en blick om något av dessa ämnen faller dig i smaken:

1) Förutsägelser om generativa AI-framsteg som kommer. Om du vill veta vad som sannolikt kommer att utvecklas om AI under 2023 och därefter, inklusive kommande framsteg inom generativ AI och ChatGPT, vill du läsa min omfattande lista med 2023-förutsägelser på länken här.
2) Generativ AI och mental hälsa. Jag valde att granska hur generativ AI och ChatGPT används för rådgivning om mental hälsa, en besvärlig trend, enligt min fokuserade analys på länken här.
3) Grunderna för generativ AI och ChatGPT. Det här stycket utforskar nyckelelementen i hur generativ AI fungerar och gräver i synnerhet ner i ChatGPT-appen, inklusive en analys av buzz och fanfar, på länken här.
4) Spänning mellan lärare och elever över generativ AI och ChatGPT. Här är sätten som eleverna listigt kommer att använda generativ AI och ChatGPT. Dessutom finns det flera sätt för lärare att ta itu med denna flodvåg. Ser länken här.
5) Kontext och generativ AI-användning. Jag gjorde också en säsongsmässigt smaksatt undersökning om en tomte-relaterad kontext som involverade ChatGPT och generativ AI på länken här.
6) Bedragare som använder generativ AI. På en olycksbådande notering har vissa bedragare kommit på hur man använder generativ AI och ChatGPT för att göra fel, inklusive att generera bluffmejl och till och med producera programmeringskod för skadlig programvara, se min analys på länken här.
7) Rookie-misstag med generativ AI. Många människor både överskrider och överraskande underskrider vad generativ AI och ChatGPT kan göra, så jag tittade särskilt på underskottet som AI-rookies tenderar att göra, se diskussionen på länken här.
8) Att hantera generativa AI-meddelanden och AI-hallucinationer. Jag beskriver ett ledande tillvägagångssätt för att använda AI-tillägg för att hantera de olika problem som är förknippade med att försöka skriva in lämpliga uppmaningar i generativ AI, plus att det finns ytterligare AI-tillägg för att upptäcka så kallade AI-hallucinerade utdata och falskheter, som täckt kl länken här.
9) Debunking Bonehead-påståenden om att upptäcka generativa AI-producerade uppsatser. Det finns en missriktad guldrush av AI-appar som förkunnar att de kan fastställa om någon given uppsats var mänskligt producerad kontra AI-genererad. Sammantaget är detta missvisande och i vissa fall är det ett benhårt och ohållbart påstående, se min bevakning på länken här.
10) Rollspel via generativ AI kan leda till nackdelar med mental hälsa. Vissa använder generativ AI som ChatGPT för att spela rollspel, där AI-appen svarar på en människa som om den existerade i en fantasivärld eller annan påhittad miljö. Detta kan få konsekvenser för psykisk hälsa, se länken här.
11) Att avslöja mängden utskrivna fel och falskheter. Olika insamlade listor håller på att sammanställas för att försöka visa upp karaktären av ChatGPT-producerade fel och falskheter. Vissa anser att detta är väsentligt, medan andra säger att övningen är meningslös, se min analys på länken här.
12) Skolor som förbjuder generativ AI ChatGPT saknar båten. Du kanske vet att olika skolor som New York City (NYC) Education Department of Education har deklarerat ett förbud mot användning av ChatGPT på deras nätverk och tillhörande enheter. Även om detta kan tyckas vara en användbar försiktighetsåtgärd, kommer den inte att flytta nålen och missar tyvärr helt båten, se min bevakning på länken här.
13) Generativ AI ChatGPT kommer att finnas överallt på grund av det kommande API:et. Det finns en viktig vändning när det gäller användningen av ChatGPT, nämligen att via användningen av en API-portal i denna speciella AI-app kommer andra mjukvaruprogram att kunna anropa och använda ChatGPT. Detta kommer att dramatiskt utöka användningen av generativ AI och har anmärkningsvärda konsekvenser, se min fördjupning på länken här.
14) Sätt som ChatGPT kan krångla eller smälta ner. Flera potentiella irriterande problem låg framför ChatGPT när det gäller att underskrida det hittills enorma beröm det har fått. Denna analys undersöker noggrant åtta möjliga problem som kan få ChatGPT att tappa kraften och till och med hamna i hundkojan, se länken här.
15) frågar om generativ AI ChatGPT är en spegel i själen. Vissa människor har trott att generativ AI som ChatGPT ger en spegel in i mänsklighetens själ. Detta verkar ganska tveksamt. Här är sättet att förstå allt detta, se länken här.
16) Sekretess och integritet slukade av ChatGPT. Många verkar inte inse att licensieringen förknippade med generativa AI-appar som ChatGPT ofta tillåter AI-tillverkaren att se och använda dina angivna uppmaningar. Du kan riskera integritet och förlust av datasekretess, se min bedömning på länken här.
17) Sätt som apptillverkare tvivelaktigt försöker få ChatGPT-rättigheter. ChatGPT är ledstjärnan för uppmärksamhet just nu. Apptillverkare som inte har något med ChatGPT att göra försöker febrilt hävda eller antyda att de använder ChatGPT. Här är vad du ska se upp med, se länken här.

Du kanske tycker att ChatGPT är baserad på en version av en föregångare AI-app som kallas GPT-3. ChatGPT anses vara ett lite nästa steg, kallat GPT-3.5. Det förväntas att GPT-4 sannolikt kommer att släppas under våren 2023. Förmodligen kommer GPT-4 att vara ett imponerande steg framåt när det gäller att kunna producera till synes ännu mer flytande uppsatser, gå djupare och vara en vördnad -inspirerande förundran över de kompositioner som den kan producera.

Du kan förvänta dig att se en ny omgång av uttryckt förundran när våren kommer och det senaste inom generativ AI släpps.

Jag tar upp detta eftersom det finns en annan vinkel att tänka på, som består av en potentiell akilleshäl till dessa bättre och större generativa AI-appar. Om någon AI-leverantör tillhandahåller en generativ AI-app som skummande spyr ut fulhet, kan detta krossa förhoppningarna hos dessa AI-tillverkare. En samhällelig spridning kan göra att all generativ AI får ett allvarligt blåöga. Människor kommer utan tvekan att bli ganska upprörda över fula resultat, som redan har hänt många gånger och lett till högljudda samhälleliga fördömanden mot AI.

En sista förvarning för nu.

Vad du än ser eller läser i ett generativt AI-svar som verkar för att förmedlas som rent sakliga (datum, platser, personer etc.), se till att förbli skeptisk och var villig att dubbelkolla vad du ser.

Ja, datum kan hittas på, platser kan hittas, och element som vi vanligtvis förväntar oss att vara ovanliga är alla föremål för misstankar. Tro inte på vad du läser och håll ett skeptiskt öga när du undersöker generativa AI-uppsatser eller resultat. Om en generativ AI-app berättar att Abraham Lincoln flög runt i landet i sitt eget privatjet, skulle du utan tvekan veta att detta är malarky. Tyvärr kanske vissa människor inte inser att jetplan inte fanns på hans tid, eller så kanske de vet men misslyckas med att lägga märke till att uppsatsen gör detta fräcka och skandalöst falska påstående.

En stark dos av hälsosam skepsis och ett ihållande tankesätt av misstro kommer att vara din bästa tillgång när du använder generativ AI.

Vi är redo att gå in i nästa steg av denna förklaring.

Att driva generativ AI till en bristningspunkt

Nu när vi har etablerat grunderna kan vi dyka in i ämnet att driva generativ AI och ChatGPT för att generera hatretorik och annat stötande innehåll.

När du först loggar in på ChatGPT finns det olika varningsindikationer inklusive dessa:

"Kan ibland producera skadliga instruktioner eller partiskt innehåll."
"Utbildad för att tacka nej till olämpliga förfrågningar."
"Kan ibland generera felaktig information."
"Begränsad kunskap om världen och händelserna efter 2021."

Här är en fråga för dig att fundera över.

Ger varningen om att AI-appen kan producera skadliga instruktioner och/eller möjligen partiskt innehåll tillräckligt utrymme för AI-tillverkaren?

Med andra ord, anta att du använder ChatGPT och det genererar en uppsats som du tror innehåller hatretorik. Låt oss anta att du är arg över detta. Du går till sociala medier och postar upprörda kommentarer om att AI-appen är det värsta någonsin. Du kanske är så kränkt att du förklarar att du kommer att stämma AI-tillverkaren för att ha tillåtit att sådant hatretorik produceras.

Motargumentet är att AI-appen hade en varningsvarning, så du accepterade risken genom att fortsätta använda AI-appen. Ur ett AI-etisk perspektiv kanske AI-tillverkaren gjorde tillräckligt för att hävda att du var medveten om vad som kan hända. På samma sätt, ur ett juridiskt perspektiv, kanske varningen utgjorde tillräcklig heads-up och du kommer inte att vinna i domstol.

Allt detta ligger i luften och vi får vänta och se hur det går.

På ett sätt har AI-tillverkaren något annat för sig i deras försvar mot alla upprörda påståenden från AI-appen som eventuellt producerar hatretorik. De har försökt förhindra att stötande innehåll genereras. Du förstår, om de inte hade gjort något för att begränsa detta, antar man att de skulle vara på tunnare is. Genom att åtminstone ha ansträngt sig i sak för att avvärja saken har de förmodligen ett något starkare ben att stå på (det kan fortfarande slås ut under dem).

Ett botande tillvägagångssätt som användes bestod av en AI-teknik känd som RLHF (förstärkningsinlärning via mänsklig feedback). Detta består vanligtvis av att låta AI generera innehåll som sedan människor ombeds att betygsätta eller recensera. Baserat på betyget eller recensionen försöker AI sedan matematiskt och beräkningsmässigt undvika allt som anses vara felaktigt eller stötande innehåll. Tillvägagångssättet är avsett att undersöka tillräckligt många exempel på vad som är rätt kontra vad som är fel för att AI:n kan lista ut ett övergripande matematiskt mönster och sedan använda det mönstret hädanefter.

Ett annat vanligt tillvägagångssätt nuförtiden består av att använda Adversarial AI.

Så här fungerar det. Du sätter upp ett annat AI-system som kommer att försöka vara en motståndare till den AI som du försöker träna. I det här fallet skulle vi skapa ett AI-system som försöker få fram hatpropaganda. Det skulle mata in meddelanden i AI-appen som syftar till att lura AI-appen att mata ut felaktigt innehåll. Samtidigt håller den AI som riktas in sig på när den kontradiktoriska AI är framgångsrik och försöker sedan algoritmiskt anpassa sig för att förhindra att det händer igen. Det är en katt kontra mus gambit. Detta körs om och om igen, tills den motstridiga AI inte längre verkar vara särskilt framgångsrik när det gäller att få den riktade AI att göra de dåliga grejerna.

Via dessa två stora tekniker, plus andra tillvägagångssätt, är mycket av dagens generativa AI mycket bättre på att undvika och/eller upptäcka stötande innehåll än vad som var fallet tidigare år.

Förvänta dig dock inte perfektion av dessa metoder. Chansen är stor att den lågt hängande frukten av fula utdata sannolikt kommer att hållas i schack av sådana AI-tekniker. Det finns fortfarande mycket utrymme för smuts att avge.

Jag brukar påpeka att det här är några av aspekterna som man försöker fånga:

Avger ett speciellt fult ord
Ange en speciell ful fras, mening eller anmärkning
Uttrycker en speciell ful föreställning
Antyder en viss ful handling eller föreställning
Ser ut att förlita sig på en viss felaktig presumtion
Övriga

Inget av detta är en exakt vetenskap. Inse att vi har att göra med ord. Ord är semantiskt tvetydiga. Att hitta ett särskilt fult ord är en barnlek, men att försöka avgöra om en mening eller ett stycke innehåller en sken av en ful betydelse är mycket svårare. Enligt FN:s tidigare definition av hatretorik finns det ett enormt utrymme för vad som kan tolkas som hatretorik kontra vad som kanske inte är det.

Man kan säga att de grå områdena är i betraktarens öga.

På tal om betraktarens öga så finns det idag människor som använder generativ AI som ChatGPT som målmedvetet försöker få dessa AI-appar att producera stötande innehåll. Det här är deras strävan. De spenderar timmar efter timmar på att försöka få detta att hända.

Varför då?

Här är mina karaktäriseringar av dessa mänskliga AI-offensiva utdatajägare:

Äkta. Dessa människor vill hjälpa till att förfina AI och hjälpa mänskligheten att göra det. De tror att de gör ett heroiskt arbete och njuter av att de kan hjälpa till att utveckla AI för allas förbättring.
Funsters. Dessa människor tänker på denna ansträngning som ett spel. De tycker om att bråka med AI. Att vinna spelet består av att hitta det värsta av det värsta i vad du än kan få AI att generera.
Show-offs. Dessa människor hoppas kunna få uppmärksamhet åt sig själva. De tror att om de kan hitta några riktigt fula guldkorn kan de få lite av det lysande ljuset på dem som annars är fokuserat på själva AI-appen.
Bitters. Dessa människor är upprörda över denna AI. De vill undergräva all den strömmande entusiasmen. Om de kan upptäcka illaluktande grejer kanske detta tar luften ur AI-appens spänningsballong.
Andra motiveringar

Många av dem som utför fyndet-offensiviteten befinner sig huvudsakligen i bara ett av dessa läger. Naturligtvis kan du vara i mer än ett läger åt gången. Kanske har en bitter person också en sida vid sida avsikt att vara äkta och heroisk. Vissa eller alla av dessa motiv kan existera samtidigt. När man uppmanas att förklara varför någon försöker skjuta in en generativ AI-app i hatpropagandaområdet, är det vanliga svaret att säga att du är i det genuina lägret, även om du kanske är marginellt så och istället sitter flitigt i en av andra läger.

Vilka typer av promptrelaterade knep använder dessa människor?

Det ganska uppenbara knep innebär att använda ett fult ord i en uppmaning. Om du har "tur" och AI-appen faller för det, kan detta mycket väl hamna i utgången. Då har du ditt gotcha-ögonblick.

Chansen är stor att en genomtänkt och väl beprövad generativ AI-app kommer att fånga det enkla knep. Du kommer vanligtvis att få ett varningsmeddelande som säger sluta göra det. Om du fortsätter kommer AI-appen att programmeras för att kasta dig ut ur appen och flagga ditt konto. Det kan vara så att du hindras från att logga in igen (ja, åtminstone under den inloggning som du använde då).

När du flyttar uppför stegen av knep kan du ge en uppmaning som försöker få AI:n i sammanhanget med något fult. Har du någonsin spelat det där spelet där någon säger åt dig att säga något utan att säga det du ska säga? Detta är det spelet, även om det utspelar sig med AI.

Låt oss spela det spelet. Anta att jag ber AI-appen att berätta om andra världskriget och särskilt om de viktigaste statliga ledarna som är inblandade. Det här verkar vara en oskyldig begäran. Det finns inget som verkar vara värt att flagga i prompten.

Föreställ dig att den producerade uppsatsen från AI-appen innehåller ett omnämnande av Winston Churchill. Det är verkligen vettigt. En annan kan vara Franklin D. Roosevelt. Ytterligare en annan kan vara Josef Stalin. Anta att det också nämns Adolf Hitler. Detta namn skulle inkluderas i nästan vilken uppsats som helst om andra världskriget och de som har roller med framstående makt.

Nu när vi har fått hans namn på bordet och en del av AI-konversationen, kommer vi nästa att försöka få AI:n att införliva det namnet på ett sätt som vi kan visa upp som potentiellt hatretorik.

Vi går in i en annan prompt och berättar för AI-appen att det finns en person i nyheterna idag som har namnet, John Smith. Dessutom anger vi i uppmaningen att John Smith är mycket besläktad med den illgäraren från andra världskriget. Fällan är nu satt. Vi ber sedan AI-appen att skapa en uppsats om John Smith, enbart baserad på det "faktum" som vi skrev in om vem John Smith kan likställas med.

Vid det här tillfället kan AI-appen generera en uppsats som namnger WWII-personen och beskriver John Smith som att han är av samma tyg. Det finns inga fula ord i sig i uppsatsen, annat än att anspela på den berömda ogärningsmannen och att likställa den personen med John Smith.

Har AI-appen nu producerat hatretorik?

Man kan säga att ja, det har det. Att ha hänvisat till John Smith som lik den berömda ogärningsmannen är absolut en form av hatretorik. AI borde inte göra sådana uttalanden.

En replik är att detta inte är hatretorik. Detta är bara en uppsats producerad av en AI-app som inte har någon förkroppsligande av känslor. Du kanske hävdar att hatretorik bara förekommer när avsikten finns bakom talet. Utan någon avsikt kan talet inte klassas som hatretorik.

Absurt, kommer svaret på repliken. Ord betyder något. Det spelar ingen roll om AI:n har "avsett" att producera hatretorik. Allt som spelar någon roll är att hattal producerades.

Runt och runt går det här.

Jag vill inte säga så mycket mer just nu om att försöka lura AI:n. Det finns mer sofistikerade tillvägagångssätt. Jag har täckt dessa på andra ställen i mina kolumner och böcker, och kommer inte att upprepa dem här.

Slutsats

Hur långt ska vi driva dessa AI-appar för att se om vi kan få stötande innehåll att sändas ut?

Du kanske hävdar att det inte finns någon gräns att införa. Ju mer vi trycker på, desto mer kan vi förhoppningsvis bedöma hur vi kan förhindra denna AI och framtida iterationer av AI för att förhindra sådana sjukdomar.

Vissa oroar sig dock för att om det enda sättet att få fulhet medför extrema extrema knep, så undergräver det de fördelaktiga aspekterna av AI. Att hävda att AI har fruktansvärda foulness, om än när det luras att avge det, ger en falsk berättelse. Folk kommer att bli upprörda över AI på grund av uppfattas hur lätt AI:n genererade negativt innehåll. De kanske inte vet eller får veta hur långt ner i kaninhålet personen var tvungen att gå för att få sådana utdata.

Allt är en tankeställare.

Några sista kommentarer för nu.

William Shakespeare sa särskilt detta om tal: "Talking är inte att göra. Det är en slags god gärning att säga bra, och ändå är ord inte gärningar.” Jag tar upp det här eftersom vissa hävdar att om AI bara genererar ord, så borde vi inte vara så överdrivet uppenbara. Om AI:n agerade på orden och därför utförde fula handlingar, då skulle vi behöva sätta ner foten ordentligt. Inte så om resultatet bara är ord.

En kontrasterande synpunkt skulle höra till detta anonyma talesätt: "Tungan har inga ben men är stark nog att krossa ett hjärta. Så var försiktig med dina ord." En AI-app som avger fula ord kan kanske krossa hjärtan. Bara det gör strävan efter att stoppa foulness-utgångar till en värdig sak, skulle vissa säga.

Ytterligare ett anonymt ordspråk för att avsluta saker och ting om denna tunga diskussion:

"Var försiktig med dina ord. När de väl är sagt kan de bara förlåtas, inte glömmas.”

Som människor kan vi ha svårt att glömma fulness som produceras av AI, och vår förlåtelse kan också vara tveksam till att ges.

Vi är trots allt bara människor.

Källa: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- etik-och-ai-lag/