De strijd om data gaat een serieuzere fase in: Reddit heeft een rechtszaak aangespannen tegen Perplexity voor vermeende ongeoorloofde extractie van content die door zijn communities is gegenereerd. De klacht is ook gericht tegen drie bedrijven die volgens het platform de infrastructuur voor grootschalige dataverzameling leverden.
De rechtszaak, aangespannen bij een federale rechtbank in New York, beschuldigt de bedrijven ervan zich bezig te houden met een ākrabbende economie op industriĆ«le schaalā bedoeld om kunstmatige intelligentiesystemen te leveren. Het gaat hierbij niet alleen om de commerciĆ«le belangen van de partijen, maar ook om de manier waarop openbaar materiaal in het AI-tijdperk toegankelijk wordt gemaakt en in licentie wordt gegeven.
Wat de rechtszaak van Reddit beweert
Reddit wijst naar Perplexity (San Francisco) en leveranciers Oxylabs UAB (Litouwen), SerpApi (Texas) en AWMProxy als deelnemers aan een plan dat zijn verdediging omzeilde om berichten en opmerkingen extraheren van miljoenen gebruikers voor commerciƫle doeleinden. Het bedrijf vergelijkt dergelijk gedrag met het "opslokken" van content zonder toestemming, en vergelijkt het met het aanvallen van een gepantserde vrachtwagen die de kluis niet kan openen.
De klachtverzoeken schadevergoeding en verbod om de vermeende verzameling en exploitatie van het materiaal te stoppen, onder meer met een beroep op intellectuele eigendomsrechten. Nadat de actie was aangekondigd, daalden de aandelen van Reddit met meer dan 4% op de New Yorkse effectenbeurs, wat de markthype rond de zaak weerspiegelde.
Deze juridische stap volgt op een andere rechtszaak die Reddit heeft aangespannen tegen Anthropic en is een aanvulling op de strategie van datalicenties verlenen aan technologiebedrijven zoals Google en OpenAI. Voor het sociale netwerk is het verschil tussen betalen voor toegang en ongeautoriseerd scrapen de rode lijn in de online conversatiebusiness.
Hoe de gegevens volgens de klacht verkregen zouden zijn
In het kort geding worden de gedaagden ervan beschuldigd twee controlelagen te omzeilen: ten eerste de anti-schraapmechanismen van Reddit en vervolgens Google-filters en trackers van derden, om Reddit-content rechtstreeks uit zoekresultaten te consumeren. De rechtszaak beweert dat er sprake is van geautomatiseerde, ongeautoriseerde toegang op grote schaal.
Het platform beweert specifiek dat de aanbieders fungeerden als āextractiedienstenā, het maskeren van identiteiten en locaties om het verkeer van zijn scrapers te camoufleren. Het gepresenteerde cijfer is opvallend: bijna drie miljard pagina's met zoekresultaten zouden mechanisch zijn geraadpleegd om AI-klanten te voeden.
Reddit beweert ook een opzettelijke test te hebben uitgevoerd, een soort vals spelen die bekend staat als Mountweazel: gepubliceerde content die alleen toegankelijk was voor de crawler van Google, en zag al snel dat dit materiaal werd geciteerd door de antwoordmachine van Perplexity. Voor het bedrijf was dit een bevestiging dat de content in de SERP's werd opgenomen.
De tijdlijn omvat een brief met een verzoek tot staking die in mei 2024 naar Perplexity is gestuurd. Desondanks beweert Reddit dat de verwijzingen naar de inhoud ervan vermenigvuldigd Later wordt dit toegeschreven aan de aankoop van gegevens van derden. AWMProxy, een van de genoemde partijen, wordt beschreven als een "voormalig Russisch botnet", met verwijzingen naar links naar Glupteba in de rapporten die in de klacht worden aangehaald.
Verwarring en de reactie van leveranciers
Perplexity beweert dat het, toen het nieuws bekend werd, nog geen formele kennisgeving van de rechtszaak had ontvangen, hoewel het een openbare verklaring uitbracht waarin het beloofde verdedig vrije en eerlijke toegang naar beschikbare kennis en verwerpt "bedreigingen" voor de openheid van het internet. Het bedrijf noemt de eisen van Reddit onverenigbaar met een open web en noemde ze zelfs "afpersing" in berichten die op openbare forums werden geplaatst.
De startup verdedigt dat haar service vat openbare inhoud samen en verwijst ernaar en "traint niet met specifieke input", dus een algemene licentieovereenkomst "zou niet passen". SerpApi ontkent op zijn beurt de beschuldigingen en verwacht een krachtige verdediging; Oxylabs verklaart "verrast en teleurgesteld", voegt eraan toe dat Reddit niet heeft geprobeerd om vooraf een dialoog aan te gaan, en stelt dat geen enkel bedrijf het toe-eigenen van openbare gegevens die er niet bij horen. AWMProxy heeft op het moment van schrijven nog geen commentaar gegeven aan de vakpers.
Gegevens met zegel en gegevens zonder eigenaar: de onderneming in geschil
Naast de rechtszaak vindt er een strijd plaats race voor kwalitatieve menselijke inhoud om AI-reacties te verbeteren. Reddit neemt daar een bevoorrechte plaats in: het herbergt een van de grootste verzamelingen gemodereerde en nichediscussies op internet, met een actieve community van meer dan 100 miljoen dagelijkse gebruikers, volgens cijfers die het platform zelf heeft vrijgegeven.
Dat bezit heeft Reddit gemotiveerd om te tekenen licentieovereenkomsten met bedrijven die betalen om hun data te gebruiken voor modeltraining. Dergelijke overeenkomsten hielpen de kas van het bedrijf te spekken vóór de beursgang en ondersteunden het argument: toegang, ja, maar met toestemming en een prijs. De rechtszaak suggereert dat er tegelijkertijd een grijze markt voor "datawitwassen" is ontstaan, in een poging deze formele mogelijkheid te omzeilen.
Legale sleutels in de VS en Europa
In de Verenigde Staten zullen de rechtbanken moeten overwegen of de Servicevoorwaarden Het juridische kader van het platform beperkt scraping en commercieel gebruik van content, en de vraag of tools van derden technische beschermingsmaatregelen omzeilen. Ook het onderscheid tussen het recht op meningsuiting (de tekst) en dataminingpraktijken om gegevens te extraheren, zal worden beoordeeld. patronen en feiten die taalmodellen vormgeven.
In de EU is het kader anders: de auteursrechtrichtlijn (CDR) voorziet in uitzonderingen op tekst- en datamining voor onderzoek en, binnen bepaalde grenzen, voor commercieel gebruik, mits de betrokkene zich daar niet uitdrukkelijk voor heeft afgemeld. Daarnaast stellen de Digital Services Regulation (DSA), de Digital Markets Regulation (DMA) en de aankomende AI-verordening verplichtingen vast op het gebied van transparantie, beveiliging en data governance. In Spanje zijn deze regels volledig van toepassing en kunnen websites een TDM-afmelding en versterken hun crawlbeleid via robots.txt en andere technische signalen.
Mogelijke impact op Spanje en de EU
Als de stelling van Reddit klopt, kunnen technologiebedrijven die openbare content gebruiken voor AI met meer problemen te maken krijgen. licentiekosten en toegangscontrole, iets wat Europese startups en scrapingproviders op het continent zou treffen. Voor media, forums en aggregators opent de zaak opnieuw het debat over hoe communitybijdragen te gelde kunnen worden gemaakt in een omgeving waar Chatbots verminderen het verkeer opbrengst.
Voor gebruikers worden er geen directe veranderingen verwacht in de Reddit-ervaring in Spanje, maar er wordt wel meer zichtbaarheid verwacht. gegevensbeleid en de uitsluiting van trackers. Tegelijkertijd zullen Europese toezichthouders deze kwestie nauwlettend volgen: de spanning tussen "openbare data" en "gelicentieerde data" bepaalt waar de grens ligt tussen innovatie en misbruik.
De gerechtelijke procedure zal te maken krijgen met twee visies op het digitale ecosysteem: die van degenen die wedden op licentie en controle toegang tot grote corpora van gesprekken en degenen die beweren dat openbaar beschikbare content ongehinderd geanalyseerd en samengevat kan worden. De uitspraak van de rechtbank zal de koers van generatieve AI in de komende jaren bepalen, ook op de Europese markt.