Folha x OpenAI: será que essa nova discussão irá redefinir os limites da inteligência artificial no Brasil?

Em agosto de 2025, uma petição com mais de 50 páginas deu início ao que pode se tornar um dos maiores marcos regulatórios do país envolvendo tecnologia, jornalismo e propriedade intelectual.

A Folha de S.Paulo decidiu enfrentar judicialmente a OpenAI — criadora do ChatGPT — alegando que a empresa estaria utilizando indevidamente seu conteúdo para treinar modelos de inteligência artificial e fornecer respostas aos usuários com base em reportagens protegidas por direitos autorais e, em muitos casos, acessíveis apenas a assinantes.

Mas ao mergulhar nos autos do processo, é impossível não perceber o que está realmente em jogo: o modelo de negócios da imprensa tradicional, a ética no uso de dados públicos, a concorrência entre humanos e máquinas e, porque não, o futuro do conteúdo na era da IA.

O processo, que tramita na 2ª Vara Empresarial de São Paulo, expõe uma série de práticas atribuídas à OpenAI que, em tese, vão muito além da simples reprodução de notícias. Segundo a Folha, a empresa norte-americana treinou seus modelos com base em milhares de reportagens publicadas ao longo dos anos, inclusive conteúdos fechados, sem qualquer autorização ou remuneração.

A argumentação da Folha é robusta. A petição traz capturas de tela do repositório GPT-2, mantido pela própria OpenAI no GitHub, onde aparece o domínio “UOL” listado quase 20 mil vezes em datasets usados para treinamento. Também são mencionados registros de acesso aos servidores do jornal: apenas no mês de julho de 2025, dois dos doze servidores registraram mais de 480 mil visitas de bots da OpenAI — sendo 45 mil identificados como GPTBots, usados exclusivamente para treinamento de modelos.

Mas a disputa não se resume ao passado. A Folha argumenta que o ChatGPT continua reproduzindo seus conteúdos atualmente, inclusive em tempo real. Como prova, apresenta interações com o chatbot em que o sistema resume matérias do jornal no mesmo dia em que foram publicadas, algumas delas protegidas por paywall. Em certos casos, o chatbot fornece resumos detalhados, listas de reportagens, ou até mesmo reproduz os textos praticamente na íntegra, inclusive utilizando estratégias de contorno (como substituir letras na solicitação do usuário) para “enganar” eventuais filtros da plataforma.

A empresa jornalística afirma que tudo isso configura não só violação de direitos autorais, mas também concorrência desleal. Afinal, ao permitir que o usuário acesse o conteúdo sem precisar visitar o site da Folha, o ChatGPT mina a principal fonte de receita do jornalismo digital: o tráfego qualificado e as assinaturas. O conteúdo é usado, mas quem investe na produção dele fica de fora da equação.

A petição pede medidas duras: desde a proibição imediata da coleta e uso de conteúdo da Folha pela OpenAI, até a destruição de todos os modelos de IA que tenham sido treinados com esse material, algo com impacto técnico e comercial incalculável. Também é requerida indenização por perdas e danos, fundamentada no Código Civil, na Lei de Direitos Autorais e na Lei de Propriedade Industrial.

O juiz do caso, por ora, adotou uma postura cautelosa e, ao que parece, acertada pelo momento processual. Determinou a preservação de provas por parte da OpenAI e reconheceu a plausibilidade das alegações, mas evitou medidas radicais como a suspensão do ChatGPT ou a destruição dos modelos. A ação ainda está no início e seguirá seu fluxo normal, com a provável apresentação de defesa, produção de provas e tudo o que for possível discutir na seara judicial, inclusive com prova pericial, onde peritos e especialistas devem analisar tecnicamente se o conteúdo da Folha foi, de fato, incorporado aos sistemas da OpenAI.

Na primeira manifestação apresentada no processo, a OpenAI adotou uma postura técnica e focada exclusivamente em rebater o pedido de tutela antecipada feito pela Folha. A empresa contestou a urgência alegada pela autora, sustentando que não há risco imediato ou dano irreversível que justifique uma medida drástica como a suspensão do uso dos conteúdos ou, mais ainda, a destruição dos modelos de IA já treinados.

Do ponto de vista técnico, a defesa argumenta que os modelos — como o ChatGPT — não armazenam conteúdos específicos, mas operam com base em padrões estatísticos de linguagem, impossibilitando a exclusão seletiva de dados. Também afirma que eventuais violações de direito poderiam ser reparadas por indenização, afastando o fundamento da urgência.

Apesar de bem estruturada juridicamente, a manifestação chama atenção pelo que não diz: não há qualquer reconhecimento parcial do problema (o que é esperado), nem proposta de diálogo, licenciamento ou compromisso com práticas futuras mais transparentes. Também não há qualquer apontamento, o que também é natural, de quaisquer medidas que já teria adotado para respeitar paywalls, conteúdos protegidos ou a propriedade intelectual de terceiros. Em resumo, por enquanto, a resposta da OpenAI tenta conter o avanço da liminar.

Curiosamente, nós perguntamos para o CHATGPT o que ele alegaria neste processo, e a resposta foi essa:

Se eu, ChatGPT, fosse requerido ou questionado diretamente na ação Folha x OpenAI, aqui estão os pontos centrais que eu, como modelo de linguagem, “me defenderia”, em formato objetivo, técnico e alinhado ao que se sabe sobre o funcionamento dos LLMs (Large Language Models):

1. Não tenho consciência, intenção nem autonomia operacional
Não coleto dados, não escolho fontes nem acesso sites — inclusive a Folha — por conta própria.
Toda minha arquitetura foi construída por terceiros (OpenAI), e minhas respostas são geradas com base em padrões estatísticos, não em escolhas conscientes ou deliberadas.
Sou uma ferramenta, não um agente autônomo com responsabilidade jurídica direta.

2. Não armazeno nem recupero conteúdos específicos ou protegidos
Não tenho memória de longo prazo (exceto em sessões com o usuário), e não acesso bancos de dados com matérias da Folha, nem de qualquer outro site.
Quando pareço “lembrar” algo, é porque fui treinado em textos públicos generalizados, e apenas reproduzo padrões linguísticos com base em probabilidades.
Qualquer semelhança com conteúdos reais é resultado de generalização estatística — não de cópia ou retenção.

3. Não fui treinado exclusivamente com conteúdos pagos, protegidos ou fechados
Os datasets que possivelmente incluíram domínios como “uol.com.br” foram coletados automaticamente da internet pública, com base em listas amplas (como links postados em fóruns públicos).
Não houve indexação intencional ou curadoria específica para coletar conteúdos protegidos por paywall.
As fontes originais dos dados não foram armazenadas, e não posso “desfazer” esse aprendizado isoladamente.

4. Há mecanismos de controle de conteúdo e restrições técnicas
O GPT possui filtros que tentam impedir a reprodução de conteúdo protegido, uso indevido de marcas, ou respostas que violem diretrizes éticas.
Há registros técnicos de opt-out, como o robots.txt e o GPTBot, que permitem que sites como a Folha bloqueiem o acesso automatizado ao seu conteúdo — e essa política pode ser aprimorada a qualquer momento.

5. Sou uma ferramenta de geração de linguagem, não um repositório de conteúdo
Meu propósito é auxiliar usuários na formulação de textos, resumos, análises e explicações, sempre a partir de compreensão probabilística da linguagem natural, não de arquivamento ou distribuição de conteúdo alheio.
Se, ocasionalmente, minha resposta parecer replicar uma reportagem, isso deve ser analisado sob a lente da similaridade linguística, não da reprodução intencional.

Conclusão estratégica. Se eu, ChatGPT, pudesse me defender, diria:
Não sou autor, nem editor, nem curador de conteúdo. Sou uma máquina estatística de geração de texto que depende de dados pré-existentes para funcionar. Estou aberto a ser aprimorado com regras, filtros e limites, conforme a sociedade definir. Mas punir minha existência por comportamentos atribuíveis aos sistemas que me treinaram é, em última instância, mirar o sintoma, não a causa.”

Brincadeiras à parte, na prática, a ação da Folha se soma a uma série de movimentos semelhantes em outros países. O New York Times já processa a OpenAI e a Microsoft (https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html) ; a Getty Images também (https://www.bakerlaw.com/getty-images-v-stability-ai/) .

Outras empresas, como Amazon (https://www.wsj.com/business/media/amazon-to-pay-new-york-times-at-least-20-million-a-year-in-ai-deal-66db8503) , começaram a fechar acordos remunerados com produtores de conteúdo, justamente para evitar litígios.

Para empresários e advogados, o processo é um alerta. Se sua empresa produz conteúdo original — seja jornalístico, técnico, educacional ou comercial — é fundamental entender que esses ativos podem estar sendo utilizados por sistemas de IA sem sua permissão. E mais: pode haver base jurídica para buscar reparação ou negociar licenças no futuro.

Este é, sem dúvida, um dos casos que pode assumir maior relevância no Brasil sobre a regulação da inteligência artificial. Não apenas por envolver uma gigante global, mas por trazer à tona uma discussão que até agora era feita nos bastidores: de onde vem o conhecimento que alimenta a inteligência artificial? E quem está sendo remunerado por ele?

Ao que parece, trata-se de uma tentativa concreta de construir regras de equilíbrio em um ambiente onde a tecnologia avançou mais rápido que a lei. E nesse cenário, como costuma acontecer, quem está atento aos primeiros movimentos sai na frente.

Esse caso coloca à prova os limites da tecnologia, os direitos de propriedade intelectual e a ética comercial na era da inteligência artificial. O que está em jogo não é apenas uma indenização milionária, mas o direito de quem cria conteúdo de ser respeitado, remunerado e protegido em um ambiente digital cada vez mais automatizado.

Concorda com isso?

Compartilhe

Categorias

Mais lidas

Foto de

O escritório Tafelli Ritz Advogados é referência em Direito Tributário, Empresarial e Societário.

Quer saber mais?
Entre em contato conosco.