Folha x OpenAI: será que essa nova discussão irá redefinir os limites da inteligência artificial no Brasil?

Societário
27/08/2025

Em agosto de 2025, uma petição com mais de 50 páginas deu início ao que pode se tornar um dos maiores marcos regulatórios do país envolvendo tecnologia, jornalismo e propriedade intelectual.

A Folha de S.Paulo decidiu enfrentar judicialmente a OpenAI — criadora do ChatGPT — alegando que a empresa estaria utilizando indevidamente seu conteúdo para treinar modelos de inteligência artificial e fornecer respostas aos usuários com base em reportagens protegidas por direitos autorais e, em muitos casos, acessíveis apenas a assinantes.

À primeira vista, a disputa parece girar em torno de uma violação de direitos autorais.

Mas ao mergulhar nos autos do processo, é impossível não perceber o que está realmente em jogo: o modelo de negócios da imprensa tradicional, a ética no uso de dados públicos, a concorrência entre humanos e máquinas e, porque não, o futuro do conteúdo na era da IA.

O processo, que tramita na 2ª Vara Empresarial de São Paulo, expõe uma série de práticas atribuídas à OpenAI que, em tese, vão muito além da simples reprodução de notícias. Segundo a Folha, a empresa norte-americana treinou seus modelos com base em milhares de reportagens publicadas ao longo dos anos, inclusive conteúdos fechados, sem qualquer autorização ou remuneração.

A alegação central é que a OpenAI lucra oferecendo um serviço sofisticado, sem arcar com o custo mais básico: a produção da informação.

A argumentação da Folha é robusta. A petição traz capturas de tela do repositório GPT-2, mantido pela própria OpenAI no GitHub, onde aparece o domínio “UOL” listado quase 20 mil vezes em datasets usados para treinamento. Também são mencionados registros de acesso aos servidores do jornal: apenas no mês de julho de 2025, dois dos doze servidores registraram mais de 480 mil visitas de bots da OpenAI — sendo 45 mil identificados como GPTBots, usados exclusivamente para treinamento de modelos.

Mas a disputa não se resume ao passado. A Folha argumenta que o ChatGPT continua reproduzindo seus conteúdos atualmente, inclusive em tempo real. Como prova, apresenta interações com o chatbot em que o sistema resume matérias do jornal no mesmo dia em que foram publicadas, algumas delas protegidas por paywall. Em certos casos, o chatbot fornece resumos detalhados, listas de reportagens, ou até mesmo reproduz os textos praticamente na íntegra, inclusive utilizando estratégias de contorno (como substituir letras na solicitação do usuário) para “enganar” eventuais filtros da plataforma.

A empresa jornalística afirma que tudo isso configura não só violação de direitos autorais, mas também concorrência desleal. Afinal, ao permitir que o usuário acesse o conteúdo sem precisar visitar o site da Folha, o ChatGPT mina a principal fonte de receita do jornalismo digital: o tráfego qualificado e as assinaturas. O conteúdo é usado, mas quem investe na produção dele fica de fora da equação.

A petição pede medidas duras: desde a proibição imediata da coleta e uso de conteúdo da Folha pela OpenAI, até a destruição de todos os modelos de IA que tenham sido treinados com esse material, algo com impacto técnico e comercial incalculável. Também é requerida indenização por perdas e danos, fundamentada no Código Civil, na Lei de Direitos Autorais e na Lei de Propriedade Industrial.

O juiz do caso, por ora, adotou uma postura cautelosa e, ao que parece, acertada pelo momento processual. Determinou a preservação de provas por parte da OpenAI e reconheceu a plausibilidade das alegações, mas evitou medidas radicais como a suspensão do ChatGPT ou a destruição dos modelos. A ação ainda está no início e seguirá seu fluxo normal, com a provável apresentação de defesa, produção de provas e tudo o que for possível discutir na seara judicial, inclusive com prova pericial, onde peritos e especialistas devem analisar tecnicamente se o conteúdo da Folha foi, de fato, incorporado aos sistemas da OpenAI.

Na primeira manifestação apresentada no processo, a OpenAI adotou uma postura técnica e focada exclusivamente em rebater o pedido de tutela antecipada feito pela Folha. A empresa contestou a urgência alegada pela autora, sustentando que não há risco imediato ou dano irreversível que justifique uma medida drástica como a suspensão do uso dos conteúdos ou, mais ainda, a destruição dos modelos de IA já treinados.

Do ponto de vista técnico, a defesa argumenta que os modelos — como o ChatGPT — não armazenam conteúdos específicos, mas operam com base em padrões estatísticos de linguagem, impossibilitando a exclusão seletiva de dados. Também afirma que eventuais violações de direito poderiam ser reparadas por indenização, afastando o fundamento da urgência.

Apesar de bem estruturada juridicamente, a manifestação chama atenção pelo que não diz: não há qualquer reconhecimento parcial do problema (o que é esperado), nem proposta de diálogo, licenciamento ou compromisso com práticas futuras mais transparentes. Também não há qualquer apontamento, o que também é natural, de quaisquer medidas que já teria adotado para respeitar paywalls, conteúdos protegidos ou a propriedade intelectual de terceiros. Em resumo, por enquanto, a resposta da OpenAI tenta conter o avanço da liminar.

Curiosamente, nós perguntamos para o CHATGPT o que ele alegaria neste processo, e a resposta foi essa:

“Se eu, ChatGPT, fosse requerido ou questionado diretamente na ação Folha x OpenAI, aqui estão os pontos centrais que eu, como modelo de linguagem, “me defenderia”, em formato objetivo, técnico e alinhado ao que se sabe sobre o funcionamento dos LLMs (Large Language Models):

1. Não tenho consciência, intenção nem autonomia operacional
Não coleto dados, não escolho fontes nem acesso sites — inclusive a Folha — por conta própria.
Toda minha arquitetura foi construída por terceiros (OpenAI), e minhas respostas são geradas com base em padrões estatísticos, não em escolhas conscientes ou deliberadas.
Sou uma ferramenta, não um agente autônomo com responsabilidade jurídica direta.

2. Não armazeno nem recupero conteúdos específicos ou protegidos
Não tenho memória de longo prazo (exceto em sessões com o usuário), e não acesso bancos de dados com matérias da Folha, nem de qualquer outro site.
Quando pareço “lembrar” algo, é porque fui treinado em textos públicos generalizados, e apenas reproduzo padrões linguísticos com base em probabilidades.
Qualquer semelhança com conteúdos reais é resultado de generalização estatística — não de cópia ou retenção.

3. Não fui treinado exclusivamente com conteúdos pagos, protegidos ou fechados
Os datasets que possivelmente incluíram domínios como “uol.com.br” foram coletados automaticamente da internet pública, com base em listas amplas (como links postados em fóruns públicos).
Não houve indexação intencional ou curadoria específica para coletar conteúdos protegidos por paywall.
As fontes originais dos dados não foram armazenadas, e não posso “desfazer” esse aprendizado isoladamente.

4. Há mecanismos de controle de conteúdo e restrições técnicas
O GPT possui filtros que tentam impedir a reprodução de conteúdo protegido, uso indevido de marcas, ou respostas que violem diretrizes éticas.
Há registros técnicos de opt-out, como o robots.txt e o GPTBot, que permitem que sites como a Folha bloqueiem o acesso automatizado ao seu conteúdo — e essa política pode ser aprimorada a qualquer momento.

5. Sou uma ferramenta de geração de linguagem, não um repositório de conteúdo
Meu propósito é auxiliar usuários na formulação de textos, resumos, análises e explicações, sempre a partir de compreensão probabilística da linguagem natural, não de arquivamento ou distribuição de conteúdo alheio.
Se, ocasionalmente, minha resposta parecer replicar uma reportagem, isso deve ser analisado sob a lente da similaridade linguística, não da reprodução intencional.“

“Conclusão estratégica. Se eu, ChatGPT, pudesse me defender, diria:
Não sou autor, nem editor, nem curador de conteúdo. Sou uma máquina estatística de geração de texto que depende de dados pré-existentes para funcionar. Estou aberto a ser aprimorado com regras, filtros e limites, conforme a sociedade definir. Mas punir minha existência por comportamentos atribuíveis aos sistemas que me treinaram é, em última instância, mirar o sintoma, não a causa.”

Concorda com a linha de defesa criada pela própria inteligência artificial?

Brincadeiras à parte, na prática, a ação da Folha se soma a uma série de movimentos semelhantes em outros países. O New York Times já processa a OpenAI e a Microsoft (https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html) ; a Getty Images também (https://www.bakerlaw.com/getty-images-v-stability-ai/) .

Outras empresas, como Amazon (https://www.wsj.com/business/media/amazon-to-pay-new-york-times-at-least-20-million-a-year-in-ai-deal-66db8503) , começaram a fechar acordos remunerados com produtores de conteúdo, justamente para evitar litígios.

O que se vê é o prenúncio de uma nova etapa no mercado digital: a exigência de licenciamento, transparência e remuneração na coleta de dados para IA.

Para empresários e advogados, o processo é um alerta. Se sua empresa produz conteúdo original — seja jornalístico, técnico, educacional ou comercial — é fundamental entender que esses ativos podem estar sendo utilizados por sistemas de IA sem sua permissão. E mais: pode haver base jurídica para buscar reparação ou negociar licenças no futuro.

Este é, sem dúvida, um dos casos que pode assumir maior relevância no Brasil sobre a regulação da inteligência artificial. Não apenas por envolver uma gigante global, mas por trazer à tona uma discussão que até agora era feita nos bastidores: de onde vem o conhecimento que alimenta a inteligência artificial? E quem está sendo remunerado por ele?

Ao que parece, trata-se de uma tentativa concreta de construir regras de equilíbrio em um ambiente onde a tecnologia avançou mais rápido que a lei. E nesse cenário, como costuma acontecer, quem está atento aos primeiros movimentos sai na frente.

Esse caso coloca à prova os limites da tecnologia, os direitos de propriedade intelectual e a ética comercial na era da inteligência artificial. O que está em jogo não é apenas uma indenização milionária, mas o direito de quem cria conteúdo de ser respeitado, remunerado e protegido em um ambiente digital cada vez mais automatizado.

Concorda com isso?

Fale com o Tafelli Ritz Advogados e entenda como proteger seus ativos digitais e garantir o cumprimento da legislação.

Folha x OpenAI: será que essa nova discussão irá redefinir os limites da inteligência artificial no Brasil?

Compartilhe

Categorias

Mais lidas

PERSE – Programa Emergencial de recuperação do Setor de Eventos

Mais Impostos, zero cortes: o Governo nunca perde!

Se todo mundo paga tributo – todo mundo precisa de governança tributária

Senado aprova projeto que flexibiliza prazo para distribuição de dividendos de 2025

Tecnologia e reforma tributária: como inovações prometem transformar a relação dos contribuintes com o fisco

Ano pré-eleitoral e a pauta tributária

Análise dos vetos à Reforma Tributária: principais impactos da LC 214/25

Sócio pode ter bens pessoais penhorados por dívida da empresa?

Fechamento de capital do Carrefour e os impactos nos fundos imobiliários (FIIs)

Entenda a conexão entre LGPD e M&A

A reforma tributária e o impacto nas Operações de Fusões e Aquisições

Conta PJ Bloqueada por Ordem Judicial (SISBAJUD): medidas possíveis quando a constrição compromete o caixa empresarial

TRF-3 garante redução do IRPJ sobre venda de imóveis: uma vitória para as empresas do setor imobiliário

Após sanção a texto, governo prevê IVA de 28%, o maior do mundo – O Estado de S. Paulo

STJ decide: PIS e COFINS integram a base de cálculo do ICMS

STF forma maioria contra a cobrança de ITCMD sobre Previdência Privada

Suspensão da Coleta de Íris e a Proteção de Dados no Brasil: Implicações Jurídicas e Empresariais

Alternativas aos Planos de Saúde

STF decide que PIS/Cofins integram a base de cálculo da Contribuição Previdenciária sobre Receita Bruta (CPRB)

Media for equity: o que é e como estruturar essa estratégia de forma segura?

Novas Regras de Publicidade Médica – Resolução CFM nº 2.336/2023. Reflexões para MÉDICOS E PACIENTES.

STF proíbe reajuste por faixa etária após os 60 anos em planos de saúde: impactos jurídicos e práticos

Garantias em contratos bancários empresariais: riscos jurídicos do aval e da fiança na prática

Concessionárias podem excluir ICMS-ST do cálculo do PIS/COFINS

STJ valida margem zero na comercialização de medicamentos por hospitais: impactos do AREsp 1.708.364 na assistência à saúde

Reflexos tributários do NCM

Liberação de crédito de ICMS para exportador não é favor

Folha x OpenAI: será que essa nova discussão irá redefinir os limites da inteligência artificial no Brasil?

Lucro Real sob novas diretrizes fiscais: o alcance da IN RFB nº 2.305/2025

Receba as informações jurídicas que podem impactar o seu negócio.