Como funciona a marca d’água ChatGPT. O ChatGPT da OpenAI introduziu uma maneira de criar conteúdo automaticamente, mas os planos de introduzir um recurso de marca d’água para facilitar a detecção estão deixando algumas pessoas nervosas. É assim que funciona a marca d’água ChatGPT e por que pode haver uma maneira de derrotá-la. O ChatGPT é uma ferramenta incrível que editores online, afiliados e SEOs amam e temem ao mesmo tempo.
Alguns profissionais de marketing adoram porque estão descobrindo novas maneiras de usá-lo para gerar resumos de conteúdo, esboços e artigos complexos.
Os editores online temem a perspectiva de conteúdo de IA inundar os resultados de pesquisa, suplantando artigos especializados escritos por humanos.
Consequentemente, a notícia de um recurso de marca d’água que desbloqueia a detecção de conteúdo de autoria do ChatGPT também é aguardada com ansiedade e esperança.
Como funciona a marca d’água ChatGPT
Uma marca d’água é uma marca semitransparente (um logotipo ou texto) incorporada a uma imagem. A marca d’água sinaliza quem é o autor original da obra.
É amplamente visto em fotografias e cada vez mais em vídeos.
O texto de marca d’água no ChatGPT envolve criptografia na forma de incorporar um padrão de palavras, letras e pontuação na forma de um código secreto.
Scott Aaronson e marca d’água ChatGPT
Um influente cientista da computação chamado Scott Aaronson foi contratado pela OpenAI em junho de 2022 para trabalhar em AI Safety and Alignment.
AI Safety é um campo de pesquisa preocupado em estudar maneiras pelas quais a IA pode causar danos aos seres humanos e criar maneiras de evitar esse tipo de interrupção negativa.
A revista científica Distill, com autores afiliados à OpenAI, define a segurança da IA assim:
“O objetivo da segurança da inteligência artificial (IA) a longo prazo é garantir que os sistemas avançados de IA estejam alinhados de forma confiável com os valores humanos – que eles façam de forma confiável as coisas que as pessoas querem que eles façam.”
Alinhamento de IA é o campo da inteligência artificial preocupado em garantir que a IA esteja alinhada com os objetivos pretendidos.
Um grande modelo de linguagem (LLM) como o ChatGPT pode ser usado de uma forma que pode ir contra os objetivos do Alinhamento de IA conforme definido pela OpenAIque é criar uma IA que beneficie a humanidade.
Consequentemente, o motivo da marca d’água é evitar o uso indevido da IA de uma forma que prejudique a humanidade.
Aaronson explicou o motivo da marca d’água na saída do ChatGPT:
“Isso pode ser útil para prevenir o plágio acadêmico, obviamente, mas também, por exemplo, a geração em massa de propaganda…”
Como funciona a marca d’água do ChatGPT?
A marca d’água do ChatGPT é um sistema que incorpora um padrão estatístico, um código, nas escolhas de palavras e até mesmo nos sinais de pontuação.
O conteúdo criado por inteligência artificial é gerado com um padrão bastante previsível de escolha de palavras.
As palavras escritas por humanos e IA seguem um padrão estatístico.
Alterar o padrão das palavras usadas no conteúdo gerado é uma forma de “marcar” o texto para tornar mais fácil para um sistema detectar se foi produto de um gerador de texto AI.
O truque que torna a marca d’água de conteúdo AI indetectável é que a distribuição de palavras ainda tem uma aparência aleatória semelhante ao texto normal gerado por AI.
Isso é chamado de distribuição pseudo-aleatória de palavras.
A pseudo-aleatoriedade é uma série estatisticamente aleatória de palavras ou números que não são realmente aleatórios.
A marca d’água ChatGPT não está em uso no momento. No entanto, Scott Aaronson, da OpenAI, está registrado afirmando que está planejado.
No momento, o ChatGPT está em pré-visualização, o que permite que o OpenAI descubra “desalinhamento” por meio do uso no mundo real.
Presumivelmente, a marca d’água pode ser introduzida em uma versão final do ChatGPT ou antes disso.
Scott Aaronson escrevi sobre como funciona a marca d’água:
“Meu projeto principal até agora tem sido uma ferramenta para marcar estatisticamente as saídas de um modelo de texto como o GPT.
Basicamente, sempre que o GPT gera algum texto longo, queremos que haja um sinal secreto imperceptível em suas escolhas de palavras, que você pode usar para provar mais tarde que, sim, isso veio do GPT.”
Aaronson explicou melhor como funciona a marca d’água do ChatGPT. Mas primeiro, é importante entender o conceito de tokenização.
A tokenização é uma etapa que ocorre no processamento de linguagem natural, onde a máquina pega as palavras em um documento e as divide em unidades semânticas, como palavras e frases.
A tokenização altera o texto para um formato estruturado que pode ser usado no aprendizado de máquina.
O processo de geração de texto é a máquina adivinhando qual token vem a seguir com base no token anterior.
Isso é feito com uma função matemática que determina a probabilidade de qual será o próximo token, o que é chamado de distribuição de probabilidade.
A próxima palavra é prevista, mas é aleatória.
A marca d’água em si é o que Aaron descreve como pseudo-aleatório, pois há uma razão matemática para uma determinada palavra ou sinal de pontuação estar lá, mas ainda é estatisticamente aleatório.
Aqui está a explicação técnica da marca d’água GPT:
“Para o GPT, cada entrada e saída é uma sequência de tokens, que podem ser palavras, mas também sinais de pontuação, partes de palavras ou mais – existem cerca de 100.000 tokens no total.
Em sua essência, o GPT está constantemente gerando uma distribuição de probabilidade sobre o próximo token a ser gerado, condicional à sequência de tokens anteriores.
Depois que a rede neural gera a distribuição, o servidor OpenAI, na verdade, amostra um token de acordo com essa distribuição — ou alguma versão modificada da distribuição, dependendo de um parâmetro chamado ‘temperatura’.
Enquanto a temperatura for diferente de zero, porém, geralmente haverá alguma aleatoriedade na escolha do próximo token: você pode executar repetidamente o mesmo prompt e obter uma conclusão diferente (ou seja, sequência de tokens de saída) a cada vez .
Então, para marca d’água, em vez de selecionar o próximo token aleatoriamente, a ideia será selecioná-lo pseudoaleatóriamente, usando uma função pseudoaleatória criptográfica, cuja chave é conhecida apenas pelo OpenAI.”
A marca d’água parece completamente natural para quem lê o texto porque a escolha das palavras está imitando a aleatoriedade de todas as outras palavras.
Mas essa aleatoriedade contém um viés que só pode ser detectado por alguém com a chave para decodificá-lo.
Esta é a explicação técnica:
“Para ilustrar, no caso especial em que o GPT tinha vários tokens possíveis que julgava igualmente prováveis, você poderia simplesmente escolher qualquer token que maximizasse g. A escolha pareceria uniformemente aleatória para alguém que não conhecesse a chave, mas alguém que conhecesse a chave poderia mais tarde somar todos os n-gramas e ver que era anormalmente grande.”
A marca d’água é uma solução que prioriza a privacidade
Eu vi discussões nas mídias sociais em que algumas pessoas sugeriram que o OpenAI poderia manter um registro de cada saída que gera e usá-lo para detecção.
Scott Aaronson confirma que o OpenAI pode fazer isso, mas isso representa um problema de privacidade. A possível exceção é para situação de aplicação da lei, sobre a qual ele não detalhou.
Como detectar a marca d’água ChatGPT ou GPT
Algo interessante que parece não ser muito conhecido ainda é que Scott Aaronson notou que existe uma maneira de derrotar a marca d’água.
Ele não disse que é possível para derrotar a marca d’água, ele disse que posso ser derrotado.
“Agora, tudo isso pode ser derrotado com bastante esforço.
Por exemplo, se você usou outra IA para parafrasear a saída do GPT – tudo bem, não seremos capazes de detectar isso.”
Parece que a marca d’água pode ser derrotada, pelo menos a partir de novembro, quando as declarações acima foram feitas.
Não há indicação de que a marca d’água esteja em uso no momento. Mas quando entrar em uso, pode não se saber se essa brecha foi fechada
Via > Searchenginejournal
Este post foi modificado pela última vez em 01/01/2023 12:15