Google usou BeInCrypto para treinar ferramenta de IA

Prefira-nos no Google

21 abril 2023 10:00 BRT

O BeInCrypto foi incluído no conjunto de dados C4, usado para treinamento de inteligência artificial (IA).
Os modelos de linguagem e aqueles usados pelo ChatGPT vasculham a internet para imitar a sintaxe humana.
O CommonCrawl inclui sites confiáveis e materiais não licenciados e protegidos por direitos autorais.

O BeInCrypto foi incluído em um conjunto de dados para treinar e melhorar ferramentas de inteligência artificial (IA) de acordo com uma análise recente.

O Washington Post e o Allen Institute for AI estudaram o conjunto de dados C4 do Google para determinar quais sites estavam alimentando as ferramentas de IA.

Muitos modelos de linguagem grandes usaram o C4 (que significa Colossal Clean Crawled Corpus) como uma ferramenta de instrução. No entanto, o ChatGPT da Open AI não faz uso desse conjunto de dados.

Ajudando a IA a replicar a fala humana

Grandes modelos de linguagem como C4 e o empregado pelo ChatGPT vasculham a internet em busca de conteúdo para incluir em seu modelo. A vastidão do conjunto de dados permite que a IA imite a fala humana.

Patrocinado

O Washington Post classificou os sites do C4 usando dados da empresa de análise web Similarweb. Em seguida, eles classificaram os 10 milhões de sites de acordo com o número de tokens que contribuíram.

Tokens, nesse contexto, são pequenos pedaços de texto utilizados para dar sentido a dados não estruturados, geralmente consistindo em uma palavra ou frase.

Os três maiores contribuintes para o conjunto de dados foram patentes.google.com, wikipedia.org e scribd.com, uma biblioteca digital baseada em assinatura. E as organizações de notícias dominaram as primeiras posições, com o Guardian, New York Times, Forbes, LA Times e Huffington Post ocupando o top 10.

Dados do C4 foram vasculhados pela primeira vez em 2019

Outros sites com destaque incluem o Instructables, uma plataforma online para compartilhar instruções e instruções de bricolage. E os pesquisadores também encontraram pelo menos 27 outros sites identificados pelo governo dos EUA como mercados de pirataria e falsificações.

O C4 começou como um único rascunho da organização sem fins lucrativos CommonCrawl em 2019. Eles disseram ao Washington Post que o modelo não tenta evitar material licenciado ou protegido por direitos autorais. No entanto, ele tenta priorizar sites confiáveis e de alta qualidade, onde os dados são gratuitos para uso e análise.

Como a tecnologia de IA continua a ameaçar vários setores, a extração de conteúdo para grandes modelos de linguagem tornou-se cada vez mais controversa, principalmente nos setores de maior risco da IA.

As empresas de treinamento de IA não compensam os criadores de conteúdo pelo uso de seu trabalho. Além disso, os artistas recentemente atacaram as ferramentas de imagem de IA Midjourney e Stable Diffusion com um processo de direitos autorais.

O processo alega que as ferramentas de arte generativas de IA violam a lei de direitos autorais ao copiar o trabalho dos artistas sem o consentimento deles.

Não entendeu algum termo do universo Web3? Confira no nosso Glossário!
Quer se manter atualizado em tudo o que é relevante no mundo cripto? O BeInCrypto tem uma comunidade no Telegram em que você pode ler em primeira mão as notícias relevantes e conversar com outros entusiastas em criptomoedas. Confira!
Você também pode se juntar a nossas comunidades no Twitter (X), Instagram e Facebook.