Ver mais

Google usou BeInCrypto para treinar ferramenta de IA

2 mins
Por Josh Adams
Traduzido Júlia V. Kurtz

EM RESUMO

  • O BeInCrypto foi incluído no conjunto de dados C4, usado para treinamento de inteligência artificial (IA).
  • Os modelos de linguagem e aqueles usados pelo ChatGPT vasculham a internet para imitar a sintaxe humana.
  • O CommonCrawl inclui sites confiáveis e materiais não licenciados e protegidos por direitos autorais.
  • promo

O BeInCrypto foi incluído em um conjunto de dados para treinar e melhorar ferramentas de inteligência artificial (IA) de acordo com uma análise recente.

O Washington Post e o Allen Institute for AI estudaram o conjunto de dados C4 do Google para determinar quais sites estavam alimentando as ferramentas de IA.

Leia mais: 4 criptomoedas que podem atingir novas máximas em abril

Muitos modelos de linguagem grandes usaram o C4 (que significa Colossal Clean Crawled Corpus) como uma ferramenta de instrução. No entanto, o ChatGPT da Open AI não faz uso desse conjunto de dados.

Ajudando a IA a replicar a fala humana

Grandes modelos de linguagem como C4 e o empregado pelo ChatGPT vasculham a internet em busca de conteúdo para incluir em seu modelo. A vastidão do conjunto de dados permite que a IA imite a fala humana.

O Washington Post classificou os sites do C4 usando dados da empresa de análise web Similarweb. Em seguida, eles classificaram os 10 milhões de sites de acordo com o número de tokens que contribuíram.

Tokens, nesse contexto, são pequenos pedaços de texto utilizados para dar sentido a dados não estruturados, geralmente consistindo em uma palavra ou frase.

Fonte: Washington Post

Os três maiores contribuintes para o conjunto de dados foram patentes.google.com, wikipedia.org e scribd.com, uma biblioteca digital baseada em assinatura. E as organizações de notícias dominaram as primeiras posições, com o Guardian, New York Times, Forbes, LA Times e Huffington Post ocupando o top 10.

Dados do C4 foram vasculhados pela primeira vez em 2019

Outros sites com destaque incluem o Instructables, uma plataforma online para compartilhar instruções e instruções de bricolage. E os pesquisadores também encontraram pelo menos 27 outros sites identificados pelo governo dos EUA como mercados de pirataria e falsificações.

O C4 começou como um único rascunho da organização sem fins lucrativos CommonCrawl em 2019. Eles disseram ao Washington Post que o modelo não tenta evitar material licenciado ou protegido por direitos autorais. No entanto, ele tenta priorizar sites confiáveis e de alta qualidade, onde os dados são gratuitos para uso e análise.

Como a tecnologia de IA continua a ameaçar vários setores, a extração de conteúdo para grandes modelos de linguagem tornou-se cada vez mais controversa, principalmente nos setores de maior risco da IA.

As empresas de treinamento de IA não compensam os criadores de conteúdo pelo uso de seu trabalho. Além disso, os artistas recentemente atacaram as ferramentas de imagem de IA Midjourney e Stable Diffusion com um processo de direitos autorais.

O processo alega que as ferramentas de arte generativas de IA violam a lei de direitos autorais ao copiar o trabalho dos artistas sem o consentimento deles.

  • Não entendeu algum termo do universo Web3? Confira no nosso Glossário!
  • Quer se manter atualizado em tudo o que é relevante no mundo cripto? O BeInCrypto tem uma comunidade no Telegram em que você pode ler em primeira mão as notícias relevantes e conversar com outros entusiastas em criptomoedasConfira!
  • Você também pode se juntar a nossas comunidades no Twitter (X)Instagram e Facebook.
Melhores plataformas de criptomoedas | Abril de 2024

Trusted

Isenção de responsabilidade

Todas as informações contidas em nosso site são publicadas de boa fé e apenas para fins de informação geral. Qualquer ação que o leitor tome com base nas informações contidas em nosso site é por sua própria conta e risco.

Julia.png
Júlia V. Kurtz
Editora-chefe do BeInCrypto Brasil. Jornalista de dados com formação pelo Knight Center for Journalism in the Americas da Universidade do Texas, possui 10 anos de experiência na cobertura de tecnologia pela Globo e, agora, está se aventurando pelo mundo cripto. Tem passagens na Gazeta do Povo e no Portal UOL.
READ FULL BIO
Patrocinados
Patrocinados