Dataset de treinamento de inteligência artificial (IA) continha imagens de abuso infantil

Uma investigação do Observatório da Internet de Stanford (SIO) descobriu que um dataset usado para treinar ferramentas de inteligência artificial (IA) generativas de texto-para imagem contém imagens de abuso infantil.

O conjunto de dados é aberto e foi usado para treinar, por exemplo o Stable Diffusion.

Abuso infantil e IA

A investigação do SIO descobriu que o dataset LAION-5B continha 3.226 entradas suspeitas de conterem abuso infantil. Outras entidades independentes confirmaram a natureza do conteúdo em seguida.

A análise revelou que o conteúdo foi adquirido de fontes diferentes, incluindo sites adultos e redes sociais.

O próprio observatório já alertou antes que os avanços na área de tecnologia e IA permitem que “o machine learning generativo possibilite a criação de imagnes realistas que facilitem a exploração sexual de crianças usando modelos generativos de imagens de código aberto”.

O SIO reportou as descobertas ao Centro Nacional de Crianças Desaparecidas e Exploradas (NCMEC) nos EUA e ao Centro de Proteção à Criança (C3P) do Canadá. O conteúdo ilegal já está sendo removido do dataset.

Para descobrir as imagens, o SIO usou ferramentas de hash como o PhotoDNA. O software relaciona uma identificação digital a bancos de dados mantidos por ONGs que recebem e processam relatórios de exploração sexual de crianças e abuso.

Os pesquisadores não tiveram acesso direto ao conteúdo, segundo a Stanford.

Inteligência Artificial em excesso?

A detecção de conteúdo infantil ilegal em datasets usados para treinar IA surge em um momento em que o mundo debate os limites da tecnologia.

O uso de modelos de linguagem para criar material sensível ou criminoso se choca com o debate de que tipos de criações de IA são aceitáveis, incluindo a violação de direitos autorais.

Até agora, há exemplos de escritores que processaram empresas como a OpenAI por causa de criações que incluíram materiais protegidos. Porém, é apenas questão de tempo para que questões mais sensíveis como pornografia e IA cheguem aos tribunais.

Trusted

Isenção de responsabilidade

Todas as informações contidas em nosso site são publicadas de boa fé e apenas para fins de informação geral. Qualquer ação que o leitor tome com base nas informações contidas em nosso site é por sua própria conta e risco.

Júlia V. Kurtz

READ FULL BIO

Editora-chefe do BeInCrypto Brasil. Jornalista de dados com formação pelo Knight Center for Journalism in the Americas da Universidade do Texas, possui 10 anos de experiência na cobertura de tecnologia pela Globo e, agora, está se aventurando pelo mundo cripto. Tem passagens na Gazeta do Povo e no Portal UOL.

READ FULL BIO