• 28 enero, 2025

Carlos Garsés

Profesional IT

La polémica detrás del entrenamiento de IA: YouTube en el centro del debate

Una investigación de Proof News revela que varias empresas líderes en tecnología e inteligencia artificial (IA), incluyendo Apple, Nvidia, Anthropic y Salesforce, aparentemente usaron miles de videos de YouTube para entrenar sus modelos de IA sin el conocimiento de los creadores.

Proof News descubrió que las empresas utilizaron subtítulos de 173,536 videos de YouTube de más de 48,000 canales. El conjunto de datos, llamado “Subtítulos de YouTube”, contiene transcripciones de videos de canales educativos como Khan Academy, MIT y Harvard, así como de medios de comunicación como The Wall Street Journal, NPR y BBC.

Según la investigación, también se usó material de programas nocturnos como “The Late Show with Stephen Colbert” y “Jimmy Kimmel Live!”, además de contenido de YouTubers famosos como MrBeast y Marques Brownlee. Este último describe el debate sobre el entrenamiento de IA como “un problema que seguirá evolucionando por mucho tiempo”.

El conjunto de datos “Subtítulos de YouTube” es parte de “The Pile”, una colección de datos de internet compilada por la organización de investigación Eleuther AI. Por ejemplo, Apple usó The Pile para sus modelos de código abierto OpenELM, que podrían utilizarse en su propia Apple Intelligence. Anthropic y Salesforce ya han confirmado que usaron The Pile para sus sistemas de IA.

Puede haber una particularidad con los datos de YouTube: en abril, el CEO de YouTube, Neal Mohan, enfatizó que este tipo de uso de datos está expresamente prohibido por los términos de servicio de YouTube. Queda por ver si esto cambia el principio de “uso justo” en el que suelen basarse las empresas de IA que recopilan datos, incluido Google en sus propias disputas legales.

La situación legal sobre la recopilación de datos para el entrenamiento de IA aún no está clara. Una sentencia judicial reciente sobre la herramienta de IA para código Github Copilot establece que no hay infracción de derechos de autor, al menos mientras el resultado de los sistemas no sea idéntico al contenido original.

Este caso es uno de un número creciente de disputas legales. Ya hay varias demandas colectivas de editoriales y autores contra empresas tecnológicas, en parte por el uso de libros como datos de entrenamiento. También hay casos similares pendientes en los sectores de imágenes y música, y están surgiendo más en el sector del video.

Vía | La polémica detrás del entrenamiento de IA: YouTube en el centro del debate – Tecnología con Juancho (tecnologiaconjuancho.com)

Por Juan Padra

Más de 40 años de experiencia en tecnología. DJ, enseñanza del español y radio en línea. Profesional versátil y apasionado de la música y la tecnología. ¡Bienvenido a mi perfil!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Verificado por MonsterInsights