El futuro de la IA depende de la base de datos gratuita de un profesor de secundaria

Autor

Max Fernandez

Publicado

25.04.23

Frente a una casa suburbana en las afueras de la ciudad de Hamburgo, en el norte de Alemania, una sola palabra, «LAION», está garabateada con lápiz en un buzón. Es el único indicio de que la casa pertenece a la persona detrás de un esfuerzo masivo de recopilación de datos central para el auge de la inteligencia artificial que ha captado la atención del mundo.

Esa persona es el profesor de secundaria Christoph Schuhmann, y LAION, abreviatura de «Red abierta de IA a gran escala», es su proyecto apasionante. Cuando Schuhmann no está enseñando física e informática a adolescentes alemanes, trabaja con un pequeño equipo de voluntarios construyendo el conjunto de datos de entrenamiento de IA gratuito más grande del mundo, que ya se ha utilizado en generadores de texto a imagen como Imagen y Stable de Google. Difusión.

Las bases de datos como LAION son fundamentales para los generadores de texto a imagen de IA, que dependen de ellas para las enormes cantidades de material visual que se utilizan para deconstruir y crear nuevas imágenes. El debut de estos productos a fines del año pasado fue un evento que cambió el paradigma: puso la carrera armamentista de IA del sector tecnológico en hipervelocidad y planteó una gran cantidad de problemas éticos y legales. En cuestión de meses, se presentaron demandas contra las empresas de IA generativa Stability AI y Midjourney por infracción de derechos de autor, y los críticos hicieron sonar la alarma sobre las imágenes violentas, sexualizadas y problemáticas dentro de sus conjuntos de datos, que han sido acusadas de introducir sesgos que son casi imposibles de mitigar.

Pero estas no son las preocupaciones de Schuhmann. Solo quiere liberar los datos.

El maestro y actor capacitado de 40 años ayudó a fundar LAION hace dos años después de pasar el rato en un servidor de Discord para entusiastas de la IA. Se acababa de lanzar la primera iteración de DALL-E de OpenAI, un modelo de aprendizaje profundo que genera imágenes digitales a partir de indicaciones del idioma, por ejemplo, creando una imagen de un pollo rosado sentado en un sofá en respuesta a una solicitud de este tipo, y Schuhmann fue a la vez inspirado y preocupado de que alentaría a las grandes empresas tecnológicas a hacer que más datos sean propietarios.

“Al instante entendí que si esto se centraliza en una, dos o tres empresas, tendrá efectos realmente negativos para la sociedad”, dijo Schuhmann.

En respuesta, él y otros miembros del servidor decidieron crear un conjunto de datos de código abierto para ayudar a entrenar modelos de difusión de imagen a texto, un proceso de meses similar a enseñarle a alguien un idioma extranjero con millones de tarjetas flash. El grupo usó código HTML sin procesar recopilado por Common Crawl, una organización sin fines de lucro de California, para ubicar imágenes en la web y asociarlas con texto descriptivo. No utiliza ninguna curación manual o humana.

En unas pocas semanas, Schuhmann y sus colegas tenían 3 millones de pares de imagen y texto. Después de tres meses, lanzaron un conjunto de datos con 400 millones de pares. Ese número ahora supera los 5 mil millones, lo que convierte a LAION en el conjunto de datos gratuito más grande de imágenes y subtítulos.

A medida que crecía la reputación de LAION, el equipo trabajó sin cobrar y recibió una donación única en 2021 de la empresa de aprendizaje automático Hugging Face. Entonces, un día, un ex administrador de fondos de cobertura ingresó al chat de Discord.

Emad Mostaque se ofreció a cubrir los costos de la potencia informática, sin condiciones. Quería lanzar su propio negocio de IA generativa de código abierto y estaba ansioso por utilizar LAION para entrenar su producto. El equipo inicialmente se burló de la propuesta, tomándolo por un chiflado.

«Fuimos muy escépticos al principio», dijo Schuhmann, «pero después de aproximadamente cuatro semanas obtuvimos acceso a las GPU en la nube que normalmente habrían costado alrededor de $ 9,000 o $ 10,000».

Cuando Mostaque lanzó Stability AI en 2022, utilizó el conjunto de datos de LAION para Stable Diffusion, su generador de imágenes de IA insignia, y contrató a dos de los investigadores de la organización. Un año después, la empresa busca actualmente una valoración de 4.000 millones de dólares, gracias en gran parte a los datos facilitados por LAION. Por su parte, Schuhmann no se ha beneficiado de LAION y dice que no le interesa hacerlo. “Todavía soy profesor de secundaria. He rechazado ofertas de trabajo de diferentes tipos de empresas porque quería que esto siguiera siendo independiente”, dijo.

Muchas de las imágenes y enlaces en bases de datos como LAION han estado a la vista en la web, en algunos casos durante décadas. Fue necesario el auge de la IA para revelar su verdadero valor, ya que cuanto más grande y diverso sea un conjunto de datos, y cuanto mayor sea la calidad de las imágenes en él, más clara y precisa será una imagen generada por IA.

Darse cuenta, a su vez, ha planteado una serie de preguntas legales y éticas sobre si los materiales disponibles públicamente pueden usarse para alimentar bases de datos y, si la respuesta es afirmativa, si se debe pagar a los creadores.

Para construir LAION, los fundadores recopilaron datos visuales de compañías como Pinterest, Shopify y Amazon Web Services, que no comentaron si el uso de su contenido por parte de LAION viola sus términos de servicio, así como miniaturas de YouTube, imágenes de plataformas de cartera como DeviantArt y EyeEm, fotos de sitios web del gobierno, incluido el Departamento de Defensa de EE. UU., y contenido de sitios de noticias como The Daily Mail y The Sun.

Si le preguntas a Schuhmann, él dice que todo lo que está disponible gratuitamente en línea es un juego limpio. Pero actualmente no existe una regulación de IA en la Unión Europea, y la próxima Ley de IA, cuyo lenguaje se finalizará a principios de este verano, no dictaminará si los materiales con derechos de autor pueden incluirse en grandes conjuntos de datos. Más bien, los legisladores están discutiendo si incluir una disposición que requiera que las empresas detrás de los generadores de IA divulguen qué materiales entraron en los conjuntos de datos en los que se entrenaron sus productos, dando así a los creadores de esos materiales la opción de tomar medidas.

La idea básica detrás de la disposición, el miembro del Parlamento Europeo Dragos Tudorache le dijo a Bloomberg, es simple: «Como desarrollador de IA generativa, tiene la obligación de documentar y ser transparente sobre el material protegido por derechos de autor que ha utilizado en el entrenamiento de algoritmos».

Tal regulación no sería un problema para Stability AI, pero podría ser un problema para otros generadores de texto a imagen: «nadie sabe qué Open AI usó realmente para entrenar DALL-E 2», dijo Schuhmann, citándolo como un ejemplo de cómo las empresas de tecnología bloquean los datos públicos. También cambiaría lo que ahora es el status quo en la recopilación de datos.

“Se ha convertido en una tradición dentro del campo simplemente asumir que no necesita consentimiento o que no necesita informar a las personas, o que ni siquiera tienen que saberlo. Hay una sensación de derecho de que, sea lo que sea que esté en la web, puedes simplemente rastrearlo y ponerlo en un conjunto de datos”, dijo Abeba Birhane, Senior Fellow en Trustworthy AI en la Fundación Mozilla que ha estudiado LAION.

Aunque LAION no ha sido demandada directamente, ha sido nombrada en dos demandas: una que acusa a Stability y Midjourney de usar imágenes con derechos de autor de artistas para entrenar a sus modelos, y otra de Getty Images contra Stability, que alega que 12 millones de sus imágenes fueron raspadas. por LAION y utilizado para entrenar Stable Diffusion.

Debido a que LAION es de código abierto, es imposible saber cuál o cuántas otras empresas han utilizado el conjunto de datos. Google ha reconocido que recurrió a LAION para ayudar a entrenar sus modelos de texto a imagen Imagen y Parti AI. Schuhmann cree que otras grandes empresas están haciendo lo mismo en silencio y simplemente no lo revelan.