Un documento interno filtrado de Google afirma que la inteligencia artificial de código abierto superará a Google y OpenAI

Por: Semianalysis

El texto que aparece a continuación es un documento filtrado muy reciente, que fue compartido por un individuo anónimo en un servidor público de Discord que ha otorgado permiso para su republicación. Proviene de un investigador de Google. Hemos verificado su autenticidad. Las únicas modificaciones son el formato y la eliminación de enlaces a páginas web internas. El documento es solo la opinión de un empleado de Google, no de toda la empresa. No estamos de acuerdo con lo que se escribe a continuación, ni tampoco lo están otros investigadores a los que les preguntamos, pero publicaremos nuestras opiniones al respecto en un artículo aparte para los suscriptores. Simplemente somos un vehículo para compartir este documento que plantea algunos puntos muy interesantes.

No tenemos foso

Y tampoco lo hace OpenAI

Hemos estado observando de cerca a OpenAI. ¿Quién superará el próximo hito? ¿Cuál será el próximo paso?

Pero la verdad incómoda es que no estamos en condiciones de ganar esta carrera armamentística, y tampoco lo está OpenAI . Mientras nosotros nos peleábamos, una tercera facción nos estaba comiendo el pan en silencio.

Hablo, por supuesto, del código abierto. Dicho de otra manera, nos están ganando. Cosas que consideramos “grandes problemas abiertos” ya están resueltas y en manos de la gente. Por nombrar solo algunas:

LLM en un teléfono: la gente está ejecutando modelos básicos en un Pixel 6 a 5 tokens/seg.
IA personal escalable: puedes configurar una IA personalizada en tu computadora portátil en una noche.
Publicación responsable: este problema no está tan “resuelto”, sino más bien “evitado”. Hay sitios web enteros llenos de modelos artísticos sin restricciones de ningún tipo , y el texto no se queda atrás.
Multimodalidad: El actual ScienceQA SOTA multimodal se entrenó en una hora .

Si bien nuestros modelos aún tienen una ligera ventaja en términos de calidad, la brecha se está cerrando sorprendentemente rápido . Los modelos de código abierto son más rápidos, más personalizables, más privados y más capaces en términos de relación calidad-precio. Están haciendo cosas con $100 y 13 mil millones de parámetros con los que nosotros tenemos problemas con $10 millones y 540 mil millones. Y lo están haciendo en semanas, no en meses. Esto tiene profundas implicaciones para nosotros:

No tenemos una fórmula secreta. Nuestra mayor esperanza es aprender de lo que hacen otros fuera de Google y colaborar con ellos. Deberíamos priorizar la habilitación de integraciones 3P.
La gente no pagará por un modelo restringido cuando existen alternativas gratuitas y sin restricciones de calidad comparable. Deberíamos considerar dónde está realmente nuestro valor añadido.
Los modelos gigantes nos están frenando. A largo plazo, los mejores modelos son los que…que se puede iterar rápidamente. Deberíamos hacer pequeñas variantes más que una idea de último momento, ahora que sabemos lo que es posible en el régimen de parámetros <20B.

https://lmsys.org/blog/2023-03-30-vicuña/

Qué pasó

A principios de marzo, la comunidad de código abierto tuvo en sus manos su primer modelo de base realmente capaz, cuando se filtró al público el LLaMA de Meta. No tenía instrucciones ni ajustes de conversación, ni RLHF. No obstante, la comunidad comprendió de inmediato la importancia de lo que se les había dado.

A esto le siguió una tremenda oleada de innovaciones, con apenas unos días entre los principales desarrollos (ver la cronología para ver el desglose completo). Aquí estamos, apenas un mes después, y hay variantes con ajuste de instrucciones , cuantificación , mejoras de calidad , evaluaciones humanas , multimodalidad , RLHF , etc., muchas de las cuales se basan entre sí.

Lo más importante es que han resuelto el problema de la escalabilidad, de modo que cualquiera puede experimentar. Muchas de las nuevas ideas provienen de gente común. La barrera de entrada para la formación y la experimentación ha disminuido desde la producción total de una importante organización de investigación a una persona, una tarde y un potente ordenador portátil.

Por qué lo pudimos haber visto venir

En muchos sentidos, esto no debería sorprender a nadie. El renacimiento actual de los LLM de código abierto viene inmediatamente después de un renacimiento en la generación de imágenes. Las similitudes no pasan desapercibidas para la comunidad, y muchos lo llaman el ” momento de difusión estable ” de los LLM.

En ambos casos, la participación pública a bajo costo fue posible gracias a un mecanismo mucho más barato para el ajuste fino llamado adaptación de bajo rango , o LoRA, combinado con un avance significativo en escala ( difusión latente para la síntesis de imágenes, Chinchilla para los LLM). En ambos casos, el acceso a un modelo de calidad suficientemente alta desencadenó una oleada de ideas e iteraciones por parte de individuos e instituciones de todo el mundo. En ambos casos, esto superó rápidamente a los grandes actores.

Estas contribuciones fueron fundamentales en el espacio de generación de imágenes y marcaron un camino diferente al de Dall-E para Stable Diffusion. El hecho de contar con un modelo abierto dio lugar a integraciones de productos , mercados , interfaces de usuario e innovaciones que no se dieron en Dall-E.

El efecto fue palpable: una rápida dominación en términos de impacto cultural frente a la solución OpenAI, que se volvió cada vez más irrelevante. Queda por ver si ocurrirá lo mismo con los LLM, pero los elementos estructurales generales son los mismos.

Lo que nos perdimos

Las innovaciones que impulsaron los recientes éxitos del código abierto resuelven directamente problemas con los que aún luchamos. Prestar más atención a su trabajo podría ayudarnos a evitar reinventar la rueda.

LoRA es una técnica increíblemente poderosa a la que probablemente deberíamos prestar más atención.

LoRA funciona representando las actualizaciones del modelo como factorizaciones de bajo rango, lo que reduce el tamaño de las matrices de actualización en un factor de hasta varios miles. Esto permite ajustar el modelo a una fracción del costo y el tiempo. Poder personalizar un modelo de lenguaje en unas pocas horas en un hardware de consumo es algo muy importante, en particular para aspiraciones que implican incorporar conocimiento nuevo y diverso casi en tiempo real . El hecho de que esta tecnología exista no se aprovecha lo suficiente dentro de Google, a pesar de que afecta directamente a algunos de nuestros proyectos más ambiciosos.

Reentrenar modelos desde cero es el camino difícil

Parte de lo que hace que LoRA sea tan eficaz es que, al igual que otras formas de ajuste fino, es acumulable. Se pueden aplicar mejoras como el ajuste de instrucciones y luego aprovecharlas a medida que otros contribuyentes agregan diálogo, razonamiento o uso de herramientas. Si bien los ajustes finos individuales son de bajo rango, su suma no tiene por qué serlo, lo que permite que las actualizaciones de rango completo del modelo se acumulen con el tiempo.

Esto significa que a medida que estén disponibles nuevos y mejores conjuntos de datos y tareas, el modelo se puede mantener actualizado de forma económica, sin tener que pagar nunca el coste de una ejecución completa.

Por el contrario, entrenar modelos gigantes desde cero no solo descarta el entrenamiento previo, sino también cualquier mejora iterativa que se haya realizado anteriormente. En el mundo del código abierto, no pasa mucho tiempo antes de que estas mejoras se impongan, lo que hace que un reentrenamiento completo sea extremadamente costoso.

Debemos reflexionar sobre si cada nueva aplicación o idea realmente necesita un modelo completamente nuevo. Si realmente tenemos mejoras arquitectónicas importantes que impiden la reutilización directa de los pesos del modelo, entonces deberíamos invertir en formas más agresivas de destilación que nos permitan conservar la mayor cantidad posible de las capacidades de la generación anterior.

Los modelos grandes no son más capaces a largo plazo si podemos iterar más rápido en modelos pequeños.

Las actualizaciones de LoRA son muy económicas de producir (unos 100 dólares) para los tamaños de modelos más populares. Esto significa que casi cualquier persona con una idea puede generar una y distribuirla. Los tiempos de entrenamiento inferiores a un día son la norma. A ese ritmo, no pasa mucho tiempo antes de que el efecto acumulativo de todos estos ajustes supere el hecho de empezar con una desventaja de tamaño. De hecho, en términos de horas de ingeniero, el ritmo de mejora de estos modelos supera ampliamente lo que podemos hacer con nuestras variantes más grandes, y las mejores ya son en gran medida indistinguibles de ChatGPT . Centrarnos en mantener algunos de los modelos más grandes del planeta en realidad nos pone en desventaja.

La calidad de los datos se escala mejor que su tamaño

Muchos de estos proyectos ahorran tiempo al entrenarse con conjuntos de datos pequeños y muy seleccionados . Esto sugiere que hay cierta flexibilidad en las leyes de escalado de datos. La existencia de dichos conjuntos de datos se deriva de la línea de pensamiento de Data Doesn’t Do What You Think y rápidamente se están convirtiendo en la forma estándar de realizar entrenamiento fuera de Google. Estos conjuntos de datos se construyen utilizando métodos sintéticos (por ejemplo, filtrando las mejores respuestas de un modelo existente) y extrayendo datos de otros proyectos, ninguno de los cuales es dominante en Google. Afortunadamente, estos conjuntos de datos de alta calidad son de código abierto, por lo que su uso es gratuito.

Competir directamente con el código abierto es una propuesta perdedora

Este reciente avance tiene implicaciones directas e inmediatas para nuestra estrategia empresarial. ¿Quién pagaría por un producto de Google con restricciones de uso si existe una alternativa gratuita y de alta calidad sin ellas?

Y no deberíamos esperar poder alcanzarlo. La Internet moderna funciona con código abierto por una razón. El código abierto tiene algunas ventajas significativas que no podemos reproducir.

Los necesitamos más de lo que ellos nos necesitan.

Mantener en secreto nuestra tecnología siempre fue una propuesta poco acertada. Los investigadores de Google se van a otras empresas con regularidad, por lo que podemos suponer que saben todo lo que sabemos nosotros y que seguirán haciéndolo mientras ese canal esté abierto.

Pero mantener una ventaja competitiva en tecnología se hace aún más difícil ahora que la investigación de vanguardia en los programas de máster es asequible. Las instituciones de investigación de todo el mundo se basan en el trabajo de las demás, explorando el espacio de las soluciones de una manera que supera con creces nuestra propia capacidad. Podemos intentar aferrarnos a nuestros secretos mientras la innovación externa diluye su valor, o podemos intentar aprender unos de otros.

Los individuos no están limitados por las licencias en el mismo grado que las corporaciones

Gran parte de esta innovación se está produciendo sobre la base de los pesos de los modelos filtrados de Meta. Si bien esto cambiará inevitablemente a medida que los modelos verdaderamente abiertos mejoren, el punto es que no tienen que esperar. La cobertura legal que brinda el “uso personal” y la imposibilidad de procesar a las personas implican que las personas están obteniendo acceso a estas tecnologías mientras están en auge.

Ser su propio cliente significa que comprende el caso de uso.

Si examinamos los modelos que se crean en el ámbito de la generación de imágenes, nos damos cuenta de que hay una gran cantidad de creatividad, desde generadores de anime hasta paisajes HDR. Estos modelos son utilizados y creados por personas que están profundamente inmersas en su subgénero particular, lo que aporta una profundidad de conocimiento y empatía que no podemos esperar igualar.

Ser dueños del ecosistema: dejar que el código abierto trabaje para nosotros

Paradójicamente, el único ganador claro en todo esto es Meta. Como el modelo filtrado era suyo, han conseguido efectivamente el equivalente a un planeta entero de mano de obra gratuita. Como la mayor parte de la innovación de código abierto se produce sobre su arquitectura, no hay nada que les impida incorporarla directamente a sus productos.

No se puede exagerar el valor de poseer el ecosistema. El propio Google ha utilizado con éxito este paradigma en sus ofertas de código abierto, como Chrome y Android. Al poseer la plataforma donde se produce la innovación, Google se consolida como un líder de pensamiento y un creador de rumbos, lo que le otorga la capacidad de dar forma a la narrativa sobre ideas que son más grandes que él mismo.

Cuanto más controlemos nuestros modelos, más atractivas nos resultarán las alternativas abiertas. Tanto Google como OpenAI han optado por patrones de publicación que les permitan mantener un control estricto sobre cómo se utilizan sus modelos. Pero este control es una ficción. Cualquiera que busque utilizar los LLM para fines no autorizados puede simplemente elegir entre los modelos disponibles de forma gratuita.

Google debería establecerse como líder en la comunidad de código abierto, tomando la iniciativa y cooperando con la conversación más amplia, en lugar de ignorarla. Esto probablemente signifique tomar algunas medidas incómodas, como publicar los pesos de los modelos para las variantes pequeñas de ULM. Esto significa necesariamente renunciar a parte del control sobre nuestros modelos. Pero este compromiso es inevitable. No podemos esperar impulsar la innovación y controlarla al mismo tiempo.

Epílogo: ¿Qué pasa con OpenAI?

Todo este debate sobre el código abierto puede parecer injusto, dada la actual política cerrada de OpenAI. ¿Por qué tenemos que compartirlo nosotros si ellos no lo hacen? Pero el hecho es que ya estamos compartiendo todo con ellos en forma de un flujo constante de investigadores experimentados contratados ilegalmente. Hasta que detengamos esa marea, el secreto es un punto discutible.

Y, al final, OpenAI no importa . Están cometiendo los mismos errores que nosotros en su postura con respecto al código abierto, y su capacidad para mantener una ventaja está necesariamente en duda. Las alternativas de código abierto pueden eclipsarlos y eventualmente lo harán a menos que cambien su postura. En este sentido, al menos, podemos dar el primer paso.

La línea de tiempo

24 de febrero de 2023: se lanza LLaMA

Meta lanza LLaMA y publica el código fuente, pero no los pesos. En este punto, LLaMA no está optimizado para instrucciones ni conversaciones. Como muchos modelos actuales, es un modelo relativamente pequeño (disponible en parámetros 7B, 13B, 33B y 65B) que ha sido entrenado durante una cantidad de tiempo relativamente grande y, por lo tanto, es bastante capaz en relación con su tamaño.

3 de marzo de 2023: Sucede lo inevitable

En una semana, LLaMA se filtra al público . El impacto en la comunidad no se puede subestimar. Las licencias existentes impiden su uso con fines comerciales, pero de repente cualquiera puede experimentar. A partir de este momento, las innovaciones se suceden con rapidez.

12 de marzo de 2023 – Modelos de lenguaje en una tostadora

Poco más de una semana después, Artem Andreenko consigue que el modelo funcione en una Raspberry Pi . En este punto, el modelo funciona demasiado lento para ser práctico porque los pesos deben introducirse y extraerse de la memoria. No obstante, esto prepara el terreno para una avalancha de esfuerzos de minimización.

13 de marzo de 2023: Ajustes finos en una computadora portátil

Al día siguiente, Stanford lanza Alpaca , que agrega ajuste de instrucciones a LLaMA. Sin embargo, más importante que los pesos reales fue el repositorio alpaca-lora de Eric Wang, que utilizó un ajuste fino de rango bajo para realizar este entrenamiento “en cuestión de horas en una sola RTX 4090”.

De repente, cualquiera podía ajustar el modelo para que hiciera lo que quisiera, lo que dio inicio a una carrera hacia el abismo en proyectos de ajuste de bajo presupuesto. Los artículos describen con orgullo el gasto total de unos pocos cientos de dólares. Además, las actualizaciones de bajo rango se pueden distribuir fácilmente y por separado de los pesos originales, lo que las hace independientes de la licencia original de Meta. Cualquiera puede compartirlas y aplicarlas.

18 de marzo de 2023 – Ahora es rápido

Georgi Gerganov utiliza una cuantificación de 4 bits para ejecutar LLaMA en una CPU MacBook. Es la primera solución “sin GPU” lo suficientemente rápida como para ser práctica.

19 de marzo de 2023 – Un modelo 13B logra la “paridad” con Bard

Al día siguiente, una colaboración entre universidades lanza Vicuna y utiliza eval con tecnología GPT-4 para proporcionar comparaciones cualitativas de los resultados del modelo. Si bien el método de evaluación es sospechoso, el modelo es sustancialmente mejor que las variantes anteriores. Costo de capacitación: $300.

En particular, pudieron usar datos de ChatGPT eludiendo las restricciones de su API: simplemente tomaron muestras de diálogos “impresionantes” de ChatGPT publicados en sitios como ShareGPT .

25 de marzo de 2023 – Elige tu propio modelo

Nomic crea GPT4All , que es a la vez un modelo y, lo que es más importante, un ecosistema . Por primera vez, vemos modelos (incluido Vicuna) reunidos en un solo lugar. Costo de capacitación: $100.

28 de marzo de 2023: código abierto GPT-3

Cerebras (que no debe confundirse con nuestro propio Cerebra) entrena la arquitectura GPT-3 utilizando el cronograma computacional óptimo implícito por Chinchilla y el escalamiento óptimo implícito por la parametrización μ . Esto supera a los clones GPT-3 existentes por un amplio margen y representa el primer uso confirmado de la parametrización μ “en la naturaleza”. Estos modelos se entrenan desde cero, lo que significa que la comunidad ya no depende de LLaMA.

28 de marzo de 2023 – Entrenamiento multimodal en una hora

Utilizando una novedosa técnica de ajuste fino de parámetros eficiente (PEFT), LLaMA-Adapter introduce el ajuste de instrucciones y la multimodalidad en una hora de entrenamiento. Sorprendentemente, lo hacen con solo 1,2 millones de parámetros que se pueden aprender. El modelo logra un nuevo SOTA en ScienceQA multimodal.

3 de abril de 2023: los humanos reales no pueden distinguir entre un modelo abierto 13B y ChatGPT

Berkeley lanza Koala , un modelo de diálogo entrenado íntegramente con datos disponibles de libre acceso.

Dan el paso crucial de medir las preferencias humanas reales entre su modelo y ChatGPT. Si bien ChatGPT aún mantiene una ligera ventaja, más del 50 % de las veces los usuarios prefieren Koala o no tienen ninguna preferencia. Costo de capacitación: $100.

15 de abril de 2023: código abierto RLHF en los niveles de ChatGPT

Open Assistant lanza un modelo y, lo que es más importante, un conjunto de datos para la alineación a través de RLHF. Su modelo es cercano (48,3 % frente a 51,7 %) a ChatGPT en términos de preferencia humana. Además de LLaMA, demuestran que este conjunto de datos se puede aplicar a Pythia-12B, lo que brinda a las personas la opción de usar una pila completamente abierta para ejecutar el modelo. Además, debido a que el conjunto de datos está disponible públicamente, hace que RLHF pase de ser inalcanzable a ser económico y fácil para pequeños experimentadores.

Google: “No tenemos foso, y OpenAI tampoco”