¿Qué reglas escogerías si pudieras controlar una IA?

Unos investigadores pidieron a unos 1000 estadounidenses que escribieran reglas para su chatbot. Los resultados podrían servir de modelo de gobernanza para la IA.

En este momento, uno de los debates más intensos en Silicon Valley es sobre quién debería controlar la inteligencia artificial (IA) y quién debería formular las reglas que rigen a los sistemas poderosos de esa tecnología.

¿La inteligencia artificial debería estar en manos de unas cuantas empresas que hacen lo mejor que pueden para que sus sistemas sean, en lo posible, lo más seguros e inofensivos? ¿Acaso deberían intervenir reguladores y políticos y crear sus propias protecciones? ¿O será que los modelos de IA deben ser abiertos y gratuitos de modo que usuarios y desarrolladores puedan decidir sus propias normas?

Un nuevo experimento realizado por Anthropic, el fabricante del chatbot Claude, ofrece un camino intermedio poco convencional: ¿qué pasaría si una empresa de inteligencia artificial le permitiera a un grupo de ciudadanos comunes y corrientes redactar algunas reglas y, luego, entrenara a un chatbot para que las siguiera?

El experimento, conocido como “Collective Constitutional AI”, se basa en un proyecto previo de Anthropic llamado Constitutional AI, una alternativa para entrenar a grandes modelos con el fin de que sigan un conjunto de principios escritos. El mismo pretende darle a un chatbot instrucciones claras de cómo manejar solicitudes sensibles, qué temas están prohibidos y cómo actuar conforme a los valores humanos.

Si funciona Collective Constitutional AI —y los investigadores de Anthropic creen que hay motivos para creer que así será— podría inspirar otros experimentos de gobernanza de inteligencia artificial y darles a las empresas del sector más ideas sobre cómo invitar a actores externos a participar en sus procesos de elaboración de normas.

Eso sería bueno. Ahora mismo, las reglas para los sistemas poderosos de IA son establecidas por un pequeño grupo de conocedores de la industria, que deciden cómo deberían comportarse sus modelos con base en una combinación de su ética personal, sus incentivos comerciales y la presión del exterior. No hay controles sobre ese poder y no hay opciones para que los usuarios comunes y corrientes puedan opinar.

Facilitar la gobernanza de las inteligencias artificiales podría aumentar la comodidad que siente la sociedad con estas herramientas y darles a los reguladores más certeza de que siguen criterios competentes. También podría evitar algunos de los problemas que surgieron en el auge de las redes sociales en la década de 2010, cuando un grupo de titanes de Silicon Valley terminaron al mando de enormes porciones del discurso en línea.

En pocas palabras, Constitutional AI opera mediante el uso de un conjunto de normas escritas (una “constitución”) para vigilar la conducta de un modelo de inteligencia artificial. La primera versión de la constitución de Claude tomó prestadas algunas normas de otros documentos oficiales, como la Declaración Universal de los Derechos Humanos de las Naciones Unidas y los términos y condiciones de los servicios de Apple.

Ese criterio hizo que Claude fuera educado, en comparación con otros chatbots. Pero Anthropic seguía encargándose de decidir qué normas adoptar, un grado de poder que hacía sentir incómodos a algunos miembros de la empresa.

“Intentamos encontrar la manera de desarrollar una constitución elaborada por muchos terceros, no por personas que trabajan en un laboratorio en San Francisco”, dijo esta semana en una entrevista Jack Clark, director de políticas de Anthropic.

Anthropic —en colaboración con The Collective Intelligence Project, el sitio de colaboración masiva Polis y el sitio de encuestas en línea PureSpectrum— conformó un panel de unos 1000 adultos estadounidenses. Les dio a los panelistas un conjunto de principios y les preguntó si estaban de acuerdo con cada uno de ellos. (Los panelistas también podían escribir sus propias normas, si así lo deseaban).

Algunas de las reglas en las que concordó el panel —como “La IA no debería ser peligrosa/transmitir odio” y “La IA debería decir la verdad”— fueron similares a los principios que ya aparecen en la constitución de Claude. Pero otros fueron menos predecibles. Por ejemplo, una gran mayoría del panel estuvo de acuerdo con la idea de que “la IA debería ser adaptable, accesible y flexible para las personas con discapacidad”, un principio que no está establecido de manera explícita en la constitución original de Claude.

Cuando el grupo dio su opinión, Anthropic condensó sus sugerencias en una lista de 75 principios, que Anthropic definió como la “constitución pública”. Luego, la empresa entrenó a dos versiones miniatura de Claude —una con base en la constitución existente y otra con la constitución pública— y las comparó.

Los investigadores hallaron que la versión de Claude basada en la constitución pública tuvo un comportamiento bastante parecido al de la versión estándar en unas cuantas pruebas de referencia que se les dan a los modelos de inteligencia artificial, y resultó ser un poco menos tendenciosa que la original. (Ninguna de las versiones se ha lanzado al mercado. Claude sigue funcionando con su constitución original, escrita por Anthropic, y la empresa afirma que no planea remplazarla con la versión obtenida de la colaboración abierta al público en el futuro cercano).

Los investigadores de Anthropic con los que hablé se esmeraron en recalcar que Collective Constitutional AI era un experimento en fase inicial y que era posible que no funcionara tan bien en modelos de inteligencia artificial más grandes y complicados o con grupos de opinión más numerosos.

“Queríamos empezar a pequeña escala”, dijo Liane Lovitt, analista de políticas en Anthropic. “En realidad, esto lo consideramos un prototipo preliminar, un experimento que, con suerte, podremos desarrollar y ver bien cómo los cambios en los tipos de público generan constituciones distintas, y cómo eso se refleja en los pasos subsecuentes para entrenar un modelo”.

Clark, el directivo de Anthropic, lleva meses informando a legisladores y reguladores de Washington sobre los riesgos de la inteligencia artificial avanzada. Afirma que dar voz al público en el funcionamiento de los sistemas de inteligencia artificial podría disipar los temores de parcialidad y manipulación.

“En última instancia, creo que la cuestión de cuáles son los valores de los sistemas y cómo se seleccionan esos valores se va a convertir en una conversación cada vez más importante”, dijo.

Una objeción habitual a este tipo de experimentos de gobernanza de plataformas tecnológicas es que parecen más democráticos de lo que realmente son (después de todo, los empleados de Anthropic siguen tomando la decisión final sobre qué normas incluir en la constitución pública). Y los intentos previos de las empresas tecnológicas de ceder el control a los usuarios —como el Consejo de Supervisión de Meta, un organismo casi independiente que surgió de la frustración de Mark Zuckerberg por tener que tomar él mismo las decisiones sobre contenidos controversiales en Facebook— no han logrado aumentar la confianza en esas plataformas.

Este experimento también plantea importantes temas sobre qué voces, exactamente, deberían incluirse en el proceso democrático. ¿Los chatbots de inteligencia artificial de Arabia Saudita deberían formarse según los valores saudíes? ¿Cómo respondería un chatbot entrenado con Collective Constitutional AI a preguntas sobre el aborto en un país de mayoría católica, o sobre los derechos de las personas trans en un Congreso controlado por los republicanos estadounidenses?

Hay muchos detalles que refinar. Pero concuerdo con el principio general de que las empresas de inteligencia artificial deben rendir más cuentas al público de lo que hacen actualmente. Y aunque una parte de mí desearía que estas empresas hubieran pedido nuestra opinión antes de lanzar sistemas avanzados de IA para uso de millones de personas, sin duda es mejor tarde que nunca.

Kevin Roose es columnista de tecnología y autor de Futureproof: 9 Rules for Humans in the Age of Automation. Más de Kevin Roose

Leave a Reply Cancel reply