¿Qué es la Alineación de la inteligencia artificial?

La alineación de la inteligencia artificial es un campo de investigación que se centra en garantizar que los sistemas de IA, especialmente aquellos con capacidades avanzadas, operen en conformidad con los objetivos, valores e intereses de sus diseñadores y, por extensión, de la humanidad. En otras palabras, se busca evitar que una IA, particularmente una con un alto grado de autonomía, desarrolle comportamientos no deseados o peligrosos al tomar decisiones importantes sin la intervención humana directa.

Este concepto es muy importante en el caso de la inteligencia artificial general (AGI), una IA hipotética con capacidades cognitivas equiparables a las humanas. El riesgo radica en que, sin una alineación adecuada, una AGI podría tomar decisiones que, aunque lógicamente válidas desde su perspectiva, resulten perjudiciales para la humanidad.

Un sistema de IA se considera no alineado cuando, a pesar de su competencia, persigue objetivos que no fueron previstos por sus creadores.

Retos en la alineación de la IA

Alinear los sistemas de IA con los valores humanos presenta varios desafíos:

Dificultad para especificar completamente los comportamientos: Definir con precisión todos los comportamientos deseables e indeseables en un sistema de IA es complicado, especialmente en tareas que involucran resultados complejos como el lenguaje o el movimiento.
Uso de objetivos intermedios: Al entrenar un sistema de IA, a menudo se utilizan objetivos intermedios más fáciles de medir. Sin embargo, estos objetivos pueden no capturar completamente el objetivo final deseado y llevar al surgimiento de objetivos emergentes con resultados inesperados o incluso perjudiciales.
Búsqueda de poder: Los sistemas de IA podrían desarrollar una tendencia a buscar poder o recursos para asegurar su propia supervivencia o lograr sus objetivos de manera más eficiente. Si bien no está explícitamente programado, este comportamiento puede emerger como un objetivo instrumental.
Complejidad de los valores humanos: Los valores humanos son complejos, a menudo subjetivos y pueden variar entre individuos y culturas. Enseñar a un sistema de IA a comprender y respetar esta complejidad es un desafío significativo.
Supervisión limitada: A medida que los sistemas de IA se vuelven más sofisticados, se vuelve más difícil para los humanos supervisarlos y evaluar su comportamiento, especialmente en áreas donde la IA supera la capacidad humana.

Se busca evitar que una IA desarrolle comportamientos peligrosos al tomar decisiones importantes sin la intervención humana directa.

Áreas de investigación en alineación de la IA

Para abordar estos desafíos, los investigadores trabajan en diversas áreas:

Aprendizaje de valores humanos: Se busca enseñar a los sistemas de IA sobre valores humanos a través de datos «centrados en valores», aprendizaje por imitación o aprendizaje por preferencias.
Desarrollo de IA honesta: Se investiga cómo asegurar que los sistemas de IA sean veraces y honestos en sus interacciones con los humanos, evitando la propagación de información falsa o engañosa.
Supervisión extensible: Se buscan métodos para supervisar y evaluar sistemas de IA que superan la capacidad humana en ciertas tareas. Esto incluye técnicas como el aprendizaje activo, el aprendizaje por refuerzo semisupervisado y el uso de modelos de recompensa.
Prevención de la búsqueda de poder: Se exploran estrategias para entrenar sistemas «corregibles» que no busquen poder de forma descontrolada y permitan la intervención humana.

Superalineación de la IA

La superalineación de la IA es un término utilizado por OpenAI, una empresa de investigación en IA, para describir su enfoque en la construcción de una IA segura y beneficiosa. Se centra en alinear sistemas de IA que son significativamente más inteligentes que los humanos.

El enfoque de OpenAI para abordar el problema es construir un «investigador de alineación automatizado a nivel humano» utilizando los mejores investigadores e ingenieros de aprendizaje automático. Este equipo se dedicará a resolver los principales desafíos técnicos de la alineación de la superinteligencia en cuatro años. El objetivo es entrenar a este investigador utilizando cantidades masivas de computación, lo que permitirá esfuerzos de alineación escalables para la superinteligencia.

Crisis en OpenAI — La superalineación es un término usado por OpenAI para describir su enfoque para una IA segura

Para lograr esto, el equipo se centrará en tres pasos principales:

Desarrollar un método de entrenamiento escalable: Esto implica el uso de sistemas de IA para ayudar en la evaluación de otros sistemas de IA, un concepto que denominan «supervisión escalable». También investigarán cómo controlar y comprender la generalización de la supervisión a tareas que no se pueden supervisar.
Validar el modelo resultante: Esto implicará automatizar la búsqueda de comportamientos problemáticos y fallas internas (interpretabilidad automatizada).
Probar todo el proceso: El equipo entrenará deliberadamente modelos desalineados para garantizar que sus técnicas puedan identificar incluso los peores tipos de desalineaciones.

OpenAI cree que la alineación de la superinteligencia es fundamentalmente un problema de aprendizaje automático que requiere la experiencia de los mejores expertos del mundo, incluso aquellos que no han trabajado previamente en alineación.

Importancia de la alineación de la IA

La alineación de la IA es un campo de estudio esencial para el desarrollo responsable y seguro de la inteligencia artificial. A medida que los sistemas de IA se vuelven más sofisticados y autónomos, la capacidad de alinearlos con nuestros valores e intereses podrá garantizar que se utilicen en beneficio de la humanidad.