Autoconciencia en IA y por qué es importante
La autoconciencia, a veces denominada intraatención, es un mecanismo de aprendizaje automático que relaciona diferentes posiciones de una secuencia para calcular una representación de esa secuencia. En el procesamiento del lenguaje natural (PNL), este proceso suele tener en cuenta la relación entre las palabras de una misma frase.
entender la autoconciencia
La autoconciencia describe la capacidad de un modelo de transformador para considerar diferentes partes de una secuencia de entrada al hacer predicciones.
La idea de la autoconciencia fue propuesta por primera vez por los colaboradores de Google Research y Google Brain en respuesta a los problemas encontrados con el modelo codificador-decodificador en secuencias largas. Se han propuesto mecanismos de atención para evitar modelos que codifican la secuencia de entrada en un vector de longitud fija a partir del cual se decodifica cada paso de tiempo de salida.
Los mecanismos de autoconciencia funcionan de manera diferente. En pocas palabras, procesan norte Entradas y Devoluciones norte salidas El mecanismo permite que las entradas interactúen entre sí ("auto") para determinar en qué enfocarse ("atención"). Los resultados incluyen los agregados de estas interacciones, así como las puntuaciones de atención calculadas en función de una sola entrada.
En otras palabras, la autoconciencia analiza todo el contexto de una secuencia mientras decodifica los elementos de entrada. Mientras que los modelos de codificador-descodificador a veces "olvidan" los hechos cuando la ventana de información es demasiado grande, la autoconciencia asegura que la ventana de almacenamiento de información sea tan grande como debe ser.
Los tres componentes de la autoconciencia
Para comprender mejor cómo funciona la autoconciencia, vale la pena describir tres componentes básicos.
Consultas, claves y valores
Las consultas, las claves y los valores comprenden varias entradas del modelo. Por ejemplo, cuando un usuario busca un término en Google, el texto que ingresa en el cuadro de búsqueda es la consulta de búsqueda. Los resultados de la búsqueda (en forma de títulos de artículos y videos) son clave, mientras que el contenido de cada resultado es el valor.
Para encontrar las mejores coincidencias, la consulta debe determinar qué tan similar es a la clave. Esto se hace utilizando el método de similitud del coseno, un método matemático para encontrar similitudes entre dos vectores en una escala de -1 a 1, donde -1 significa la mayor diferencia y 1 significa la mayor similitud.
codificación de posición
Antes de que los datos de texto puedan introducirse en los modelos de aprendizaje automático, primero deben convertirse en números. Una capa de incrustación convierte cada palabra en un vector de longitud fija y cada palabra se enumera en una tabla de búsqueda con su valor de vector asociado.
La codificación posicional es necesaria porque los modelos Transformer incorporan todas las entradas a la vez, a diferencia de otros modelos que incorporan entradas una a la vez (secuencialmente). Aunque la codificación posicional está más allá del alcance de este artículo, ayuda a que los modelos de transformadores funcionen rápidamente sin perder la información del orden de las palabras.
Pasar consultas, claves y valores
Las secuencias de entrada conscientes de la posición se introducen en la capa de consulta, pero también se introducen dos copias en las capas de clave y valor. ¿Por qué debería ser así?
La respuesta tiene que ver con la autoconciencia. La secuencia de entrada se pasa a la capa de incrustación de entrada, donde se realiza la codificación posicional. Las incrustaciones conscientes de la posición se pasan luego a la capa de consulta y clave, donde la salida de cada inserción va a lo que se conoce como el paso de multiplicación de matriz. El resultado de esta multiplicación se llama filtro de atención.
Los filtros de atención completan una matriz de números aleatorios que se vuelven más importantes con el tiempo a medida que se entrena el modelo. Estos números se convierten en puntajes de atención, que luego se convierten en valores entre 0 y 1 para derivar el filtro de atención final.
En el último paso, el filtro de atención se multiplica por la matriz de valor inicial. El filtro, como sugiere su nombre, prioriza algunos elementos y elimina elementos irrelevantes para administrar recursos informáticos limitados.
Luego, el resultado de la multiplicación se pasa a un plano lineal para obtener el resultado deseado.
¿Dónde es útil la autoconciencia?
La autoconciencia permite que los modelos de transformadores se encarguen de diferentes partes de la misma secuencia de entrada y, por lo tanto, es un aspecto importante de su rendimiento. Esta habilidad es particularmente relevante para las tareas de NLP donde el modelo necesita comprender la relación entre los diferentes elementos de las secuencias de entrada y salida.
Con este fin, la autoconciencia se empleó con éxito en tareas como el resumen abstracto, la generación de descripciones de imágenes, la consistencia del texto, la comprensión de lectura y la presentación de oraciones independientes de la tarea.
Las tesis centrales
- La autoconciencia describe la capacidad de un modelo de transformador para considerar diferentes partes de una secuencia de entrada al hacer predicciones.
- La autoconciencia considera todo el contexto de una secuencia mientras decodifica los elementos de entrada. Si bien los modelos de codificador-decodificador y sus redes neuronales a veces "olvidan" los hechos cuando la ventana de información es demasiado grande, la autoconciencia garantiza que la ventana de almacenamiento de información sea tan grande como debe ser.
- La capacidad de la autoconciencia para considerar diferentes partes de la misma entrada en un modelo de transformador los hace adecuados para una serie de tareas de NLP, como la generación de descripciones de imágenes y el resumen abstracto.
Leer más: Historia de OpenAI, modelos de negocio de IA, AI Negocio.
Análisis del modelo de negocio en red
Paradigma de IA
Pre-entrenamiento
Modelos de lenguaje grande
Modelos Generativos
Ingeniería rápida
Estructura organizativa de OpenAI
Modelo de negocio de IA abierta
OpenAI/Microsoft
Modelo de negocio de IA de estabilidad
Estabilidad del ecosistema de IA
Relacionado
Si quieres conocer otros artículos parecidos a Autoconciencia en IA y por qué es importante puedes visitar la categoría Negocios Online.
Deja una respuesta