Autoconciencia en IA y por qué es importante


La autoconciencia, a veces denominada intraatención, es un mecanismo de aprendizaje automático que relaciona diferentes posiciones de una secuencia para calcular una representación de esa secuencia. En el procesamiento del lenguaje natural (PNL), este proceso suele tener en cuenta la relación entre las palabras de una misma frase.

entender la autoconciencia

La autoconciencia describe la capacidad de un modelo de transformador para considerar diferentes partes de una secuencia de entrada al hacer predicciones.

La idea de la autoconciencia fue propuesta por primera vez por los colaboradores de Google Research y Google Brain en respuesta a los problemas encontrados con el modelo codificador-decodificador en secuencias largas. Se han propuesto mecanismos de atención para evitar modelos que codifican la secuencia de entrada en un vector de longitud fija a partir del cual se decodifica cada paso de tiempo de salida.

Los mecanismos de autoconciencia funcionan de manera diferente. En pocas palabras, procesan norte Entradas y Devoluciones norte salidas El mecanismo permite que las entradas interactúen entre sí ("auto") para determinar en qué enfocarse ("atención"). Los resultados incluyen los agregados de estas interacciones, así como las puntuaciones de atención calculadas en función de una sola entrada.

En otras palabras, la autoconciencia analiza todo el contexto de una secuencia mientras decodifica los elementos de entrada. Mientras que los modelos de codificador-descodificador a veces "olvidan" los hechos cuando la ventana de información es demasiado grande, la autoconciencia asegura que la ventana de almacenamiento de información sea tan grande como debe ser.

Los tres componentes de la autoconciencia

Para comprender mejor cómo funciona la autoconciencia, vale la pena describir tres componentes básicos.

Consultas, claves y valores

Las consultas, las claves y los valores comprenden varias entradas del modelo. Por ejemplo, cuando un usuario busca un término en Google, el texto que ingresa en el cuadro de búsqueda es la consulta de búsqueda. Los resultados de la búsqueda (en forma de títulos de artículos y videos) son clave, mientras que el contenido de cada resultado es el valor.

Para encontrar las mejores coincidencias, la consulta debe determinar qué tan similar es a la clave. Esto se hace utilizando el método de similitud del coseno, un método matemático para encontrar similitudes entre dos vectores en una escala de -1 a 1, donde -1 significa la mayor diferencia y 1 significa la mayor similitud.

codificación de posición

Antes de que los datos de texto puedan introducirse en los modelos de aprendizaje automático, primero deben convertirse en números. Una capa de incrustación convierte cada palabra en un vector de longitud fija y cada palabra se enumera en una tabla de búsqueda con su valor de vector asociado.

La codificación posicional es necesaria porque los modelos Transformer incorporan todas las entradas a la vez, a diferencia de otros modelos que incorporan entradas una a la vez (secuencialmente). Aunque la codificación posicional está más allá del alcance de este artículo, ayuda a que los modelos de transformadores funcionen rápidamente sin perder la información del orden de las palabras.

Pasar consultas, claves y valores

Las secuencias de entrada conscientes de la posición se introducen en la capa de consulta, pero también se introducen dos copias en las capas de clave y valor. ¿Por qué debería ser así?

La respuesta tiene que ver con la autoconciencia. La secuencia de entrada se pasa a la capa de incrustación de entrada, donde se realiza la codificación posicional. Las incrustaciones conscientes de la posición se pasan luego a la capa de consulta y clave, donde la salida de cada inserción va a lo que se conoce como el paso de multiplicación de matriz. El resultado de esta multiplicación se llama filtro de atención.

Los filtros de atención completan una matriz de números aleatorios que se vuelven más importantes con el tiempo a medida que se entrena el modelo. Estos números se convierten en puntajes de atención, que luego se convierten en valores entre 0 y 1 para derivar el filtro de atención final.

En el último paso, el filtro de atención se multiplica por la matriz de valor inicial. El filtro, como sugiere su nombre, prioriza algunos elementos y elimina elementos irrelevantes para administrar recursos informáticos limitados.

Luego, el resultado de la multiplicación se pasa a un plano lineal para obtener el resultado deseado.

¿Dónde es útil la autoconciencia?

La autoconciencia permite que los modelos de transformadores se encarguen de diferentes partes de la misma secuencia de entrada y, por lo tanto, es un aspecto importante de su rendimiento. Esta habilidad es particularmente relevante para las tareas de NLP donde el modelo necesita comprender la relación entre los diferentes elementos de las secuencias de entrada y salida.

Con este fin, la autoconciencia se empleó con éxito en tareas como el resumen abstracto, la generación de descripciones de imágenes, la consistencia del texto, la comprensión de lectura y la presentación de oraciones independientes de la tarea.

Las tesis centrales

  • La autoconciencia describe la capacidad de un modelo de transformador para considerar diferentes partes de una secuencia de entrada al hacer predicciones.
  • La autoconciencia considera todo el contexto de una secuencia mientras decodifica los elementos de entrada. Si bien los modelos de codificador-decodificador y sus redes neuronales a veces "olvidan" los hechos cuando la ventana de información es demasiado grande, la autoconciencia garantiza que la ventana de almacenamiento de información sea tan grande como debe ser.
  • La capacidad de la autoconciencia para considerar diferentes partes de la misma entrada en un modelo de transformador los hace adecuados para una serie de tareas de NLP, como la generación de descripciones de imágenes y el resumen abstracto.

Leer más: Historia de OpenAI, modelos de negocio de IA, AI Negocio.

Análisis del modelo de negocio en red

Paradigma de IA

Paradigma actual de IA

Pre-entrenamiento

Pre-entrenamiento

Modelos de lenguaje grande

Modelos de lenguaje grande LLMS
Los modelos de lenguaje grande (LLM) son herramientas de IA que pueden leer, resumir y traducir texto. Esto les permite predecir palabras y formar oraciones que reflejan la forma en que las personas escriben y hablan.

Modelos Generativos

modelos generativos

Ingeniería rápida

pronta ingenieria
La ingeniería rápida es un concepto de procesamiento del lenguaje natural (NLP) que implica identificar entradas que producen resultados deseables o útiles. Como ocurre con la mayoría de los procesos, la calidad de las entradas también determina la calidad de las salidas en la ingeniería rápida. El diseño de avisos efectivos aumenta la probabilidad de que el modelo devuelva una respuesta tanto afirmativa como contextual. El modelo de preentrenamiento de imágenes y lenguaje contrastivo (CLIP) desarrollado por OpenAI es un ejemplo de un modelo que utiliza indicaciones para clasificar imágenes y leyendas de más de 400 millones de pares de leyendas e imágenes.

Estructura organizativa de OpenAI

estructura organizativa openai
OpenAI es un laboratorio de investigación de inteligencia artificial que se transformó en una organización con fines de lucro en 2019. Su estructura corporativa consta de dos entidades: OpenAI, Inc., una LLC de Delaware de un solo miembro controlada por la organización sin fines de lucro OpenAI, y OpenAI LP, una organización de responsabilidad limitada con fines de lucro. OpenAI LP está gobernado por la Junta Directiva de OpenAI, Inc (la Fundación), que actúa como Socio General. Al mismo tiempo, los socios limitados incluyen empleados de LP, algunos miembros de la junta y otros inversionistas como la organización benéfica de Reid Hoffman, Khosla Ventures y Microsoft, el principal inversionista de LP.

Modelo de negocio de IA abierta

¿Cómo gana dinero Openai?
OpenAI ha construido la capa base de la industria de la IA. Con grandes modelos generativos como GPT-3 y DALL-E, OpenAI proporciona acceso a la API para las empresas que desean desarrollar aplicaciones basadas en sus modelos básicos mientras pueden integrar esos modelos en sus productos y utilizar esos modelos con datos patentados e IA adicional. personalizar características. Por otro lado, OpenAI también lanzó ChatGPT, que se basa en un modelo freemium. Microsoft también comercializa productos Opener como parte de su asociación comercial.

OpenAI/Microsoft

openai-microsoft
Desde un punto de vista comercial, OpenAI y Microsoft se asociaron. La historia de la asociación comenzó en 2016 y se solidificó en 2019 cuando Microsoft invirtió mil millones de dólares en la asociación. Ahora está dando un gran paso adelante: Microsoft está negociando para invertir $10 mil millones en esta asociación. Microsoft está desarrollando su supercomputadora Azure AI a través de OpenAI mientras mejora su plataforma empresarial Azure e integra los modelos OpenAI en sus productos comerciales y de consumo (GitHub, Office, Bing).

Modelo de negocio de IA de estabilidad

Cómo-Estabilidad-AI-Dinero
Stability AI es el motor detrás de Stable Diffusion. Stability gana dinero con nuestros productos de IA y proporciona servicios de consultoría de IA a las empresas. Stability AI monetiza Stable Diffusion a través de las API de DreamStudio. Al mismo tiempo, también se lanza como una versión de código abierto para que cualquiera pueda descargarla y usarla. Stability AI también gana dinero con los servicios empresariales, donde su equipo de desarrollo central brinda a los clientes empresariales la capacidad de mantener, escalar y personalizar Stable Diffusion u otros modelos generativos grandes para satisfacer sus necesidades.

Estabilidad del ecosistema de IA

Estabilidad del ecosistema de IA


Si quieres conocer otros artículos parecidos a Autoconciencia en IA y por qué es importante puedes visitar la categoría Negocios Online.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir