Microsoft Kosmos-2: cómo la IA podría interactuar con el mundo

cosmos de microsoft 2

Microsoft ha invertido recientemente una gran cantidad de dinero en la financiación de la investigación de IA. Orco 13B es de código abierto para el público después de que un equipo de investigadores reunido y financiado por Microsoft lo construyera.

LongMem es la esperanza de Microsoft de una longitud de contexto ilimitada en los modelos de IA. Y también es producto de una investigación financiada por el gigante tecnológico con sede en Redmond.

Phi-1, un nuevo modelo de lenguaje para la codificación, es capaz de aprender y desarrollar conocimientos por sí mismo. Microsoft financió la investigación para esto.

Y parece que Embodiment AI es la próxima búsqueda para el desarrollo de IA. Pero Microsoft podría tener la respuesta con otra investigación de IA. es esta vez Cosmos-2un nuevo modelo de IA que sienta las bases para la IA encarnada.

Kosmos-2 de Microsoft es el prototipo de IA de Embodiment

Esta puede ser la primera vez que escuche sobre Incorporation AI. Bueno, el nombre es bastante sugerente por sí solo. Entonces, ¿qué es Embodiment AI?, podrías preguntarte.

La IA de incorporación es un campo de la inteligencia artificial que se centra en el desarrollo de agentes inteligentes que tienen cuerpos físicos y pueden interactuar con el mundo de manera significativa.

El concepto se basa en la idea de que el cuerpo físico juega un papel importante en la forma en que un agente aprende y toma decisiones.cosmos de microsoft 2

En otras palabras, si la IA tuviera un cuerpo y se moviera, podría aprender de él y responder y formar respuestas, así como interactuar en consecuencia. Y si crees que nos estamos metiendo en territorio de ciencia ficción, espera. La IA siempre tuvo la intención de volverse física.

Según la investigación, Kosmos-2 es un modelo de lenguaje que permite nuevas habilidades para percibir descripciones de objetos (p. ej., cuadros delimitadores) y anclar texto en el mundo visual. Los investigadores representados se refieren a las expresiones como enlaces en Markdown, es decir, "intervalo de texto", donde las descripciones de los objetos son secuencias de tokens de ubicación.

Con corpus multimodales, construyeron datos a gran escala de pares de imagen y texto anclados (llamados GrIT) para entrenar el modelo. Además de incorporar las capacidades MLLM existentes en Kosmos-2, el modelo también incorpora la capacidad de puesta a tierra en las aplicaciones.

Esto significa que el lenguaje ha dado pasos adelante en la percepción del espacio y en la creación de su propia percepción, acción y modelado del mundo. Por lo tanto, los investigadores creen que Kosmos-2 es la base de una IA física. Puedes leer la investigación aquí.

¿Qué opinas de Microsoft Kosmos 2? ¿Sería bueno que la IA tuviera forma física o no? Háganos saber en la sección de comentarios.

https://jagonzalez.org/microsoft-kosmos-2-como-la-ia-podria-interactuar-con-el-mundo/?feed_id=11381&_unique_id=649c43e36556c

Comentarios