Tecnología

Pasado Domingo 28

Meta revela LLaMA 3 y explica cómo funciona su modelo de inteligencia artificial

El objetivo de Meta es que este modelo de lenguaje sea multilingüe y multimodal.




La empresa de tecnología Meta lanzó LLaMA 3, la nueva generación de su modelo de lenguaje grande (LLM), que presenta modelos pre-entrenados y ajustados a una amplia gama de parámetros de referencia con el fin de optimizar capacidades como el razonamiento, la codificación y el seguimiento de instrucciones con inteligencia artificial.

LLaMA 3 presenta modelos de lenguaje pre-entrenados y ajustados a las instrucciones con 8 mil millones de parámetros (8B) y 70 mil millones de parámetros (70B), que consisten en variables internas propias del algoritmo de aprendizaje que se pueden adaptar a una amplia diversidad de casos de uso.

UTILIDAD GENERAL

Con un modelo de código abierto de vanguardia, LLaMA 3 busca incorporar las devoluciones y comentarios de los desarrolladores para aumentar su utilidad general. Además, Meta adoptó la ética del código abierto de publicar rápido y con frecuencia para que la comunidad pueda acceder a estos modelos mientras aún están en desarrollo.

Los modelos basados en texto que publicó Meta son los primeros de la colección de modelos LLaMA 3. A corto plazo, el objetivo de la empresa es que este modelo de lenguaje sea multilingüe y multimodal, que tenga un contexto más amplio y que siga mejorando el rendimiento general de las capacidades básicas de LLM, como el razonamiento y la codificación.

RENDIMIENTO DE VANGUARDIA

Los nuevos modelos LLaMa 3 de parámetros 8B y 70B suponen un gran salto con respecto a LLaMA 2, lanzada en julio de 2023, y establecen un nuevo objeto de estudio para los modelos LLM a esas escalas. Gracias a las mejoras en el pre-entrenamiento y el post-entrenamiento, el modelo de lenguaje redujo sustancialmente las tasas de falsos rechazos, mejoró la alineación y aumentó la diversidad en las respuestas de los modelos. 

En el desarrollo de LLaMA 3, la empresa priorizó el rendimiento del modelo en puntos de referencia estándar y buscó optimizar el rendimiento para escenarios del mundo real. Para ello, desarrolló un nuevo conjunto de evaluación humana de alta calidad. 

PREGUNTAS CERRADAS

Este conjunto de evaluación contiene 1.800 preguntas que cubren 12 casos de uso clave: pedir consejo, lluvia de ideas, clasificación, respuesta a preguntas cerradas, codificación, escritura creativa, extracción, adopción de un personaje/persona, respuesta a preguntas abiertas, razonamiento, reescritura y resumen. 

Para evitar el sobreajuste accidental de los modelos en este conjunto de evaluación, Meta ha restringido el acceso a sus propios equipos de modelización. Asimismo, para desarrollar un gran modelo lingüístico Meta adoptó una filosofía de diseño centrada en cuatro aspectos claves: la arquitectura del modelo, los datos de pre-entrenamiento, la ampliación del pre-entrenamiento y el ajuste de las instrucciones.

MEJORAS CLAVE

En ese sentido, LLaMA 3 trabaja con una arquitectura de transformador relativamente estándar de un solo descodificador, que constituye una tecnología fundamental en el campo del aprendizaje profundo y el procesamiento del lenguaje natural

En comparación con LLaMA 2, el nuevo modelo de lenguaje introduce varias mejoras clave, como un tokenizador con un vocabulario de 128.000 tokens que codifica el lenguaje de forma mucho más eficiente, lo que mejora sustancialmente el rendimiento del modelo. Un token es una unidad indivisible o elemento básico del lenguaje, que puede ser una palabra, un número o un símbolo. 

Para mejorar la eficacia de inferencia de los modelos de LLaMA 3, Meta adoptó la atención a consultas agrupadas en los tamaños 8B y 70B. Asimismo, se entrenó los modelos en secuencias de 8.192 tokens, utilizando una máscara para garantizar que la autoatención no cruce los límites del documento.

 ¿CON QUÉ DATOS HA SIDO ENTRENADO LLaMA 3? 

Para entrenar el modelo lingüístico, Meta dispuso de un conjunto de datos de entrenamiento amplio y de alta calidad. De acuerdo con sus principios, invirtió en datos de pre-entrenamiento con más de 15T de tokens recogidos de fuentes públicas

El conjunto de datos de entrenamiento fue siete veces mayor que el utilizado para LLaMA 2 e incluyó cuatro veces más códigos. Como preparación para los próximos casos de uso multilingüe, más del 5% del conjunto de datos de pre-entrenamiento de LLaMA 3 está formado por datos de alta calidad en lengua no inglesa que abarcan más de 30 idiomas. Sin embargo, la empresa no garantiza el mismo nivel de rendimiento en estos idiomas que en inglés.

FILTROS HEURÍSTICOS

Para garantizar datos de la máxima calidad en el entrenamiento de LLaMA 3, Meta desarrolló una serie de procesos de filtración de datos ,que incluyen filtros heurísticos (método de detección de virus), filtros NSFW (que bloquean el contenido que es apto sólo para adultos), enfoques de deduplicación semántica (proceso que elimina copias excesivas de datos) y clasificadores de texto para predecir la calidad de los datos. 

Meta también realizó experimentos exhaustivos para evaluar las mejores formas de mezclar datos de distintas fuentes en su conjunto de datos final de pre-entrenamiento. Estos experimentos permitieron seleccionar una combinación de datos que garantizó un buen rendimiento de LLaMA 3 en distintos casos de uso, como preguntas de trivialidades, STEM, codificación, conocimientos históricos, etc.

 AJUSTES DE INSTRUCCIONES 

En caso de usos de chat y su ajuste de instrucciones Meta también innovó en su enfoque para desbloquear completamente el potencial de sus modelos pre-entrenados. Su enfoque para el post-entrenamiento es una combinación de ajuste fino supervisado (SFT), muestreo de rechazo, optimización de políticas proximales (PPO) y optimización de políticas directas (DPO).

De esta forma, se avanza en el aprendizaje por refuerzo a partir de la retroalimentación humana, la generación de observaciones a partir de una distribución, la mejora de la estabilidad del entrenamiento de la política y el control preciso de los modelos de lenguaje.

Aprender de los rankings de preferencia a través de PPO y DPO también mejoró el rendimiento de LLaMA 3 en tareas de razonamiento y codificación. Meta descubrió que si le haces una pregunta de razonamiento a un modelo con la que lucha para responder, este producirá a veces el rastro de razonamiento correcto, es decir, sabrá cómo producir la respuesta correcta, pero no sabe cómo seleccionarla. El entrenamiento en rankings de preferencia permite al modelo aprender cómo seleccionarla.

MODELOS AJUSTADOS

El perfeccionamiento de las instrucciones es un aspecto fundamental para garantizar la seguridad de los modelos. Meta afirma que la seguridad de sus modelos ajustados a las instrucciones se ha sometido a pruebas internas y externas. En tanto, su enfoque de red teaming aprovecha los expertos humanos y los métodos de automatización para generar mensajes adversos que intentan provocar respuestas problemáticas. 

Por ejemplo, se aplicó pruebas exhaustivas para evaluar los riesgos de uso indebido relacionados con la seguridad química, biológica, cibernética y otras áreas de riesgo. Todos estos esfuerzos son iterativos y se utilizan para perfeccionar la seguridad de los modelos que se publican.


Temas Relacionados: ComunicaciónInteligencia ArtificialLenguajeMetaTecnología

También te puede interesar:

DENGUE