Meta ha lanzado el modelo de IA «abierto» más grande hasta la fecha

El último modelo de IA de código abierto de Meta es el más grande hasta el momento.

Meta anunció hoy que lanzará Llama 3.1 405B, un modelo con 405 mil millones de parámetros. Los parámetros corresponden aproximadamente a las habilidades de resolución de problemas del modelo, y los modelos con más parámetros suelen funcionar mejor que aquellos con menos.

Con 405 mil millones de parámetros, Llama 3.1 405B no es un número absoluto Más grande Este es un modelo de código abierto disponible, pero el más grande de los últimos años. Está entrenado en 16,000 GPU Nvidia H100 y aprovecha las técnicas de desarrollo y capacitación de última generación que, según Meta, lo hacen competitivo con modelos propietarios líderes como GPT-4o de OpenAI y Claude 3.5 Sonnet de Anthropic (con algunas advertencias).

Al igual que con los modelos Meta anteriores, Llama 3.1 405B está disponible para descargar o usar en plataformas en la nube como AWS, Azure y Google Cloud. También se utiliza en WhatsApp y Meta.ai, donde está disponible en las tiendas. Mejora tu experiencia con el chatbot Para usuarios residentes en Estados Unidos.

Nuevo y mejorado

Al igual que otros modelos de IA generativa de código abierto y cerrado, Llama 3.1 405B puede realizar una variedad de tareas diferentes, desde codificar y responder preguntas matemáticas básicas hasta resumir documentos en ocho idiomas (inglés, alemán, francés, italiano, portugués, hindi, español y tailandés). Es sólo texto, lo que significa que no puede, por ejemplo, responder preguntas sobre una imagen, pero la mayoría de las cargas de trabajo basadas en texto, como el análisis de archivos como PDF y hojas de cálculo, entran dentro de su alcance.

Meta quiere anunciar que está experimentando con la multimodalidad. En un artículo publicado hoy, los investigadores de la empresa escriben que están desarrollando activamente modelos Llama que pueden reconocer imágenes y vídeos y comprender (y generar) el habla. Sin embargo, estos modelos aún no están listos para su lanzamiento general.

Para entrenar Llama 3.1 405B, Meta utilizó un conjunto de datos de 15 billones de símbolos que datan de 2024 (los tokens son partes de palabras que los modelos pueden comprender más fácilmente que las palabras completas, y 15 billones de símbolos se traducen en la asombrosa cifra de 750 mil millones de palabras). No es un nuevo conjunto de capacitación en sí, ya que Meta ha utilizado el conjunto básico para entrenar modelos Llama anteriores, pero la compañía afirma haber refinado sus canales de curación de datos y adoptado métodos de filtrado de datos y garantía de calidad «más estrictos» en el desarrollo de este modelo.

La empresa también utilizó datos sintéticos (datos generados por último Modelos de Inteligencia Artificial) para ajustar Llama 3.1 405B. La mayoría de las principales empresas de IA, incluidas OpenAI y Anthropic, están explorando aplicaciones de datos sintéticos para ampliar la formación en IA, pero algunos expertos cree Que los datos sintéticos deben ser la ultima solucion Debido a su potencial para exacerbar el sesgo del modelo.

Por su parte, Meta insiste en que se trata de un “cuidadoso equilibrio[d]»Datos de entrenamiento de Llama 3.1 405B, pero se negó a revelar la fuente exacta de los datos (fuera de páginas web y archivos web públicos). Muchos proveedores de IA generativa ven los datos de entrenamiento como una ventaja competitiva, por lo que los conservan junto con cualquier información relacionada con ellos. secreto, pero los detalles de los datos de capacitación también son una fuente potencial de demandas de propiedad intelectual, otro desincentivo para que las empresas revelen demasiado.

READ  Medias Rojas adquieren a Tyler O'Neal
Credito de imagen: muerto

En el artículo antes mencionado, los investigadores de Meta escribieron que, en comparación con los modelos Llama anteriores, Llama 3.1 405B fue entrenado con una mayor combinación de datos distintos del inglés (para mejorar su rendimiento en idiomas distintos del inglés) y más «datos matemáticos» y símbolos ( para mejorar las habilidades de razonamiento matemático del modelo) y datos web recientes (para mejorar su conocimiento de los acontecimientos actuales).

Un informe reciente de Reuters Meta en un momento reveló que utilizó libros electrónicos con derechos de autor para entrenar IA a pesar de las advertencias de sus abogados. La compañía entrena polémicamente su IA en publicaciones, fotos y subtítulos de Instagram y Facebook. Dificulta a los usuarios darse de bajaAdemás, Meta, junto con OpenAI, es objeto de una demanda en curso presentada por autores, incluida la comediante Sarah Silverman, por el presunto uso no autorizado de datos protegidos por derechos de autor por parte de las dos compañías para entrenar modelos.

En una entrevista con TechCrunch, Raghavan Srinivasan, vicepresidente de gestión de programas de IA en Meta, dijo: “Los datos de entrenamiento, en muchos sentidos, son como la receta secreta y la salsa que se utiliza para construir estos modelos. Desde nuestra perspectiva, hemos invertido. mucho en esto”. “Será una de esas cosas que seguiremos mejorando”.

Mayor contexto y herramientas

El Llama 3.1 405B tiene una ventana de contexto más grande que los modelos Llama anteriores: 128.000 caracteres, o aproximadamente la longitud de un libro de 50 páginas. El contexto del formulario o ventana de contexto se refiere a los datos de entrada (como el texto) que el formulario tiene en cuenta antes de generar la salida (como el texto adicional).

Una ventaja de los modelos con contextos más grandes es su capacidad para resumir fragmentos de texto y archivos más largos. Al ejecutar chatbots, es menos probable que estos modelos olviden temas que se discutieron recientemente.

Meta también presentó hoy dos modelos nuevos y más pequeños, Llama 3.1 8B y Llama 3.1 70B, versiones actualizadas de los modelos Llama 3 8B y Llama 3 70B que la compañía lanzó en abril, que también contienen ventanas contextuales con 128.000 símbolos. La cantidad de contextos en los modelos anteriores era de 8000 símbolos, lo que hace que esta sea una mejora bastante grande, suponiendo que los nuevos modelos Llama puedan razonar efectivamente en todo ese contexto.

Meta Lama 3.1
Credito de imagen: muerto

Todos los modelos Llama 3.1 pueden utilizar herramientas, aplicaciones y API de terceros para completar tareas, como los modelos de la competencia de Anthropic y OpenAI. Desde el principio, fueron capacitados para aprovechar Brave Search para responder preguntas sobre eventos recientes, la API Wolfram Alpha para consultas relacionadas con matemáticas y ciencias y un intérprete de Python para validar el código. Además, Meta afirma que los modelos Llama 3.1 pueden usar ciertas herramientas que nunca antes habían visto, hasta cierto punto.

READ  Los fanáticos de Xbox creen que Phil Spencer reveló accidentalmente un nuevo dispositivo

Construyendo un ecosistema

Si hay que creer en los puntos de referencia de rendimiento (no es que los puntos de referencia de rendimiento lo sean todo en la IA generativa), el Llama 3.1 405B es un modelo muy capaz. Esto sería algo bueno, considerando algunos Penosamente sentido común Limitaciones de los modelos Llama de la generación anterior.

El documento señala que el rendimiento de Llama 3 405B está a la par del GPT-4 de OpenAI, logrando «resultados mixtos» en comparación con GPT-4o y Claude 3.5 Sonnet, según evaluadores humanos contratados por Meta. Si bien el Llama 3 405B es mejor en ejecución de código y generación de esquemas que GPT-4o, sus capacidades multilingües son generalmente más débiles, y el Llama 3 405B va por detrás del Claude 3.5 Sonnet en programación y lógica general.

Debido a su tamaño, requiere un hardware potente para funcionar. Meta recomienda al menos un nodo de servidor.

Quizás es por eso que Meta está promocionando sus nuevos modelos más pequeños, Llama 3.1 8B y Llama 3.1 70B, para uso en aplicaciones generales como ejecutar chatbots y generar código. La compañía dice que Llama 3.1 405B se utiliza mejor para la destilación de modelos (el proceso de transferir conocimiento de un modelo grande a un modelo más pequeño y más eficiente) y generar datos sintéticos para entrenar (o ajustar) modelos alternativos.

Para fomentar el uso de datos sintéticos, Meta dijo que actualizó la licencia de Llama para permitir a los desarrolladores utilizar el resultado de la familia de modelos Llama 3.1 para desarrollar modelos de generación de IA de terceros (ya sea una buena idea o no). Para discusión). Lo más importante es que la licencia permanece restringe Cómo los desarrolladores pueden implementar modelos Llama: los desarrolladores de aplicaciones con más de 700 millones de usuarios mensuales deben solicitar una licencia especial a Meta que la empresa otorgará a su discreción.

Meta Lama 3.1
Credito de imagen: muerto

Este cambio en las licencias en torno a la producción, que mitiga Gran critica La incorporación de Meta Models a la comunidad de IA es parte de los esfuerzos agresivos de la compañía para obtener una mayor proporción de IA generativa.

Junto con la familia Llama 3.1, Meta está lanzando lo que llama un «sistema de referencia» y nuevas herramientas de seguridad (muchas de las cuales hacen que los modelos Llama se comporten de maneras inesperadas o no deseadas) para alentar a los desarrolladores a usar Llama en más lugares. La compañía también está realizando una vista previa y buscando comentarios sobre Llama Stack, una próxima API para herramientas que pueden usarse para ajustar modelos de Llama, generar datos sintéticos con Llama y crear aplicaciones de “agentes”, aplicaciones impulsadas por Llama que pueden tomar medidas sobre en nombre del usuario.

READ  Identifican un ancestro de cocodrilo de 215 millones de años que es anterior a los dinosaurios

«[What] Hemos escuchado una y otra vez a desarrolladores interesados ​​en aprender cómo implementar realmente [Llama models] «En producción», dijo Srinivasan. «Por eso estamos intentando empezar a ofrecerles un montón de herramientas y opciones diferentes».

Jugando por la cuota de mercado

En una carta abierta publicada esta mañana, el director ejecutivo de Meta, Mark Zuckerberg, expuso una visión para un futuro en el que las herramientas y modelos de IA lleguen a manos de más desarrolladores en todo el mundo, garantizando que las personas tengan acceso a los “beneficios y oportunidades” de la IA.

Esto está redactado de una manera muy caritativa, pero el mensaje incluye implícitamente el deseo de Zuckerberg de que Meta fabrique estas herramientas y modelos.

Meta está compitiendo para alcanzar a empresas como OpenAI y Anthropic, y está utilizando una estrategia probada y verdadera: ofrecer herramientas de forma gratuita para impulsar el ecosistema y luego agregar poco a poco más. productos Y servicios, algunos de los cuales son remunerados, además de los gastos. Billones de dolares El uso de modelos mercantilizados también tiene el efecto de subcotizar los precios de los competidores de Meta y difundir más ampliamente la versión de IA de la empresa. También permite a la empresa incorporar mejoras de la comunidad de código abierto en sus modelos futuros.

Llama definitivamente está llamando la atención de los desarrolladores. Meta afirma que los modelos de Llama se han descargado más de 300 millones de veces y hasta la fecha se han creado más de 20.000 modelos derivados de Llama.

No nos equivoquemos, el Meta juega para quedarse con el balón. Él gasta Millones Ninguno de los modelos de Llama 3.1 resuelve los problemas intratables que enfrenta la tecnología de IA generativa hoy en día, como su tendencia a inventar cosas y reproducir datos de entrenamiento problemáticos. Pero refuerza uno de los principales objetivos de Meta: convertirse en sinónimo de IA generativa.

Esto tiene costos. En el artículo de investigación, los coautores señalan, haciéndose eco del sentimiento de Zuckerberg, que «la gente no puede permitirse esto». Los últimos comentarios – Discutir problemas de confiabilidad relacionados con la energía entrenando los modelos de IA generativa en constante crecimiento de Meta.

«Durante el entrenamiento, decenas de miles de GPU pueden aumentar o disminuir el consumo de energía al mismo tiempo, por ejemplo, debido a que todas las GPU esperan a que finalicen los puntos de control o las comunicaciones grupales, o inician o cierran toda la tarea de entrenamiento», dijo. Ellos escribieron. «Cuando esto sucede, puede provocar fluctuaciones instantáneas en el consumo de energía en todo el centro de datos del orden de decenas de megavatios, ampliando los límites de la red eléctrica. Esto representa un desafío continuo para nosotros a medida que ampliamos la escala de capacitación para el futuro. Modelos Llama más grandes.»

Con suerte, entrenar estos modelos más grandes no obligará a continuar con más instalaciones. Antiguas centrales eléctricas de carbón en los alrededores.

Estaremos encantados de escuchar lo que piensas

Deje una respuesta

ELCORREODEBEJAR.COM ES PARTICIPANTE EN EL PROGRAMA DE ASOCIADOS DE AMAZON SERVICES LLC, UN PROGRAMA DE PUBLICIDAD DE AFILIADOS DISEÑADO PARA PROPORCIONAR UN MEDIO PARA QUE LOS SITIOS GANAN TARIFAS DE PUBLICIDAD POR PUBLICIDAD Y ENLACE A AMAZON.COM. AMAZON, EL LOGOTIPO DE AMAZON, AMAZONSUPPLY Y EL LOGOTIPO DE AMAZONSUPPLY SON MARCAS COMERCIALES DE AMAZON.COM, INC. O SUS AFILIADAS. COMO ASOCIADO DE AMAZON, GANAMOS COMISIONES DE AFILIADOS DE COMPRAS QUE CALIFICAN. ¡GRACIAS, AMAZON POR AYUDARNOS A PAGAR LOS GASTOS DE NUESTRO SITIO WEB! TODAS LAS IMÁGENES DE LOS PRODUCTOS PERTENECEN A AMAZON.COM Y SUS VENDEDORES.
El Correo de Béjar