Innovación

Anthropic presentó su nueva IA: Claude 3, la tercera generación de Claude

Imagen: Anthropic.
La compañía Anthropic anunció recientemente Claude 3, una herramienta que establece nuevos puntos de referencia en la industria en una amplia gama de tareas cognitivas.

Claude 3 incluye tres modelos de última generación en orden ascendente de capacidad: Claude 3 Haiku, Claude 3 Sonnet y Claude 3 Opus. Cada modelo sucesivo ofrece un rendimiento cada vez más potente, lo que permite a los usuarios seleccionar el equilibrio óptimo entre inteligencia, velocidad y costo para su aplicación específica.

Opus y Sonnet ahora están disponibles para su uso en claude.ai y Claude API, que ahora está disponible de forma general en 159 países; mientras que Haiku estará disponible muy pronto.

 

Un nuevo estándar para la inteligencia

Opus, su modelo más inteligente, supera a sus pares en la mayoría de los puntos de referencia de evaluación comunes para sistemas de IA, incluido el conocimiento experto a nivel de pregrado (MMLU), el razonamiento experto a nivel de posgrado (GPQA), las matemáticas básicas (GSM8K) y más. Exhibe niveles casi humanos de comprensión y fluidez en tareas complejas, liderando la frontera de la inteligencia general.

Todos los modelos de Claude 3 muestran mayores capacidades de análisis y pronóstico, creación de contenido matizado, generación de código y conversación en idiomas distintos del inglés, como español, japonés y francés.

 

Resultados casi instantáneos

Los modelos de Claude 3 pueden impulsar chats en vivo con clientes, autocompletaciones y tareas de extracción de datos donde las respuestas deben ser inmediatas y en tiempo real.

Haiku es el modelo más rápido y rentable del mercado para su categoría de inteligencia. Puede leer un artículo de investigación denso en información y datos sobre arXiv (~10.000 tokens) con cuadros y gráficos en menos de tres segundos. Después del lanzamiento, esperamos mejorar aún más el rendimiento.

Para la gran mayoría de cargas de trabajo, Sonnet es 2 veces más rápido que Claude 2 y Claude 2.1 con niveles más altos de inteligencia. Destaca en tareas que exigen respuestas rápidas, como la recuperación de conocimientos o la automatización de ventas. Opus ofrece velocidades similares a las de Claude 2 y 2.1, pero con niveles de inteligencia mucho más altos.

 

Fuertes capacidades de visión

Los modelos de Claude 3 tienen capacidades de visión sofisticadas a la par de otros modelos líderes. Pueden procesar una amplia gama de formatos visuales, incluidas fotografías, cuadros, gráficos y diagramas técnicos. La empresa Anthropic está particularmente entusiasmada de ofrecer esta nueva modalidad a sus clientes empresariales, algunos de los cuales tienen hasta el 50% de sus bases de conocimientos codificadas en varios formatos, como PDF, diagramas de flujo o diapositivas de presentación.

 

Menos rechazos

Los modelos anteriores de Claude a menudo hacían rechazos innecesarios que sugerían una falta de comprensión contextual, pero se han logrado avances significativos en esta área: Opus, Sonnet y Haiku tienen muchas menos probabilidades de negarse a responder indicaciones que rozan las barreras del sistema que las generaciones anteriores de modelos. Los modelos de Claude 3 muestran una comprensión más matizada de las solicitudes, reconocen el daño real y se niegan a responder indicaciones inofensivas con mucha menos frecuencia.

 

Precisión mejorada

Empresas de todos los tamaños confían en los modelos de Claude para atender a sus clientes, lo que hace que sea imperativo que los resultados de estos modelos mantengan una alta precisión a escala. Para evaluar esto, Anthropic utilizó un gran conjunto de preguntas fácticas complejas que apuntan a las debilidades conocidas de los modelos actuales. Clasificó las respuestas en respuestas correctas, respuestas incorrectas (o alucinaciones) y admisión de incertidumbre, donde el modelo dice que no sabe la respuesta en lugar de proporcionar información incorrecta. En comparación con Claude 2.1, Opus demuestra una mejora doble en la precisión (o respuestas correctas) en estas preguntas abiertas desafiantes y, al mismo tiempo, muestra niveles reducidos de respuestas incorrectas.

Además de producir respuestas más confiables, pronto habilitarán citas en sus modelos de Claude 3 para que se puedan señalar oraciones precisas en material de referencia para verificar sus respuestas.

 

Contexto extenso y recuerdo casi perfecto

La familia de modelos de Claude 3 ofrecerá inicialmente una ventana de contexto de 200K en el momento del lanzamiento. Sin embargo, los tres modelos son capaces de aceptar entradas superiores a 1 millón de tokens y podemos ponerlos a disposición de clientes selectos que necesiten una potencia de procesamiento mejorada.

Para procesar indicaciones de contexto extensas de manera efectiva, los modelos requieren capacidades de recuperación sólidas. La evaluación ‘Aguja en un pajar’ mide la capacidad de un modelo para recordar con precisión información de un vasto corpus de datos. Se mejoró la solidez de este punto de referencia mediante el uso de uno de 30 pares aleatorios de aguja/pregunta por mensaje y pruebas en un corpus diverso de documentos de colaboración abierta. Claude 3 Opus no sólo logró un recuerdo casi perfecto, superando el 99% de precisión, sino que en algunos casos incluso identificó las limitaciones de la evaluación misma al reconocer que la palabra «aguja» parecía haber sido insertada artificialmente en el texto original por un ser humano.

 

Diseño responsable

Se ha desarrollado la familia de modelos de Claude 3 para que sea tan confiable como sea posible. Se cuenta con varios equipos dedicados que rastrean y mitigan un amplio espectro de riesgos, que van desde información errónea y material de abuso sexual infantil hasta uso indebido de productos biológicos, interferencia electoral y habilidades de replicación autónoma. Se siguen desarrollando métodos como la IA Constitucional que mejoran la seguridad y la transparencia de sus modelos, y han ajustado sus modelos para mitigar los problemas de privacidad que podrían surgir con nuevas modalidades.

Abordar los sesgos en modelos cada vez más sofisticados es un esfuerzo continuo y han logrado avances con esta nueva versión. Claude 3 muestra menos sesgos que sus modelos anteriores, según el Bias Benchmark for Question Answering (BBQ). Claude sigue comprometido con el avance de técnicas que reduzcan los sesgos y promuevan una mayor neutralidad en sus modelos, asegurando que no estén sesgados hacia ninguna postura partidista en particular.

Si bien la familia de modelos Claude 3 ha avanzado en medidas clave de conocimiento biológico, conocimiento cibernético y autonomía en comparación con modelos anteriores, permanece en el nivel de seguridad de IA 2 según su Política de Escalamiento Responsable. Sus evaluaciones, realizadas de acuerdo con sus compromisos de la Casa Blanca y la Orden Ejecutiva de los Estados Unidos de 2023, han concluido que los modelos presentan un potencial insignificante de riesgo catastrófico en este momento. Se continuarán monitoreando cuidadosamente los modelos futuros para evaluar su proximidad al umbral del nivel de seguridad de IA 3. Más detalles de seguridad están disponibles en la ficha del modelo Claude 3.

 

Más fácil de usar

Los modelos de Claude 3 son mejores para seguir instrucciones complejas de varios pasos. Son particularmente expertos en adherirse a las pautas de respuesta y voz de la marca, y en desarrollar experiencias de cara al cliente en las que nuestros usuarios puedan confiar. Además, los modelos de Claude 3 son mejores para producir resultados estructurados populares en formatos como JSON, lo que simplifica la instrucción a Claude para casos de uso como la clasificación del lenguaje natural y el análisis de sentimientos.

 

Detalles de los modelos

Claude 3 Opus es su modelo más inteligente, con el mejor rendimiento del mercado en tareas altamente complejas. Puede navegar por indicaciones abiertas y escenarios invisibles con notable fluidez y comprensión humana. Opus nos muestra los límites exteriores de lo que es posible con la IA generativa.

Claude 3 Sonnet logra el equilibrio ideal entre inteligencia y velocidad, especialmente para cargas de trabajo empresariales. Ofrece un rendimiento sólido a un costo menor en comparación con sus pares y está diseñado para una alta resistencia en implementaciones de IA a gran escala.

Claude 3 Haiku es su modelo más rápido y compacto para una capacidad de respuesta casi instantánea. Responde consultas y solicitudes sencillas con una velocidad inigualable. Los usuarios podrán crear experiencias de IA perfectas que imiten las interacciones humanas.

 

Disponibilidad de los modelos

Opus y Sonnet están disponibles para su uso en su API, que ahora está disponible de forma general, lo que permite a los desarrolladores registrarse y comenzar a usar estos modelos de inmediato. Haiku estará disponible muy pronto. Sonnet impulsa la experiencia gratuita en claude.ai, con Opus disponible para los suscriptores de Claude Pro.

Sonnet también está disponible a través de Amazon Bedrock y en vista previa privada en Vertex AI Model Garden de Google Cloud, y Opus y Haiku estarán disponibles próximamente en ambos.

 

Más inteligente, más rápido, más seguro

La compañía Anthropic no cree que la inteligencia del modelo esté cerca de sus límites y planea lanzar actualizaciones frecuentes para la familia de modelos de Claude 3 durante los próximos meses. También lanzarán una serie de características para mejorar las capacidades de sus modelos, particularmente para casos de uso empresarial e implementaciones a gran escala. Estas nuevas funciones incluirán el uso de herramientas (también conocido como llamada a funciones), codificación interactiva (también conocida como REPL) y capacidades de agente más avanzadas.

A medida que amplían los límites de las capacidades de la IA, se comprometen a garantizar que sus barreras de seguridad sigan el ritmo de estos avances en el rendimiento. La hipótesis de la empresa es que estar en la frontera del desarrollo de la IA es la forma más eficaz de dirigir su trayectoria hacia resultados sociales positivos.