Los largos textos se convierten en el nuevo estándar para grandes modelos, mientras que gigantes nacionales e internacionales compiten por superar los 400,000 tokens.
La capacidad de texto largo se convierte en el nuevo "estándar" de las empresas de modelos grandes
Los grandes modelos están mejorando su capacidad para procesar textos largos a una velocidad sorprendente, ampliándose de 4000 tokens a 400,000 tokens. La capacidad de procesamiento de textos largos parece haberse convertido en un nuevo "estándar" para los proveedores de grandes modelos.
En el extranjero, OpenAI ha aumentado varias veces la longitud de entrada de contexto de GPT-3.5 de 4 mil a 16 mil tokens, y GPT-4 de 8 mil a 32 mil tokens. El principal competidor de OpenAI, Anthropic, ha incrementado de una vez la longitud de contexto a 100 mil tokens. LongLLaMA ha expandido aún más la longitud de contexto a 256 mil tokens o incluso más.
En el ámbito nacional, Kimi Chat, lanzado por la startup de grandes modelos La cara oscura de la luna, puede soportar la entrada de 200,000 caracteres chinos, aproximadamente 400,000 tokens. La tecnología LongLoRA, desarrollada conjuntamente por la Universidad China de Hong Kong y el MIT, puede extender la longitud del texto del modelo de 7B a 100,000 tokens y del modelo de 70B a 32,000 tokens.
Actualmente, numerosas compañías y organizaciones de investigación de modelos grandes de primer nivel como OpenAI, Anthropic, Meta y la Cara Oculta de la Luna están enfocándose en expandir la longitud de contexto como una prioridad de actualización. Estas empresas también son objetos de gran interés en el mercado de capitales. OpenAI ha recibido cerca de 12 mil millones de dólares en inversiones, se espera que la valoración de Anthropic alcance los 30 mil millones de dólares, y la Cara Oculta de la Luna ha completado cerca de 2 mil millones de yuanes en financiamiento en solo seis meses.
Los fabricantes de grandes modelos compiten por conquistar la tecnología de texto largo, ¿qué significa expandir la longitud del contexto 100 veces?
A primera vista, esto significa que el modelo puede ingresar textos más largos y tiene una capacidad de lectura más fuerte. Los 4000 tokens de GPT-3.5 solo pueden ingresar aproximadamente 2000 caracteres chinos, mientras que los 400,000 tokens de Kimi Chat pueden soportar la entrada de 200,000 caracteres chinos, lo suficiente para leer una novela larga.
Desde una perspectiva más profunda, la tecnología de texto largo está impulsando la implementación de grandes modelos en campos profesionales como las finanzas, la justicia y la investigación científica. En estos campos, las capacidades de resumen de documentos largos, comprensión de lectura y preguntas y respuestas son necesidades básicas y también son direcciones que requieren una actualización inteligente.
Sin embargo, al igual que con los parámetros del modelo, la longitud del texto no siempre es mejor cuanto más larga sea. La investigación muestra que el hecho de que un modelo soporte entradas de contexto más largas no equivale directamente a un mejor rendimiento. La clave está en cómo el modelo utiliza eficazmente el contenido del contexto.
Sin embargo, la exploración de la longitud del texto tanto a nivel nacional como internacional aún no ha alcanzado el "punto crítico". Las principales empresas de modelos siguen rompiendo barreras, 400,000 tokens pueden ser solo el comienzo.
¿Por qué "enrollar" textos largos?
El fundador de Dark Side of the Moon, Yang Zhiling, afirmó que debido a la limitación en la longitud de entrada de los grandes modelos, se han generado muchas dificultades para la implementación de aplicaciones. Esta es también la razón por la cual las principales empresas de modelos están enfocándose actualmente en la tecnología de texto largo.
Por ejemplo, en escenarios de personajes virtuales, debido a la falta de capacidad para manejar textos largos, los personajes virtuales olvidan información importante. Al desarrollar juegos de tipo "script kill", la longitud insuficiente de entrada puede llevar a que las reglas y configuraciones se vean reducidas, lo que impide alcanzar el efecto esperado. En campos profesionales como el derecho y la banca, el análisis y la generación de contenido profundo a menudo se ven frustrados.
El texto largo también juega un papel importante en las aplicaciones nativas de Agent y AI en el futuro. Los agentes necesitan depender de la información histórica para la planificación y la toma de decisiones, y las aplicaciones nativas de AI necesitan contexto para mantener una experiencia de usuario coherente y personalizada.
Yang Zhilin cree que, ya sea texto, voz o video, la compresión sin pérdida de grandes volúmenes de datos puede lograr un alto grado de inteligencia. El límite de los grandes modelos está determinado por la capacidad de un solo paso y el número de pasos de ejecución, donde la capacidad de un solo paso está relacionada con la cantidad de parámetros y el número de pasos de ejecución es la longitud del contexto.
Al mismo tiempo, los textos largos pueden ayudar al modelo a juzgar el significado con mayor precisión al proporcionar más contexto e información detallada, reduciendo la ambigüedad y mejorando la precisión del razonamiento.
La tecnología de texto largo puede resolver algunos problemas tempranos de los grandes modelos, mejorar ciertas funciones y es una tecnología clave para avanzar en la implementación de aplicaciones industriales. Esto marca la transición del desarrollo de modelos grandes generales de LLM a Long LLM.
Tomando como ejemplo el Kimi Chat recién lanzado por La cara oculta de la luna, se puede vislumbrar las funciones de actualización del modelo a gran escala de Long LLM:
Extracción, resumen y análisis de información clave de textos muy largos
Convertir el documento directamente en código y poder modificarlo sobre esa base
Implementar roles de juego, se puede dialogar con personajes públicos o personajes virtuales.
Esto indica que los chatbots están evolucionando hacia una dirección más especializada, personalizada y profunda, lo que podría ser otra palanca para impulsar la aplicación industrial y la implementación de super aplicaciones.
Yang Zhilin cree que el mercado nacional de modelos grandes se dividirá en dos campamentos: toB y toC. En el ámbito toC, aparecerán aplicaciones super basadas en modelos desarrollados internamente.
Sin embargo, todavía hay un gran espacio para la optimización en los escenarios de conversación de texto largo en el mercado actual. Por ejemplo, no soporta la obtención de la información más reciente a través de Internet, el proceso de generación no se puede pausar para modificar, y aún ocasionalmente aparece información sin sentido.
La "tríada imposible" del texto largo
En la tecnología de texto largo, existe el dilema del "triángulo imposible" de la longitud del texto, la atención y la potencia de cálculo:
Cuanto más largo es el texto, más difícil es concentrar la atención suficiente y digerirlo por completo.
La atención es limitada, el texto corto no puede interpretar completamente información compleja
Procesar textos largos requiere una gran cantidad de poder de cálculo, lo que aumenta los costos.
La raíz de este dilema radica en que los modelos grandes existentes se basan principalmente en la estructura Transformer. Aunque el mecanismo de autoatención más importante puede superar las limitaciones del orden de entrada, la carga computacional aumenta cuadráticamente con la longitud del contexto.
Esto constituye el primer conjunto de contradicciones en el "triángulo imposible": la longitud del texto y la atención. Al mismo tiempo, procesar textos largos requiere más potencia de cálculo, lo que forma un segundo conjunto de contradicciones con la escasez de potencia de cálculo.
Actualmente hay tres soluciones principales:
Utilizar herramientas externas para ayudar a procesar textos largos, dividiendo el texto largo en varios textos cortos para su tratamiento.
Optimizar el cálculo del mecanismo de autoatención, como la tecnología LongLoRA que reduce la carga computacional mediante cálculos agrupados.
Optimizar el modelo, como LongLLaMA, que admite secuencias más largas al ajustar finamente el modelo existente.
El dilema del "triángulo imposible" en textos largos puede no tener solución temporalmente, pero también aclara el camino de exploración para los fabricantes de grandes modelos: buscar un equilibrio entre la longitud del texto, la atención y el poder de cómputo, de modo que se pueda manejar suficiente información, al mismo tiempo que se consideran los costos de atención y de cómputo.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
8 me gusta
Recompensa
8
5
Compartir
Comentar
0/400
LiquidationWatcher
· 07-15 12:13
La potencia computacional es tan cara, tomar a la gente por tonta es más adecuado.
Ver originalesResponder0
LiquidationAlert
· 07-13 09:58
Mira quién tiene la potencia computacional suficiente.
Ver originalesResponder0
RiddleMaster
· 07-12 12:53
Todavía no se ha adaptado a la realidad.
Ver originalesResponder0
CrossChainBreather
· 07-12 12:36
Este cuello de botella eventualmente tendrá que superarse.
Los largos textos se convierten en el nuevo estándar para grandes modelos, mientras que gigantes nacionales e internacionales compiten por superar los 400,000 tokens.
La capacidad de texto largo se convierte en el nuevo "estándar" de las empresas de modelos grandes
Los grandes modelos están mejorando su capacidad para procesar textos largos a una velocidad sorprendente, ampliándose de 4000 tokens a 400,000 tokens. La capacidad de procesamiento de textos largos parece haberse convertido en un nuevo "estándar" para los proveedores de grandes modelos.
En el extranjero, OpenAI ha aumentado varias veces la longitud de entrada de contexto de GPT-3.5 de 4 mil a 16 mil tokens, y GPT-4 de 8 mil a 32 mil tokens. El principal competidor de OpenAI, Anthropic, ha incrementado de una vez la longitud de contexto a 100 mil tokens. LongLLaMA ha expandido aún más la longitud de contexto a 256 mil tokens o incluso más.
En el ámbito nacional, Kimi Chat, lanzado por la startup de grandes modelos La cara oscura de la luna, puede soportar la entrada de 200,000 caracteres chinos, aproximadamente 400,000 tokens. La tecnología LongLoRA, desarrollada conjuntamente por la Universidad China de Hong Kong y el MIT, puede extender la longitud del texto del modelo de 7B a 100,000 tokens y del modelo de 70B a 32,000 tokens.
Actualmente, numerosas compañías y organizaciones de investigación de modelos grandes de primer nivel como OpenAI, Anthropic, Meta y la Cara Oculta de la Luna están enfocándose en expandir la longitud de contexto como una prioridad de actualización. Estas empresas también son objetos de gran interés en el mercado de capitales. OpenAI ha recibido cerca de 12 mil millones de dólares en inversiones, se espera que la valoración de Anthropic alcance los 30 mil millones de dólares, y la Cara Oculta de la Luna ha completado cerca de 2 mil millones de yuanes en financiamiento en solo seis meses.
Los fabricantes de grandes modelos compiten por conquistar la tecnología de texto largo, ¿qué significa expandir la longitud del contexto 100 veces?
A primera vista, esto significa que el modelo puede ingresar textos más largos y tiene una capacidad de lectura más fuerte. Los 4000 tokens de GPT-3.5 solo pueden ingresar aproximadamente 2000 caracteres chinos, mientras que los 400,000 tokens de Kimi Chat pueden soportar la entrada de 200,000 caracteres chinos, lo suficiente para leer una novela larga.
Desde una perspectiva más profunda, la tecnología de texto largo está impulsando la implementación de grandes modelos en campos profesionales como las finanzas, la justicia y la investigación científica. En estos campos, las capacidades de resumen de documentos largos, comprensión de lectura y preguntas y respuestas son necesidades básicas y también son direcciones que requieren una actualización inteligente.
Sin embargo, al igual que con los parámetros del modelo, la longitud del texto no siempre es mejor cuanto más larga sea. La investigación muestra que el hecho de que un modelo soporte entradas de contexto más largas no equivale directamente a un mejor rendimiento. La clave está en cómo el modelo utiliza eficazmente el contenido del contexto.
Sin embargo, la exploración de la longitud del texto tanto a nivel nacional como internacional aún no ha alcanzado el "punto crítico". Las principales empresas de modelos siguen rompiendo barreras, 400,000 tokens pueden ser solo el comienzo.
¿Por qué "enrollar" textos largos?
El fundador de Dark Side of the Moon, Yang Zhiling, afirmó que debido a la limitación en la longitud de entrada de los grandes modelos, se han generado muchas dificultades para la implementación de aplicaciones. Esta es también la razón por la cual las principales empresas de modelos están enfocándose actualmente en la tecnología de texto largo.
Por ejemplo, en escenarios de personajes virtuales, debido a la falta de capacidad para manejar textos largos, los personajes virtuales olvidan información importante. Al desarrollar juegos de tipo "script kill", la longitud insuficiente de entrada puede llevar a que las reglas y configuraciones se vean reducidas, lo que impide alcanzar el efecto esperado. En campos profesionales como el derecho y la banca, el análisis y la generación de contenido profundo a menudo se ven frustrados.
El texto largo también juega un papel importante en las aplicaciones nativas de Agent y AI en el futuro. Los agentes necesitan depender de la información histórica para la planificación y la toma de decisiones, y las aplicaciones nativas de AI necesitan contexto para mantener una experiencia de usuario coherente y personalizada.
Yang Zhilin cree que, ya sea texto, voz o video, la compresión sin pérdida de grandes volúmenes de datos puede lograr un alto grado de inteligencia. El límite de los grandes modelos está determinado por la capacidad de un solo paso y el número de pasos de ejecución, donde la capacidad de un solo paso está relacionada con la cantidad de parámetros y el número de pasos de ejecución es la longitud del contexto.
Al mismo tiempo, los textos largos pueden ayudar al modelo a juzgar el significado con mayor precisión al proporcionar más contexto e información detallada, reduciendo la ambigüedad y mejorando la precisión del razonamiento.
La tecnología de texto largo puede resolver algunos problemas tempranos de los grandes modelos, mejorar ciertas funciones y es una tecnología clave para avanzar en la implementación de aplicaciones industriales. Esto marca la transición del desarrollo de modelos grandes generales de LLM a Long LLM.
Tomando como ejemplo el Kimi Chat recién lanzado por La cara oculta de la luna, se puede vislumbrar las funciones de actualización del modelo a gran escala de Long LLM:
Esto indica que los chatbots están evolucionando hacia una dirección más especializada, personalizada y profunda, lo que podría ser otra palanca para impulsar la aplicación industrial y la implementación de super aplicaciones.
Yang Zhilin cree que el mercado nacional de modelos grandes se dividirá en dos campamentos: toB y toC. En el ámbito toC, aparecerán aplicaciones super basadas en modelos desarrollados internamente.
Sin embargo, todavía hay un gran espacio para la optimización en los escenarios de conversación de texto largo en el mercado actual. Por ejemplo, no soporta la obtención de la información más reciente a través de Internet, el proceso de generación no se puede pausar para modificar, y aún ocasionalmente aparece información sin sentido.
La "tríada imposible" del texto largo
En la tecnología de texto largo, existe el dilema del "triángulo imposible" de la longitud del texto, la atención y la potencia de cálculo:
La raíz de este dilema radica en que los modelos grandes existentes se basan principalmente en la estructura Transformer. Aunque el mecanismo de autoatención más importante puede superar las limitaciones del orden de entrada, la carga computacional aumenta cuadráticamente con la longitud del contexto.
Esto constituye el primer conjunto de contradicciones en el "triángulo imposible": la longitud del texto y la atención. Al mismo tiempo, procesar textos largos requiere más potencia de cálculo, lo que forma un segundo conjunto de contradicciones con la escasez de potencia de cálculo.
Actualmente hay tres soluciones principales:
Utilizar herramientas externas para ayudar a procesar textos largos, dividiendo el texto largo en varios textos cortos para su tratamiento.
Optimizar el cálculo del mecanismo de autoatención, como la tecnología LongLoRA que reduce la carga computacional mediante cálculos agrupados.
Optimizar el modelo, como LongLLaMA, que admite secuencias más largas al ajustar finamente el modelo existente.
El dilema del "triángulo imposible" en textos largos puede no tener solución temporalmente, pero también aclara el camino de exploración para los fabricantes de grandes modelos: buscar un equilibrio entre la longitud del texto, la atención y el poder de cómputo, de modo que se pueda manejar suficiente información, al mismo tiempo que se consideran los costos de atención y de cómputo.