Modelos de IA: Una revolución provocada por un problema de ingeniería
El mes pasado, el mundo de la IA desató una "guerra de animales".
Por un lado están los modelos de la serie Llama lanzados por Meta, que son muy apreciados por los desarrolladores debido a su característica de ser de código abierto. La compañía japonesa NEC desarrolló rápidamente una versión en japonés de ChatGPT basada en el artículo y el código de Llama, resolviendo el cuello de botella tecnológico de Japón en el campo de la IA.
El otro es un modelo grande llamado Falcon. En mayo de este año, Falcon-40B hizo su debut, superando a Llama y alcanzando la cima de la "tabla de clasificación de modelos de lenguaje de código abierto". Esta lista fue elaborada por la comunidad de código abierto Hugging Face, que proporciona un estándar para evaluar las capacidades de los LLM. Desde entonces, Llama y Falcon han estado alternando en la actualización de las clasificaciones.
A principios de septiembre, Falcon lanzó la versión 180B, alcanzando nuevamente la cima de la lista. Curiosamente, los desarrolladores de Falcon no son una empresa de tecnología, sino el Instituto de Investigación en Innovación Tecnológica de Abu Dabi. Funcionarios de los Emiratos Árabes Unidos han declarado que participan en la competencia de IA para disruptir el panorama actual.
Hoy en día, el campo de la IA ha entrado en una etapa de competencia entre múltiples actores. Cualquier país y empresa con cierto poder está intentando crear su propia versión local de ChatGPT. Solo en los países del Golfo hay varios jugadores; Arabia Saudita recientemente compró más de 3000 chips H100 para universidades locales con el fin de entrenar LLM.
Un inversor exclamó: "En aquel entonces despreciaba la innovación en el modelo de negocio de internet, pensaba que no tenía barreras. No esperaba que el emprendimiento en grandes modelos de tecnología dura, siguiera siendo una batalla de cientos de modelos..."
¿Por qué lo que originalmente se consideraba tecnología dura de alta dificultad ha evolucionado hacia una situación de "un país, un modelo"?
Transformer: El motor de la revolución AI
Las startups estadounidenses, los gigantes tecnológicos chinos y los jeques petroleros del Medio Oriente están todos inmersos en el desarrollo de grandes modelos, todo ello a raíz de un famoso artículo: "Attention Is All You Need".
En 2017, ocho científicos de Google publicaron el algoritmo Transformer en este artículo. Este artículo es actualmente el tercero más citado en la historia de la IA, y la aparición del Transformer ha provocado esta ola actual de entusiasmo por la IA.
Los diversos modelos grandes actuales, incluidos los impactantes series GPT que han conmocionado al mundo, se basan en la arquitectura Transformer.
Hasta ahora, "enseñar a las máquinas a leer" ha sido un problema reconocido en el ámbito académico. A diferencia del reconocimiento de imágenes, los humanos comprenden el contexto al leer. Las primeras redes neuronales tenían dificultades para manejar textos largos, lo que a menudo resultaba en problemas como traducir "开水间" como "open water room".
En 2014, el científico de Google Ilya fue el primero en utilizar redes neuronales recurrentes (RNN) para procesar el lenguaje natural, mejorando significativamente el rendimiento de Google Translate. Las RNN otorgan a las redes neuronales la capacidad de entender el contexto a través de un "diseño cíclico".
Sin embargo, las RNN tienen graves defectos: el cálculo secuencial conduce a una baja eficiencia y es difícil manejar una gran cantidad de parámetros. A partir de 2015, los científicos de Google, como Vaswani y otros, comenzaron a desarrollar un sustituto para las RNN, que finalmente dio lugar al Transformer.
En comparación con RNN, el Transformer tiene dos grandes innovaciones: una es el uso de codificación de posición para lograr el cálculo en paralelo, lo que mejora enormemente la eficiencia del entrenamiento; la otra es que se ha mejorado aún más la capacidad de comprensión del contexto.
Transformer resuelve múltiples problemas de una vez y se está convirtiendo gradualmente en la solución principal en el campo del NLP. Ha transformado los grandes modelos de una investigación teórica a un problema puramente de ingeniería.
En 2019, OpenAI desarrolló GPT-2 basado en Transformer. En respuesta, Google lanzó rápidamente Meena, que supera a GPT-2 en términos de parámetros y capacidad de cálculo, sin innovación en el algoritmo subyacente. Esto dejó asombrado a uno de los autores de Transformer, Sam Chasar, por el poder de la "acumulación violenta".
Desde que surgió el Transformer, la velocidad de innovación en los algoritmos de base en el ámbito académico se ha ralentizado. Elementos de ingeniería como la ingeniería de datos, la escala de potencia de cálculo y la arquitectura del modelo se han convertido en claves en la competencia de IA. Cualquier empresa que tenga un cierto nivel de capacidad técnica puede desarrollar grandes modelos.
El experto en IA Andrew Ng cree que la IA se ha convertido en una serie de herramientas tecnológicas generales, similares a la electricidad y a Internet.
Aunque OpenAI sigue siendo el líder en LLM, los análisis de la industria sugieren que la ventaja de GPT-4 proviene principalmente de soluciones de ingeniería. Una vez que sea de código abierto, los competidores podrán copiarlo rápidamente. Se espera que pronto otras grandes empresas tecnológicas también puedan crear modelos grandes con un rendimiento similar al de GPT-4.
Un río de defensa débil
Hoy en día, la "guerra de los grandes modelos" se ha convertido en una realidad. Un informe muestra que, hasta julio de este año, el número de grandes modelos en China ha alcanzado los 130, superando los 114 de Estados Unidos. Todo tipo de mitos y leyendas ya no son suficientes para que las empresas tecnológicas nacionales encuentren nombres.
Aparte de China y Estados Unidos, muchos países desarrollados también han logrado implementar inicialmente "un país, un modelo": Japón, Emiratos Árabes Unidos, India, Corea del Sur, entre otros, han lanzado modelos grandes locales. Esta escena parece haber vuelto a la era de la burbuja de Internet, donde "quemar dinero" se ha convertido en el principal medio de competencia.
Transformer convierte los grandes modelos en un problema puramente ingenieril; solo se necesita mano de obra y recursos para desarrollarlos. Sin embargo, es fácil entrar en el campo, pero es muy difícil convertirse en un gigante de la era de la IA.
El "Animal Battle" mencionado anteriormente es un caso típico: aunque Falcon supera a Llama en el ranking, su impacto en Meta es limitado.
La apertura de los resultados de investigación y desarrollo de las empresas no solo es compartir los beneficios de la tecnología, sino también esperar movilizar la sabiduría social. A medida que diferentes sectores continúan utilizando y mejorando Llama, Meta puede aplicar los resultados en sus propios productos.
Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es la verdadera ventaja competitiva.
Meta estableció su política de código abierto ya en 2015 al formar su laboratorio de IA. Zuckerberg entiende bien el arte de "mantener buenas relaciones con el público". En octubre, Meta también lanzó la iniciativa "Incentivos para creadores impulsados por IA", financiando a desarrolladores que utilizan Llama 2 para resolver problemas sociales.
Hoy en día, la serie Llama de Meta se ha convertido en un referente para los LLM de código abierto. A principios de octubre, 8 de los 10 primeros en el ranking de Hugging Face se desarrollaron con Llama 2, y hay más de 1500 LLM que utilizan su protocolo de código abierto.
Mejorar el rendimiento es ciertamente importante, pero actualmente la mayoría de los LLM tienen una diferencia notable con respecto a GPT-4. En la última prueba de AgentBench, GPT-4 alcanzó la cima con 4.41 puntos, el segundo lugar, Claude, solo obtuvo 2.77 puntos, y los LLM de código abierto rondan alrededor de 1 punto.
Han pasado más de seis meses desde el lanzamiento de GPT-4, y los competidores en todo el mundo aún tienen dificultades para ponerse al día. Esto se debe al equipo de científicos de primer nivel de OpenAI y a la larga experiencia acumulada en la investigación de LLM.
Como se puede ver, la capacidad central de los grandes modelos radica en la construcción de ecosistemas ( código abierto ) o pura capacidad de inferencia ( código cerrado ), y no en una simple acumulación de parámetros.
Con la creciente actividad de la comunidad de código abierto, el rendimiento de los LLM podría converger, ya que todos utilizan arquitecturas de modelos y conjuntos de datos similares.
El problema más evidente es que, aparte de Midjourney, parece que ningún otro modelo grande ha logrado ser rentable.
Punto de anclaje del valor
En agosto de este año, un artículo titulado "OpenAI podría declararse en quiebra a finales de 2024" ha llamado la atención. El punto principal es: OpenAI está quemando dinero a un ritmo demasiado rápido.
El artículo menciona que, desde el desarrollo de ChatGPT, las pérdidas de OpenAI se han ampliado rápidamente, con pérdidas de aproximadamente 540 millones de dólares en 2022, dependiendo únicamente de la inversión de Microsoft.
Esto refleja el dilema que enfrentan en general los proveedores de grandes modelos: un grave desequilibrio entre costos e ingresos.
Los altos costos han llevado a que los principales beneficiarios sean fabricantes de chips como NVIDIA y Broadcom.
Se estima que NVIDIA vendió más de 300,000 chips AI H100 en el segundo trimestre de este año, un peso equivalente a 4.5 aviones Boeing 747. Los ingresos de NVIDIA se dispararon un 854%, sorprendiendo a Wall Street. El precio de segunda mano del H100 ha alcanzado entre 40,000 y 50,000 dólares, mientras que el costo es de solo algo más de 3,000 dólares.
El costo de la potencia computacional se ha convertido en un obstáculo para el desarrollo de la industria. Según Sequoia Capital, las empresas tecnológicas de todo el mundo gastarán 200 mil millones de dólares al año en la construcción de infraestructura para grandes modelos, pero los ingresos anuales de los grandes modelos son de un máximo de 75 mil millones de dólares, lo que genera un déficit de al menos 125 mil millones de dólares.
A excepción de unos pocos casos, la mayoría de las empresas de software no han encontrado un modelo de negocio rentable después de incurrir en enormes costos. Incluso los líderes de la industria como Microsoft y Adobe enfrentan desafíos.
GitHub Copilot, desarrollado en colaboración entre Microsoft y OpenAI, cuesta 10 dólares al mes pero Microsoft pierde 20 dólares, y los usuarios intensivos incluso hacen que Microsoft pierda 80 dólares al mes. El nuevo Microsoft 365 Copilot tiene un precio de 30 dólares, y las pérdidas podrían ser aún mayores.
Adobe lanzó rápidamente un sistema de puntos después de presentar la herramienta de IA Firefly, limitando el uso excesivo por parte de los usuarios que podría llevar a pérdidas para la empresa. Una vez superados los puntos asignados mensuales, Adobe reducirá la velocidad del servicio.
Microsoft y Adobe ya tienen escenarios de negocio claros y una gran cantidad de usuarios de pago. Sin embargo, la mayoría de los modelos grandes con una acumulación de parámetros aún tienen como principal escenario de aplicación el chat.
La aparición de OpenAI y ChatGPT ha desencadenado esta revolución de la IA, pero en la etapa actual, el valor de entrenar grandes modelos es cuestionable. A medida que la competencia homogénea se intensifica y aumentan los modelos de código abierto, el espacio para los proveedores de grandes modelos podría seguir reduciéndose.
El éxito del iPhone 4 no radica en su procesador A4 de 45 nm, sino en que puede jugar a "Plantas contra Zombis" y "Angry Birds".
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
La competencia entre los grandes modelos de IA se intensifica: se soltar las barreras tecnológicas y se destacan los problemas comerciales.
Modelos de IA: Una revolución provocada por un problema de ingeniería
El mes pasado, el mundo de la IA desató una "guerra de animales".
Por un lado están los modelos de la serie Llama lanzados por Meta, que son muy apreciados por los desarrolladores debido a su característica de ser de código abierto. La compañía japonesa NEC desarrolló rápidamente una versión en japonés de ChatGPT basada en el artículo y el código de Llama, resolviendo el cuello de botella tecnológico de Japón en el campo de la IA.
El otro es un modelo grande llamado Falcon. En mayo de este año, Falcon-40B hizo su debut, superando a Llama y alcanzando la cima de la "tabla de clasificación de modelos de lenguaje de código abierto". Esta lista fue elaborada por la comunidad de código abierto Hugging Face, que proporciona un estándar para evaluar las capacidades de los LLM. Desde entonces, Llama y Falcon han estado alternando en la actualización de las clasificaciones.
A principios de septiembre, Falcon lanzó la versión 180B, alcanzando nuevamente la cima de la lista. Curiosamente, los desarrolladores de Falcon no son una empresa de tecnología, sino el Instituto de Investigación en Innovación Tecnológica de Abu Dabi. Funcionarios de los Emiratos Árabes Unidos han declarado que participan en la competencia de IA para disruptir el panorama actual.
Hoy en día, el campo de la IA ha entrado en una etapa de competencia entre múltiples actores. Cualquier país y empresa con cierto poder está intentando crear su propia versión local de ChatGPT. Solo en los países del Golfo hay varios jugadores; Arabia Saudita recientemente compró más de 3000 chips H100 para universidades locales con el fin de entrenar LLM.
Un inversor exclamó: "En aquel entonces despreciaba la innovación en el modelo de negocio de internet, pensaba que no tenía barreras. No esperaba que el emprendimiento en grandes modelos de tecnología dura, siguiera siendo una batalla de cientos de modelos..."
¿Por qué lo que originalmente se consideraba tecnología dura de alta dificultad ha evolucionado hacia una situación de "un país, un modelo"?
Transformer: El motor de la revolución AI
Las startups estadounidenses, los gigantes tecnológicos chinos y los jeques petroleros del Medio Oriente están todos inmersos en el desarrollo de grandes modelos, todo ello a raíz de un famoso artículo: "Attention Is All You Need".
En 2017, ocho científicos de Google publicaron el algoritmo Transformer en este artículo. Este artículo es actualmente el tercero más citado en la historia de la IA, y la aparición del Transformer ha provocado esta ola actual de entusiasmo por la IA.
Los diversos modelos grandes actuales, incluidos los impactantes series GPT que han conmocionado al mundo, se basan en la arquitectura Transformer.
Hasta ahora, "enseñar a las máquinas a leer" ha sido un problema reconocido en el ámbito académico. A diferencia del reconocimiento de imágenes, los humanos comprenden el contexto al leer. Las primeras redes neuronales tenían dificultades para manejar textos largos, lo que a menudo resultaba en problemas como traducir "开水间" como "open water room".
En 2014, el científico de Google Ilya fue el primero en utilizar redes neuronales recurrentes (RNN) para procesar el lenguaje natural, mejorando significativamente el rendimiento de Google Translate. Las RNN otorgan a las redes neuronales la capacidad de entender el contexto a través de un "diseño cíclico".
Sin embargo, las RNN tienen graves defectos: el cálculo secuencial conduce a una baja eficiencia y es difícil manejar una gran cantidad de parámetros. A partir de 2015, los científicos de Google, como Vaswani y otros, comenzaron a desarrollar un sustituto para las RNN, que finalmente dio lugar al Transformer.
En comparación con RNN, el Transformer tiene dos grandes innovaciones: una es el uso de codificación de posición para lograr el cálculo en paralelo, lo que mejora enormemente la eficiencia del entrenamiento; la otra es que se ha mejorado aún más la capacidad de comprensión del contexto.
Transformer resuelve múltiples problemas de una vez y se está convirtiendo gradualmente en la solución principal en el campo del NLP. Ha transformado los grandes modelos de una investigación teórica a un problema puramente de ingeniería.
En 2019, OpenAI desarrolló GPT-2 basado en Transformer. En respuesta, Google lanzó rápidamente Meena, que supera a GPT-2 en términos de parámetros y capacidad de cálculo, sin innovación en el algoritmo subyacente. Esto dejó asombrado a uno de los autores de Transformer, Sam Chasar, por el poder de la "acumulación violenta".
Desde que surgió el Transformer, la velocidad de innovación en los algoritmos de base en el ámbito académico se ha ralentizado. Elementos de ingeniería como la ingeniería de datos, la escala de potencia de cálculo y la arquitectura del modelo se han convertido en claves en la competencia de IA. Cualquier empresa que tenga un cierto nivel de capacidad técnica puede desarrollar grandes modelos.
El experto en IA Andrew Ng cree que la IA se ha convertido en una serie de herramientas tecnológicas generales, similares a la electricidad y a Internet.
Aunque OpenAI sigue siendo el líder en LLM, los análisis de la industria sugieren que la ventaja de GPT-4 proviene principalmente de soluciones de ingeniería. Una vez que sea de código abierto, los competidores podrán copiarlo rápidamente. Se espera que pronto otras grandes empresas tecnológicas también puedan crear modelos grandes con un rendimiento similar al de GPT-4.
Un río de defensa débil
Hoy en día, la "guerra de los grandes modelos" se ha convertido en una realidad. Un informe muestra que, hasta julio de este año, el número de grandes modelos en China ha alcanzado los 130, superando los 114 de Estados Unidos. Todo tipo de mitos y leyendas ya no son suficientes para que las empresas tecnológicas nacionales encuentren nombres.
Aparte de China y Estados Unidos, muchos países desarrollados también han logrado implementar inicialmente "un país, un modelo": Japón, Emiratos Árabes Unidos, India, Corea del Sur, entre otros, han lanzado modelos grandes locales. Esta escena parece haber vuelto a la era de la burbuja de Internet, donde "quemar dinero" se ha convertido en el principal medio de competencia.
Transformer convierte los grandes modelos en un problema puramente ingenieril; solo se necesita mano de obra y recursos para desarrollarlos. Sin embargo, es fácil entrar en el campo, pero es muy difícil convertirse en un gigante de la era de la IA.
El "Animal Battle" mencionado anteriormente es un caso típico: aunque Falcon supera a Llama en el ranking, su impacto en Meta es limitado.
La apertura de los resultados de investigación y desarrollo de las empresas no solo es compartir los beneficios de la tecnología, sino también esperar movilizar la sabiduría social. A medida que diferentes sectores continúan utilizando y mejorando Llama, Meta puede aplicar los resultados en sus propios productos.
Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es la verdadera ventaja competitiva.
Meta estableció su política de código abierto ya en 2015 al formar su laboratorio de IA. Zuckerberg entiende bien el arte de "mantener buenas relaciones con el público". En octubre, Meta también lanzó la iniciativa "Incentivos para creadores impulsados por IA", financiando a desarrolladores que utilizan Llama 2 para resolver problemas sociales.
Hoy en día, la serie Llama de Meta se ha convertido en un referente para los LLM de código abierto. A principios de octubre, 8 de los 10 primeros en el ranking de Hugging Face se desarrollaron con Llama 2, y hay más de 1500 LLM que utilizan su protocolo de código abierto.
Mejorar el rendimiento es ciertamente importante, pero actualmente la mayoría de los LLM tienen una diferencia notable con respecto a GPT-4. En la última prueba de AgentBench, GPT-4 alcanzó la cima con 4.41 puntos, el segundo lugar, Claude, solo obtuvo 2.77 puntos, y los LLM de código abierto rondan alrededor de 1 punto.
Han pasado más de seis meses desde el lanzamiento de GPT-4, y los competidores en todo el mundo aún tienen dificultades para ponerse al día. Esto se debe al equipo de científicos de primer nivel de OpenAI y a la larga experiencia acumulada en la investigación de LLM.
Como se puede ver, la capacidad central de los grandes modelos radica en la construcción de ecosistemas ( código abierto ) o pura capacidad de inferencia ( código cerrado ), y no en una simple acumulación de parámetros.
Con la creciente actividad de la comunidad de código abierto, el rendimiento de los LLM podría converger, ya que todos utilizan arquitecturas de modelos y conjuntos de datos similares.
El problema más evidente es que, aparte de Midjourney, parece que ningún otro modelo grande ha logrado ser rentable.
Punto de anclaje del valor
En agosto de este año, un artículo titulado "OpenAI podría declararse en quiebra a finales de 2024" ha llamado la atención. El punto principal es: OpenAI está quemando dinero a un ritmo demasiado rápido.
El artículo menciona que, desde el desarrollo de ChatGPT, las pérdidas de OpenAI se han ampliado rápidamente, con pérdidas de aproximadamente 540 millones de dólares en 2022, dependiendo únicamente de la inversión de Microsoft.
Esto refleja el dilema que enfrentan en general los proveedores de grandes modelos: un grave desequilibrio entre costos e ingresos.
Los altos costos han llevado a que los principales beneficiarios sean fabricantes de chips como NVIDIA y Broadcom.
Se estima que NVIDIA vendió más de 300,000 chips AI H100 en el segundo trimestre de este año, un peso equivalente a 4.5 aviones Boeing 747. Los ingresos de NVIDIA se dispararon un 854%, sorprendiendo a Wall Street. El precio de segunda mano del H100 ha alcanzado entre 40,000 y 50,000 dólares, mientras que el costo es de solo algo más de 3,000 dólares.
El costo de la potencia computacional se ha convertido en un obstáculo para el desarrollo de la industria. Según Sequoia Capital, las empresas tecnológicas de todo el mundo gastarán 200 mil millones de dólares al año en la construcción de infraestructura para grandes modelos, pero los ingresos anuales de los grandes modelos son de un máximo de 75 mil millones de dólares, lo que genera un déficit de al menos 125 mil millones de dólares.
A excepción de unos pocos casos, la mayoría de las empresas de software no han encontrado un modelo de negocio rentable después de incurrir en enormes costos. Incluso los líderes de la industria como Microsoft y Adobe enfrentan desafíos.
GitHub Copilot, desarrollado en colaboración entre Microsoft y OpenAI, cuesta 10 dólares al mes pero Microsoft pierde 20 dólares, y los usuarios intensivos incluso hacen que Microsoft pierda 80 dólares al mes. El nuevo Microsoft 365 Copilot tiene un precio de 30 dólares, y las pérdidas podrían ser aún mayores.
Adobe lanzó rápidamente un sistema de puntos después de presentar la herramienta de IA Firefly, limitando el uso excesivo por parte de los usuarios que podría llevar a pérdidas para la empresa. Una vez superados los puntos asignados mensuales, Adobe reducirá la velocidad del servicio.
Microsoft y Adobe ya tienen escenarios de negocio claros y una gran cantidad de usuarios de pago. Sin embargo, la mayoría de los modelos grandes con una acumulación de parámetros aún tienen como principal escenario de aplicación el chat.
La aparición de OpenAI y ChatGPT ha desencadenado esta revolución de la IA, pero en la etapa actual, el valor de entrenar grandes modelos es cuestionable. A medida que la competencia homogénea se intensifica y aumentan los modelos de código abierto, el espacio para los proveedores de grandes modelos podría seguir reduciéndose.
El éxito del iPhone 4 no radica en su procesador A4 de 45 nm, sino en que puede jugar a "Plantas contra Zombis" y "Angry Birds".