La mentalidad de los investigadores chinos

Notas desde dentro de los laboratorios de IA de China

Lecciones de mi viaje para hablar con la mayoría de los principales laboratorios de IA en China.

Nathan es un investigador de aprendizaje automático que trabaja en la creación, comprensión y promoción de modelos de lenguaje abiertos y otros sistemas autónomos responsables. Actualmente, es responsable de la fase posterior al entrenamiento en el Instituto Allen para la IA .

7 de mayo

Regreso de China con gran humildad. Es una experiencia muy reconfortante y humana ir a un lugar tan extranjero y ser tan bienvenido.

NATHAN LAMBERT

Mirando por la ventana en un nuevo tren de alta velocidad de Hangzhou a Shanghái, me regalan vistas de crestas dramáticas salpicadas de aerogeneradores que se siluetan contra el sol poniente. Las montañas proyectan un telón de fondo para una mezcla de campos y rascacielos agrupados. Tuve el honor de conocer a muchas personas del ecosistema de IA que conocía de lejos, y me recibieron con grandes sonrisas y alegría, recordándome lo global que es mi trabajo y el ecosistema de IA.

La mentalidad de los investigadores chinos

Las empresas chinas que construyen modelos de lenguaje están configuradas como las seguidoras perfectas de la tecnología, basándose en tradiciones culturales de larga data en la educación y el trabajo, junto con enfoques sutilmente diferentes para construir empresas tecnológicas. Si miras los resultados, los modelos más recientes y más grandes que permiten flujos de trabajo agentes, y los ingredientes, científicos excelentes, datos a gran escala y computación acelerada, los laboratorios chino y estadounidense se parecen en gran medida. Las diferencias duraderas emergen en cómo se organizan y condicionan.

Siempre he pensado que una de las razones por las que los laboratorios chinos son tan buenos poniéndose al día y al ritmo de la frontera es porque están culturalmente alineados para esta tarea, pero sin hablar directamente con la gente sentí que no era mi lugar atribuir una influencia sustancial a esta corazonada. Hablar con muchos científicos maravillosos, humildes y abiertos en los principales laboratorios chinos ha cristalizado muchas de mis creencias.

Gran parte de la construcción de los mejores LLMs hoy en día se debe a un trabajo meticuloso en toda la pila, desde los datos hasta los detalles de la arquitectura e implementaciones de algoritmos RL. Todos los puntos del modelo pueden aportar algunas mejoras, y encajarlos entre sí es un proceso complejo en el que el trabajo de algunos individuos brillantes debe quedar de lado en favor de que el modelo global maximice una optimización multiobjetivo.

Donde los investigadores estadounidenses también son obviamente brillantes resolviendo los componentes individuales, en EE. UU. existe una cultura más de defenderse. Como científico, tienes más éxito cuando defiendes tu trabajo y la cultura moderna está impulsando el nuevo camino hacia la fama de los “científicos líderes en IA”. Esto da lugar a un conflicto directo. Se rumorea mucho que la organización Llama se ha desmoronado bajo el peso político de estos intereses, que se han arraigado en una organización jerárquica. He oído de otros laboratorios decir que puede ser necesario sobornar a un investigador de primer nivel para que deje de quejarse de que su idea no llega al modelo final. Sea o no exactamente cierto, la idea está clara. El ego y los deseos de progreso profesional sí que dificultan crear los mejores modelos. Un pequeño cambio de dirección en este tipo de cultura entre EE. UU. y China puede tener un impacto significativo en los resultados finales.

Parte de esto tiene que ver con quién construye los modelos en China. Hay una realidad inmediata en todos los laboratorios de que una gran proporción de los colaboradores principales son estudiantes activos. Los laboratorios son bastante jóvenes y me recuerda a nuestro entorno en Ai2, donde los estudiantes son vistos como compañeros e integrados directamente en el equipo de LLM. Esto es increíblemente diferente de los mejores laboratorios de EE.UU., donde OpenAI, Anthropic, Cursor, etc., simplemente no ofrecen prácticas. Otras empresas como Google tienen prácticas relacionadas con Gemini, pero hay mucha preocupación sobre si tu práctica estará aislada y alejada de algo real.

Para resumir cómo el pequeño cambio cultural puede mejorar la capacidad para construir modelos:

Más disposición a hacer trabajos poco llamativos para mejorar el modelo final,
Las personas nuevas en la construcción de IA pueden liberarse de fases previas de ciclos de hype de IA, lo que les permite adaptarse más rápido a las nuevas técnicas modernas (de hecho, uno de los científicos chinos con los que hablé realmente se aferró activamente a esta fortaleza).
Menos que los organigramas que faciliten el ego escalen un poco, ya que hay menos gamificación del sistema, y
Talento abundante bien adaptado para resolver problemas con una prueba de concepto en otro lugar, etc.

Esta ligera inclinación hacia habilidades que complementan la construcción de los modelos de lenguaje actuales contrasta con un estereotipo conocido de que los investigadores chinos tienden a producir investigaciones académicas menos creativas, de generación de campo y de tipo 0 a 1. Entre las visitas a laboratorios más académicos de nuestro viaje, muchos líderes hablan de cultivar esta cultura de investigación más ambiciosa. Al mismo tiempo, algunos líderes técnicos con los que hablamos eran escépticos sobre si una reestructuración del enfoque científico es probable a corto plazo, porque requerirá un rediseño de los sistemas educativos e incentivos que es demasiado grande para ocurrir dentro del equilibrio económico actual. Esta cultura parece estar formando a estudiantes e ingenieros que son excelentes en el mundo de la construcción de LLM. Además, por supuesto, tienen una cantidad extremadamente abundante.

Estos estudiantes me contaron sobre una fuga de cerebros similar que ocurre en China y en Estados Unidos, donde muchos que antes consideraban caminos académicos ahora tienen la intención de seguir en la industria. La cita más divertida fue de un investigador interesado en ser profesor para estar cerca del sistema educativo, pero comentó que la educación se resuelve con los LLM: “¿por qué iba a hablar un estudiante conmigo?”

Los estudiantes tienen la ventaja de llegar a los LLMs con una mirada fresca. En los últimos años hemos visto cómo el paradigma clave de los LLMs ha pasado de escalar los MoE, a escalar RL, y luego a habilitar agentes. Hacer bien cualquiera de estos aspectos implica absorber una cantidad increíble de contexto rápidamente, tanto de la literatura general como de la pila técnica de tu empresa. Los estudiantes están acostumbrados a hacer esto y están entusiasmados por dejar humildemente atrás todas las suposiciones sobre lo que debería funcionar. Se lanzan de cabeza y dedican su vida a tener la oportunidad de mejorar a los modelos.

Estos estudiantes también son mágicamente directos y libres de parte del discurso filosófico que puede distraer a los científicos. Cuando se preguntan cómo se sienten respecto a la economía o los riesgos sociales a largo plazo de los modelos, muchos menos investigadores chinos tienen opiniones sofisticadas y un impulso por influir en esto. Su papel es construir el mejor modelo.

Esta diferencia es sutil y fácil de negar, pero se nota mejor cuando se mantienen largas conversaciones con un investigador elegante y brillante que puede comunicarse claramente bien en inglés; preguntas básicas sobre aspectos más filosóficos de la IA flotan en el aire con una simple confusión. Para ellos es un error de categoría. Un investigador incluso citó la famosa premisa de Dan Wang de que China está dirigida por ingenieros, en comparación con los abogados estadounidenses al investigar en estas áreas, para enfatizar su deseo de construir. No hay ninguna pista en China que permita sistemáticamente el crecimiento del poder estelar para los científicos chinos, como mega podcasts mainstream como Dwarkesh o Lex.

Intentar que los científicos chinos comentaran sobre la inminente incertidumbre económica impulsada por la IA, preguntas más allá de las capacidades de la IAG simple o debates morales sobre cómo deberían comportarse los modelos sirvió para captar la extrema humildad de estos científicos. Es más que estar dedicados a su trabajo, sino que no quieren comentar sobre temas sobre los que no están informados.

Ampliando la vista: Pekín especialmente se sentía mucho como el Área de la Bahía, donde un laboratorio competitivo está a un corto paseo o a un Uber. Bajé de un vuelo y paré en el campus de Pekín de Alibaba de camino al hotel. Luego, en 36 horas, fuimos a todo Z.ai, Moonshot AI, la Universidad de Tsinghua, Meituan, Xiaomi y 01.ai. Viajar por Didi es fácil, y si eliges una XL en China a menudo te combinan con furgonetas eléctricas que tienen sillas de masaje. Preguntamos a los investigadores sobre las guerras de talento, y nos dijeron que es muy similar a lo que estamos viviendo en Estados Unidos. Es normal que los investigadores vayan de un lado a otro, y gran parte de lo que la gente decide hacer depende de las mejores vibraciones actuales.

En China, la comunidad LLM se siente mucho más como un ecosistema que como tribus en batalla. En muchas conversaciones fuera de registro, no es más que respeto hacia los compañeros. Todos los laboratorios chinos temen a Bytedance con su popular modelo Dubao, que es el único laboratorio cerrado en la frontera en China. Al mismo tiempo, todos los laboratorios tienen un enorme respeto por DeepSeek como el laboratorio con mejor gusto en la ejecución en la investigación. Cuando te reúnes con miembros del laboratorio de forma extraoficial en Estados Unidos, las chispas saltan rápidamente.

Lo más llamativo de la humildad de los investigadores chinos es cómo a menudo se encogen de hombros ante los aspectos comerciales, diciendo que no es su problema, mientras que en Estados Unidos todos parecen obsesionados con diversas tendencias industriales a nivel de ecosistema, desde vendedores de datos hasta computación o captación de fondos.

En qué se diferencia (y en qué se asemeja) la industria de la IA en China a los laboratorios occidentales
Lo que hace que la creación de un modelo de IA hoy en día sea tan interesante es que no se trata solo de reunir a un grupo de grandes investigadores en un mismo edificio para crear una maravilla de la ingeniería. Antes era así, pero para que las empresas de IA sean sostenibles, los programas de maestría en derecho (LLM) se están convirtiendo en una combinación de desarrollo, implementación, financiación y adopción de esta creación. Las empresas líderes en IA operan en ecosistemas complejos que proporcionan dinero, computación, datos y más para seguir impulsando la frontera.

La integración de estos diversos insumos para la creación y el mantenimiento de modelos de aprendizaje automático (MLA) está bastante bien conceptualizada y definida para el ecosistema occidental, como lo ejemplifican Anthropic y OpenAI. Por lo tanto, encontrar grandes diferencias en la forma en que los laboratorios chinos lo abordan indica dónde las distintas empresas pueden estar apostando de manera significativamente diferente hacia el futuro. Por supuesto, estos futuros pueden verse fuertemente condicionados por las limitaciones de financiación y/o capacidad de procesamiento.

He documentado las principales conclusiones a nivel de la “Industria de la IA” tras hablar con estos laboratorios:

Primeros indicios de demanda interna de IA. Existe la hipótesis, muy extendida, de que el mercado chino de IA será más pequeño porque las empresas chinas no suelen pagar por el software, lo que impide que se desarrolle un mercado de inferencia gigante que apoye a los laboratorios. Esto solo es cierto para el gasto en software vinculado al ecosistema SaaS, que históricamente ha sido muy pequeño en China, donde, por otro lado, obviamente sigue existiendo un gran mercado de computación en la nube. Una pregunta crucial sin respuesta —que los propios laboratorios chinos debaten— es si el gasto en IA en las empresas sigue la tendencia del mercado SaaS (pequeño) o del mercado de la nube (fundamental). En general, parece que la IA se acerca cada vez más a la nube, y nadie parecía preocupado por el crecimiento de un mercado en torno a las nuevas herramientas.

La mayoría de los desarrolladores están fascinados con Claude. La mayoría de los desarrolladores de IA en China están obsesionados con Claude y cómo ha transformado su forma de desarrollar software, a pesar de que Claude está nominalmente prohibido en China. El hecho de que China haya sido históricamente reacia a comprar software no me hace pensar que no vaya a haber un aumento masivo en la demanda de inferencia. El personal técnico chino es muy práctico, humilde y motivado, un hecho que parece más fuerte que cualquier apego a hábitos anteriores de no gastar.

Algunos investigadores chinos mencionan el desarrollo con sus propias herramientas, como las CLI de Kimi o GLM, pero todos mencionan el desarrollo con Claude. También hubo sorprendentemente pocas menciones de Codex, que sin duda está ganando popularidad en el Área de la Bahía.

Las empresas chinas tienen una mentalidad de propiedad tecnológica. La cultura china, combinada con una economía pujante, genera resultados impredecibles. Me queda la impresión de que los numerosos modelos de IA reflejan un equilibrio práctico y actual entre las muchas empresas tecnológicas del país. No existe un plan maestro. La industria se define por el respeto hacia ByteDance y Alibaba, las empresas consolidadas que, con sus considerables recursos, se espera que dominen gran parte del mercado. DeepSeek es el líder técnico reconocido, pero dista mucho de ser líder de mercado. Marcan la pauta, pero no están preparadas para el éxito económico.

Esto deja a empresas como Meituan o Ant Group, donde en Occidente puede sorprenderse de que estén desarrollando estos modelos. En realidad, consideran que los modelos de aprendizaje automático son fundamentales para los futuros productos tecnológicos, por lo que necesitan una base sólida. Al perfeccionar el modelo robusto y de propósito general, protegen su infraestructura de la retroalimentación de la comunidad abierta y pueden mantener versiones internas optimizadas del modelo para sus productos. La mentalidad de “código abierto” en la industria se define principalmente por su practicidad: ayuda a que sus modelos reciban una sólida retroalimentación, contribuye a la comunidad de código abierto y fortalece su misión.

La ayuda gubernamental es real, pero su magnitud no está clara. A menudo se afirma que el gobierno chino está apoyando activamente la carrera por el desarrollo de la maestría en derecho (LLM) de código abierto. Se trata de un gobierno descentralizado en múltiples niveles, cada uno de los cuales carece de un plan de acción definido. Los barrios de Pekín compiten por atraer a empresas tecnológicas para que instalen sus oficinas. La “ayuda” ofrecida a estas empresas casi con certeza consistió en eliminar trámites burocráticos como los permisos, pero ¿hasta dónde llega? ¿Pueden los distintos niveles de gobierno ayudar a atraer talento? ¿Pueden ayudar a introducir chips de contrabando? Durante la visita, se mencionaron en numerosas ocasiones el interés o la ayuda del gobierno, pero la información fue demasiado escasa como para poder ofrecer detalles concluyentes o tener una visión clara de cómo el gobierno puede influir en el desarrollo de la IA en China.

Desde luego, no hubo indicios de que los altos mandos del gobierno chino influyeran en ninguna decisión técnica.

RELACIONADAS NUVE

La revolución de la inteligencia artificial en la investigación del cáncer

¿La inteligencia artificial también es cosa de mayores?

La inteligencia artificial podría transformar la atención sanitaria

La mentalidad de los investigadores chinos

Notas desde dentro de los laboratorios de IA de China

Lecciones de mi viaje para hablar con la mayoría de los principales laboratorios de IA en China.

La mentalidad de los investigadores chinos

Relacionado

Leave a Comment Cancel Reply

La mentalidad de los investigadores chinos

Lecciones de mi viaje para hablar con la mayoría de los principales laboratorios de IA en China.

La mentalidad de los investigadores chinos

Relacionado

VIVIENDA CONSTITUCIONAL AUTOSUFICIENTE

Le dijeron que en México tenía que ser cortés, pero no lo captó

Leave a Comment Cancel Reply