“La IA no tiene hambre, no tiene miedo y eso la separa de los humanos”
El divulgador de tecnología Gustavo Entrala hizo un sencillo experimento: preguntó a ChatGPT cuántos rotuladores y bolígrafos había sobre su mesa. A ojo, vemos seis rotuladores de colores y un par de bolígrafos negros. Ocho objetos, nada del otro mundo. Pero la IA —aunque parece saberlo todo— no pudo dar una respuesta fiable. Ese fallo, aparentemente menor, revela una limitación profunda. Como dice Entrala en su vídeo: “Las IA se equivoca al interpretar lo que tienen delante”.
Al mismo tiempo, en otro laboratorio, una persona con parálisis cocinaba sukiyaki usando solo su mente. Sensores en su cuero cabelludo captaban las señales eléctricas de su cerebro. Un modelo de IA interpretaba esas señales y controlaba un brazo robótico que manipulaba los ingredientes. Entre esos dos escenarios —uno banal, otro casi de ciencia ficción— “hay un mundo, hay un abismo”, según señala el propio Entrala.
¿Por qué esa diferencia tan grande entre las IA?
La respuesta está en lo que los investigadores llaman corporeidad o embodiment: la capacidad de estar físicamente en el mundo, de verlo, tocarlo, moverse por él y actuar en él. Los humanos nacemos con eso. La IA, no.
Hoy en día, los grandes modelos de lenguaje —como los de OpenAI, Google o Anthropic— son increíblemente hábiles con las palabras. Pueden redactar ensayos, explicar conceptos complejos o incluso imitar el estilo de un escritor. Pero no saben qué es una silla, ni cómo se coge una cuchara, ni qué significa “más al fondo del cajón”. Esas tareas requieren inteligencia espacial, no solo lingüística.
“Los animales, incluidos los humanos, somos un tipo de inteligencia que la naturaleza fue inventando poco a poco durante millones de años”, recuerda Andrej Karpathy en un tuit citado en el vídeo. “La evolución nos fue moldeando para sobrevivir… Y por eso sentimos miedo, sentimos hambre, sentimos cariño”. Esos impulsos no son accesorios: son la base de cómo interactuamos con el entorno. La IA, en cambio, no quiere nada. Solo está optimizada para producir respuestas que nos parezcan útiles o agradables.
Para avanzar, la investigación se ha volcado en lo que ahora se conoce como modelos del mundo (world models): sistemas de IA que no solo procesan lenguaje, sino que construyen representaciones internas del entorno físico. No se trata solo de “ver imágenes”, como hacen algunos modelos multimodales, sino de entender cómo los objetos se relacionan, cómo se mueven, qué propiedades tienen (peso, textura, fragilidad) y cómo actuar sobre ellos.
Lee también

Empresas y laboratorios de primer nivel ya trabajan en este salto:
- Marvel, desarrollado por la startup de la investigadora Fei-Fei Li (a menudo considerada “la madre de la visión por computadora”), convierte fotos o vídeos reales en entornos 3D navegables donde una IA puede “aprender a moverse” sin salir de la simulación.
- Cosmos, de NVIDIA, va un paso más allá: sus escenarios virtuales incluyen física realista. Si una caja cae al suelo, rebota o se desliza como lo haría en el mundo real. Esto permite entrenar robots para fábricas, almacenes o incluso hogares, sin riesgo de dañar equipos o personas.
- Sima 2, de DeepMind (Google), es una IA que aprende a completar misiones en mundos virtuales completamente nuevos, sin supervisión humana. No le dicen cómo moverse; lo descubre por sí misma, como haría un niño.
- En la Universidad de Toronto, investigadores han creado laboratorios autónomos donde la IA decide qué experimento hacer a continuación y robots lo ejecutan. Gracias a esto, un nuevo fármaco contra el cáncer se desarrolló en 30 días, frente a los años que suele tardar el proceso tradicional.
Aun así, el reto es monumental. Como señala uno de los investigadores en el vídeo: “Los objetos son muy, muy difíciles de aprender. Un solo objeto puede tener infinitas posibilidades en una imagen. Necesitas millones de ejemplos”.
Y no solo eso. El mundo no es estático. Cambia con la luz, el clima, la presencia de otras personas, el desgaste de los materiales. Capturar todo eso exige no solo datos, sino una arquitectura capaz de integrar percepción, razonamiento y acción.
Por eso, aunque ya vemos avances en conducción autónoma (Tesla, Waymo, Baidu) o en robótica industrial, los robots domésticos siguen siendo una promesa a medias. La empresa noruego-americana 1X Technologies vende un robot humanoide llamado Neo por 20.000 dólares, pero con una condición clave: siempre hay un operador humano supervisando sus acciones en tiempo real. No confían en que pueda actuar solo.
La diferencia de eficiencia también es abismal. “Nuestro cerebro funciona con 20 vatios… La IA necesita un gigavatio”, recuerda Entrala, destacando cuán optimizada está la biología frente a la computación actual.
Como concluye el vídeo: “Estamos bastante lejos de replicar o de clonar, por así decirlo, en una máquina las capacidades tan sorprendentes y tan limitadas que tiene un ser humano”.









