Tu robot no puede ser inteligente, rápido y libre. La evolución ya resolvió eso.

      Aquí hay una restricción que casi nadie que construye IA física dice en voz alta, aunque cada uno de ellos está luchando en silencio contra ella. La inteligencia de un robot quiere tres cosas a la vez. Quiere ser inteligente, lo que significa que puede razonar al nivel de un modelo de frontera sobre una escena desconocida. Quiere ser rápido, lo que significa que responde dentro del tiempo ajustado y determinista que exige un bucle de control físico. Y quiere ser libre, lo que significa que sigue funcionando cuando la red se cae, el Wi-Fi del almacén muere o la máquina va a un lugar donde no llega señal. No puedes tener las tres en una sola pieza de computación. Elige cualquier dos. Para ser precisos, la autonomía limitada ya funciona. Los brazos industriales, los drones y los apilamientos de autonomía restringida pueden ser rápidos y estar fuera de línea porque sus tareas son estrechas. El trilema muerde en la frontera: no puedes poner razonamiento general a escala de frontera, respuesta determinista en tiempo real y plena autonomía fuera de línea en el mismo sustrato limitado en potencia, no para el mismo bucle de control. Un modelo a escala de frontera es inteligente, y si transmites sus sensores a un centro de datos, incluso puede ser rápido, pero ahora está atado a una red y ya no es libre. Reduce ese modelo hasta que quepa en un módulo embebido de 15 vatios y se vuelve rápido y libre, pero ya no es inteligente a nivel de frontera. Ejecuta el gran modelo en la nube y consúltalo solo ocasionalmente, y obtienes inteligente y libre, pero nunca rápido. Tres esquinas, dos disponibles a la vez. He llegado a pensar en esto como el trilema encarnado, y es la verdadera razón por la que la pregunta de borde/nube es la decisión arquitectónica más difícil en robótica. La mayoría de los equipos lo tratan como un detalle de implementación. Está más cerca de ser una ley.

      Por qué no puedes engañar al triángulo El trilema no es una moda o una limitación temporal de hardware que puedes esperar. Surge directamente de la física y los presupuestos de energía. La calidad del razonamiento de frontera actualmente vive en modelos que requieren decenas de gigabytes de memoria y aceleradores de clase de centro de datos. Ese hardware no funciona con una batería que un robot móvil pueda llevar. Así que "inteligente" impone una elección: o llevas el centro de datos al robot a través de un enlace de red, lo que sacrifica la libertad, o aceptas un modelo más pequeño a bordo, lo que sacrifica la inteligencia. El control en tiempo real es aún menos negociable. Un viaje de ida y vuelta de red de área amplia añade de 30 a 100 milisegundos de latencia, y la varianza importa más que el promedio. Un bucle de control que generalmente es rápido pero ocasionalmente se detiene es peor que uno que es medianamente confiable, porque los controladores están ajustados para un tiempo determinista. En el momento en que "rápido" depende de una red, has renunciado a "libre", porque la red ahora está dentro de tu bucle de control, ya sea que lo quisieras o no. Así que el triángulo se mantiene. La cuantización, la destilación y mejores aceleradores mueven las esquinas, pero no las colapsan. Cualquiera que afirme lo contrario generalmente está ocultando qué esquina renunció.

      Poniendo números en el triángulo Ayuda hacer la restricción cuantitativa, porque en el momento en que escribes el tiempo, las esquinas dejan de ser abstractas. Comienza con la latencia. El retraso de extremo a extremo de una decisión de percepción a acción tomada en la nube es una suma de términos: Lcloud = tcapture + tencode + tuplink + tinference + tdownlink + tdecode Ejecuta la misma decisión a bordo y la mayor parte de esa suma desaparece: Ledge = tcapture + tinference,local La diferencia entre los dos no es el tiempo de inferencia, que en realidad puede ser menor en la nube con mejor hardware. La diferencia es la red, tuplink + tdownlink, y más importante, su varianza. Un setup de robótica en la nube medido a través de un enlace por cable rápido vio viajes de ida y vuelta de aproximadamente 30 milisegundos, mientras que las implementaciones del mundo real comúnmente se sitúan en el rango de 100 a 300 milisegundos, y los enlaces inalámbricos oscilan mucho más alto. El procesamiento en el borde, por el contrario, reduce los viajes de ida y vuelta a 1 a 5 milisegundos porque nada sale de la máquina. Ahora establece la regla que decide dónde puede vivir un bucle. Un bucle de control con un presupuesto de tiempo Lbudget puede ejecutarse en un camino de computación dado solo si Lpath + k·σjitter ≤ Lbudget donde σjitter es la desviación estándar de la latencia del camino y k es el factor de seguridad que necesitas para el determinismo. Ese término k·σjitter es el asesino silencioso. Los estudios de teleoperación son contundentes al respecto: un enlace que mantiene 100 milisegundos constantes es viable, pero uno que oscila entre 30 y 200 milisegundos produce un movimiento brusco e impredecible, porque el controlador no puede planificar alrededor de un retraso que no puede predecir. El presupuesto del bucle reflejo es de 1 a 10 milisegundos. Ningún camino de área amplia satisface la desigualdad. Las matemáticas, no el arquitecto, lo prohíben.

      Bucle de control Presupuesto de tiempo Camino a bordo (~1-5 ms) Camino de área amplia (~30-300 ms)

      Reflejo (control motor, parada de emergencia) 1-10 ms Viable Imposible

      Percepción (detección, seguimiento, SLAM) 30-100 ms Viable Marginal, falla en jitter

      Deliberación (planificación, lenguaje) 1-10 s Viable Viable (asincrónico)

      La tabla es el argumento en una vista. El reflejo nunca supera un viaje de ida y vuelta de red. La percepción solo lo supera en enlaces inusualmente buenos. La deliberación tiene presupuesto de sobra, por eso puede vivir en la nube de manera asincrónica. El ancho de banda cierra el caso para la percepción. Una sola cámara 1080p a 30 fotogramas por segundo produce video en bruto a 1920 × 1080 × 3 bytes × 30, que es aproximadamente 1.5 gigabits por segundo. Un modesto equipo de cuatro cámaras más profundidad supera los 6 gigabits por segundo de datos de sensor en bruto. Puedes comprimirlo, pero la compresión cuesta latencia y el enlace aún tiene que transportarlo de manera confiable, a donde sea que vaya el robot. La percepción en el borde es la versión robótica de ese movimiento. Comprime a una representación semántica en el lugar; nunca envíes la transmisión en bruto. Finalmente, la economía, que es solo el trilema con un signo de dólar. La computación a bordo es un costo de capital único. El razonamiento en la nube es un costo operativo que se acumula con cada consulta: Ccloud(t) = r·ctoken·t donde r es la tasa de consulta y ctoken el precio por token, contra un Cedge plano = Ccapex. Las dos líneas se cruzan en t* = Ccapex / (r·ctoken). Envía treinta fotogramas por segundo a un modelo en la nube y t* llega casi de inmediato, por lo que el costo en la nube domina la vida útil de la flota. Rutea solo unas pocas consultas de clase deliberativa por minuto hacia arriba y t* se aleja en el horizonte.

      Estrategia Lo que va hacia arriba Forma de costo Punto de equilibrio t*

      Transmitir todo ~30 fotogramas/seg a un modelo en la nube Opex lineal empinada Casi inmediata

      Rutar solo deliberación Unas pocas consultas/min Opex lineal suave Pasada la vida útil de la flota

      Totalmente a bordo Nada Costo de capital único, plano Nunca cruzado

      El mismo hardware, los mismos modelos, economías opuestas, decididas enteramente por qué bucle colocaste en qué esquina. La brecha no es sutil: una sola cámara transmitida a un modelo de visión en la nube a 30 fotogramas por segundo está en el orden de un millón de llamadas de inferencia al día por robot, mientras que enrutar solo consultas de clase deliberativa hacia arriba podría ser unas pocas cientos. A través de una flota, esa es la diferencia entre que la inferencia en la nube sea un error de redondeo y ser la línea más grande en el presupuesto operativo. La escapatoria que nadie diseñó, porque la biología lo hizo primero Aquí está la parte que encuentro hermosa, y el corazón de lo que quiero argumentar: la forma de salir del trilema encarnado no es resolverlo. Es negarse a responderlo en un solo punto. Tu propio cuerpo está construido de esta manera, y lo ha estado durante aproximadamente medio billón de años. Cuando tocas una est

Otros artículos

¿Esperando tu Framework Laptop 13 Pro? Tendrás que esperar un poco más. Framework ha retrasado el Laptop 13 Pro aproximadamente un mes después de encontrar problemas con el panel táctil háptico y la pantalla. Esto es lo que sus clientes necesitan saber.

TikTok está probando llamadas de voz en los DMs, porque debes hablar donde haces doomscrolling. TikTok está probando las llamadas de voz en los mensajes directos, según capturas de pantalla compartidas por un usuario en X. Se informa que la función requerirá que ambos participantes sean amigos y ofrecerá una opción de "Silenciar llamadas" en la configuración de mensajes directos.

Tus facturas de ChatGPT podrían recibir pronto un drástico recorte de precios. OpenAI está considerando drásticos recortes de precios mientras compite con Anthropic por clientes. Con las empresas dudando ante los costos de la IA y Google reduciendo precios a ambos, tus facturas de IA podrían finalmente hacerse más pequeñas.

Intel detalla el Proyecto Firefly y cómo está impulsando laptops asequibles para desbancar al MacBook Neo. El Proyecto Firefly de Intel quiere hacer que las laptops económicas sean emocionantes nuevamente con diseños delgados de metal, larga duración de la batería y trucos ingeniosos del mundo de los teléfonos que mantienen los precios bajos.

Tu robot no puede ser inteligente, rápido y libre. La evolución ya resolvió eso. La inteligencia de un robot puede ser inteligente, rápida o libre de dependencia de red, pero nunca las tres a la vez. El trilema encarnado está anclado en la física, y la arquitectura que lo resuelve fue diseñada por la evolución hace quinientos millones de años.

Tu robot no puede ser inteligente, rápido y libre. La evolución ya resolvió eso.

La inteligencia de un robot puede ser inteligente, rápida o libre de dependencia de red, pero nunca las tres a la vez. El trilema encarnado está anclado en la física, y la arquitectura que lo resuelve fue diseñada por la evolución hace quinientos millones de años.