Google acaba de cruzar una línea que redefine el papel de la inteligencia artificial en la vida digital. Su nueva tecnología, Gemini 2.5 Computer Use, puede navegar por Internet, rellenar formularios y pulsar botones de forma autónoma. No se trata de un chatbot más, sino de un agente capaz de “moverse” por la web como lo haría una persona real. Esto marca el comienzo de una nueva era en la automatización inteligente.
Una IA que ya entiende la web como tú (y quizá mejor)
Gemini 2.5 Computer Use no responde solo con texto. Actúa.
Este nuevo modelo de Google, basado en Gemini 2.5 Pro, introduce una capa completamente nueva de interacción: la capacidad de controlar interfaces reales. Puede navegar sitios web, hacer clic en enlaces, escribir en formularios o desplazarse por páginas, todo a partir de un simple comando en lenguaje natural.
A diferencia de otros sistemas que simulan acciones, Gemini 2.5 se ejecuta dentro de un entorno de navegador virtual. Toma decisiones paso a paso gracias a un bucle de retroalimentación: analiza capturas de pantalla, recuerda su historial de acciones y elabora la siguiente. Si el usuario pide “reserva un vuelo a Madrid”, el agente buscará la web, introducirá los datos y completará el proceso.
En pruebas internas, Google ha mostrado al modelo resolviendo tareas complejas como jugar 2048. También lo ha mostrado navegando tiendas online o incluso superando captchas simples, algo que tradicionalmente separaba a los humanos de los bots.
Por ahora, esta tecnología se limita al entorno Google AI Studio y Vertex AI, destinada a desarrolladores. Sin embargo, su impacto es evidente: abre la puerta a asistentes que completan tareas reales, desde automatizar registros hasta mantener tu bandeja de entrada limpia sin tocar el teclado.
Entre la ciencia ficción y la precaución: el reto del control
La ambición detrás de Gemini 2.5 es clara: crear un agente que entienda y manipule el mundo digital con autonomía. Sin embargo, Google sabe que un poder así también plantea riesgos de seguridad.
El modelo incorpora limitaciones integradas que impiden acciones de alto riesgo, como alterar sistemas, acceder a datos personales o eludir captchas sin permiso.
Lo interesante es que esta misma tecnología ya se usa dentro de Google para acelerar pruebas de software y depuración de interfaces. Esto es una pista de su potencial empresarial.
Frente a rivales como OpenAI o Anthropic, que experimentan con asistentes similares de escritorio, Google ha optado por centrarse en el entorno web. Es un espacio más controlado pero igual de versátil.
El resultado es un modelo que combina eficiencia, velocidad y comprensión contextual. Está preparado para convertirse en la mano invisible que gestionará gran parte de nuestras tareas cotidianas.
Porque si hasta ahora pedíamos a la IA que respondiera, pronto le pediremos que actúe por nosotros.
Puedes seguir a HardwarePremium en Facebook, Twitter (X), Instagram, Threads, BlueSky o Youtube. También puedes consultar nuestro canal de Telegram para estar al día con las últimas noticias de tecnología.