Google potencia Gemini Flash con agentes IA que controlan tu pantalla automáticamente

Google integró en su modelo Gemini 3.5 Flash la capacidad de controlar navegadores, móviles y escritorio de forma autónoma. Los desarrolladores ahora pueden crear agentes IA personalizados que ven interfaces, razonan y actúan sin intervención humana. La compañía implementó medidas de seguridad para evitar inyecciones de código malicioso en estas tareas automatizadas.
Imagina un programa que puede navegar por tu pantalla, hacer clic en botones, llenar formularios y tomar decisiones sin que tú hagas nada. Google acaba de hacer eso más fácil para los desarrolladores. La compañía integró directamente en Gemini 3.5 Flash una función que antes era independiente: la capacidad de que la inteligencia artificial controle navegadores, aplicaciones móviles y computadoras de escritorio de forma completamente autónoma.
¿Qué significa esto en la práctica? Los desarrolladores pueden crear agentes IA personalizados que no solo leen lo que ves en pantalla, sino que interactúan con ello como lo haría un humano: escriben texto, hacen clic, se desplazan por menús. Todo sin tu intervención directa. Google lo explica con ejemplos útiles: un agente que analiza una aplicación en tu celular y devuelve una lista organizada de sus funciones, o uno que revisa documentos para detectar problemas de accesibilidad.
Para empresas, esto abre puertas a automatizaciones que antes eran complicadas. Pruebas de software continuas, auditorías de documentos, tareas repetitivas en aplicaciones profesionales: todo podría manejarse con agentes autónomos. Es la versión "del mejor rendimiento", como la describió Google en su comunicado oficial.
Pero aquí viene lo importante: cuando das a la inteligencia artificial el poder de controlar tu pantalla, abres la puerta a riesgos. Alguien podría intentar inyectar código malicioso para que el agente haga cosas que no quieres. Google no ignoró esto. La compañía usó "entrenamiento adversario dirigido" para entrenar Gemini 3.5 Flash contra esos ataques, es decir, entrenaron el modelo enfrentándolo a intentos de ataque para que aprendiera a defenderse.
Además, implementó dos capas de protección específicas para empresas. Primero, una opción que pide confirmación explícita del usuario antes de que el agente ejecute acciones delicadas o que no se pueden deshacer. Segundo, una configuración que detiene automáticamente la tarea si detecta un intento directo de inyección. Google también recomienda a los desarrolladores usar "defensa en profundidad": combinar estas protecciones con ambientes aislados, verificación humana y controles de acceso muy estrictos.
La función ya está disponible para los desarrolladores a través de la API de Gemini y la plataforma Gemini Enterprise Agent. Si trabajas en desarrollo o en empresas que usan automatización, vale la pena revisar cómo esto podría acelerar procesos que hoy haces manualmente.
Fuente original: El Colombiano - Tecnología


