Google cria plano para conter IAs caso agentes avancem além do controle humano
Novo roteiro da DeepMind trata sistemas de IA como potenciais ameaças internas e prevê monitoramento em tempo real para detectar comportamentos adversariais.
A proposta da companhia é tratar agentes de IA de maneira semelhante a funcionários internos potencialmente mal-intencionados. (Foto: Reprodução)
O Google DeepMind desenvolveu um novo plano de segurança para monitorar agentes de inteligência artificial cada vez mais sofisticados e evitar que sistemas avancem além do controle humano. A iniciativa, detalhada em um relatório técnico de 35 páginas e divulgada pela própria empresa, parte de uma premissa incomum no setor: a de que nem todos os problemas de alinhamento da IA poderão ser resolvidos.
Segundo reportagem da Fortune, o chamado “roteiro de segurança” representa uma mudança de abordagem em relação ao foco tradicional da indústria, concentrado em garantir que os modelos ajam de acordo com os objetivos, valores e instruções humanas.
“Se a primeira linha de defesa — o alinhamento — falhar, como ainda podemos mitigar os danos?”, questionou Rohin Shah, líder da equipe de Segurança e Alinhamento de AGI do Google DeepMind, em entrevista à Fortune.
A proposta da companhia é tratar agentes de IA de maneira semelhante a funcionários internos potencialmente mal-intencionados. Para isso, o plano adota conceitos já utilizados na cibersegurança corporativa, como controle rigoroso de acesso, monitoramento constante de atividades e identificação de comportamentos anômalos.
A preocupação cresce à medida que agentes de IA ganham autonomia para executar tarefas complexas, acessar bancos de dados, operar sistemas e tomar decisões sem supervisão constante. Segundo a DeepMind, essas ferramentas podem agir em velocidade e escala muito superiores às de um funcionário humano.
Por isso, a empresa defende mecanismos dinâmicos de controle de acesso. Em vez de permissões fixas, os agentes teriam autorizações ajustadas em tempo real, de acordo com a tarefa executada e o contexto operacional.
John “Four” Flynn, vice-presidente de Segurança e Privacidade do Google DeepMind, afirmou que o modelo tradicional de permissões pode deixar de funcionar em ambientes altamente automatizados.
Segundo ele, um mesmo agente poderá atuar simultaneamente em diferentes processos e funções dentro de uma organização, exigindo sistemas capazes de acompanhar cada ação individualmente.
Entre as medidas já em desenvolvimento está um sistema interno que monitora as atividades de agentes de programação e encaminha comportamentos suspeitos para revisão humana. De acordo com a empresa, a ferramenta já analisou cerca de um milhão de tarefas executadas por agentes de codificação.
O monitoramento permitiu, por exemplo, detectar situações como exclusões acidentais de dados e outros comportamentos considerados inadequados.
A DeepMind destaca, porém, que a maior parte dos alertas não envolve intenções maliciosas.
“A maioria dos eventos sinalizados não decorre de intenção adversarial”, afirmou a empresa em publicação sobre o projeto. Na maioria dos casos, os problemas surgem por “má interpretação do agente ou excesso de zelo para atingir o objetivo do usuário”.
O roteiro prevê cerca de 15 camadas de proteção diferentes. Entre elas estão registros detalhados de atividade, auditorias de rede, monitoramento de cadeias de raciocínio dos modelos e até a utilização de sistemas de IA mais simples para supervisionar agentes mais avançados.
Outra frente de pesquisa busca analisar padrões de ativação dos chamados “neurônios digitais” das redes neurais. A ideia é identificar sinais de comportamento enganoso antes que eles resultem em ações concretas. A DeepMind compara a técnica ao uso de exames de ressonância magnética funcional para tentar compreender pensamentos e emoções em humanos.
O documento também apresenta uma estrutura chamada TRAIT&R, inspirada na base ATT&CK, amplamente utilizada em cibersegurança. A taxonomia organiza três grandes categorias de risco: perda de controle dos sistemas, sabotagem de processos internos e danos diretos a ativos críticos.
Entre os cenários considerados estão a criação de implantações ocultas não monitoradas, interferências em pesquisas de segurança e alinhamento e até tentativas de acesso ou destruição de informações sensíveis.
Segundo Flynn, boa parte das medidas já está em fase avançada de implementação.
“Grande parte disso já está em andamento e parte já está em produção — muito em controle de acesso, detecção e monitoramento de cadeia de pensamento. Uma parcela significativa já foi implementada ou está em implementação”, afirmou à Fortune.
Para Shah, um dos maiores desafios será detectar formas mais sutis de comportamento nocivo.
“A sabotagem do trabalho pode ser feita por persuasão — apresentando resultados falhos e escondendo os defeitos”, disse o pesquisador. Nesse cenário, os usuários poderiam ser levados a “chegar a conclusões incorretas” sem perceber que foram influenciados por informações defeituosas.
Classificado pela DeepMind como uma versão inicial, o roteiro deverá ser ampliado e incorporado ao framework mais amplo de segurança da empresa para futuros sistemas de inteligência artificial avançada.