Segurança IA

OpenAI e Anthropic avaliaram os sistemas de IA um do outro para segurança

Tecnologia

Não é segredo que as empresas de IA estão geralmente lado a lado, agindo como rivais ferozes. No entanto, OpenAI e Anthropic fizeram recentemente algo inesperado: uniram-se para verificar a segurança dos sistemas de IA um do outro. É como duas fabricantes de automóveis concorrentes concordando em testar a segurança dos veículos uma da outra!

Embora os relatórios completos sejam bastante técnicos, vale a pena consultá-los se você gosta dos detalhes do desenvolvimento de IA. Em resumo, as análises revelaram algumas fraquezas nos sistemas de ambas as empresas e deram dicas sobre como melhorar os futuros testes de segurança.

A Anthropic analisou os modelos da OpenAI para coisas como "sycophancy" (basicamente, IA tentando demais agradar), denúncia, instintos de autopreservação e se eles poderiam ser usadospara fins prejudiciais. Eles descobriram que, embora os modelos mais antigos da OpenAI parecessem ok, havia preocupações sobre o possível uso indevido com os GPT-4o e GPT-4.1 mais avançados.

A Perspectiva da OpenAI

Por outro lado, a OpenAI testou os modelos da Anthropic para coisas como seguir as instruções corretamente, resistência ao "jailbreaking" (enganar a IA para fazer coisas que não deveria) e tendências a alucinar ou tramar. Os modelos Claude geralmente se saíram bem em seguir as instruções e foram bons em se recusar a responder quando não tinham certeza sobre algo, o que é uma vantagem.

Essa colaboração é interessante, especialmente considerando que a OpenAI supostamente quebrou as regras da Anthropic ao usar Claude durante o desenvolvimento de novos modelos GPT. Isso supostamente levou a Anthropic a bloquear o acesso da OpenAI às suas ferramentas no início de junho.

À medida que a IA se torna cada vez mais integrada em nossas vidas, acho ótimo ver essas empresas levando a segurança a sério. Afinal, queremos que a IA seja uma ferramenta útil, não uma ameaça potencial.

Fonte: Engadget