No passado, a busca pela privacidade era um jogo de soma zero, tudo ou nada. A melhor forma de proteger os dados era trancar esses dados por trás de um algoritmo de criptografia, atrás de firewalls seguros guardados com n fatores de autenticação.

Nos últimos anos, algumas empresas estão adotando uma abordagem oposta, deixando os dados livres mas apenas depois de serem alterados ou misturados em dados randômicos. Esses algoritmos, chamados de differential privacy, adicionam confusão/ruído suficiente que tornam impossível ou muito difícil que um atacante consiga pinçar os dados pessoais de um indivíduo dentro de um oceano de dados.

A estratégia é motivada pela realidade de que dados trancados em um cofre matemático não podem ser usados para pesquisas científicas, agregados para análise estatística ou analisados por algoritmos de machine learning. Um bom algoritmo de differential privacy pode abrir possibilidades em todas essas frentes e mais. Ele torna o compartilhamento mais simples e seguro.

Proteger a informação misturando dados fakes tem uma longa tradição. Cartógrafos, por exemplo, adicionavam cidades falsas ou ruas inexistentes para identificar plágio. A differential privacy pode ter seu início traçado a partir de 2006, quando um paper científico determinou algumas abordagens mais rigorosas para determinar esse tipo de técnica.

O interesse nesses algoritmos está crescendo porque novas ferramentas estão surgindo. O Google, por exemplo, recentemente lançou uma coleção de algoritmos de differential privacy em C++, Go e Java. A Microsoft tornou open-source uma livraria baseada em Rust com Python chamado SmartNoise para permitir análise via machine learning e análises estáticas. O TensorFlow, um dos machine-learning mais populares, oferece algoritmos que guardam a privacidade de alguns conjuntos de dados. Eles trabalham como parte do OpenDP, um drive maior criado para integrar uma coleção de ferramentas sob um guarda-chuva open-source. 

Um exemplo do mundo real é o Censo dos Estados Unidos. Pela lei, os dados pessoais obtidos no censo de lá devem permanecer 72 anos sem serem abertos. Contudo, muitas pessoas e empresas usam o censo para planejamento, orçamento e tomada de decisão para negócios. Por isso, o censo neste ano está distribuindo as informações em blocos, injetando ruído e adicionando proteção pelo Disclosure Avoidance System.

Todo esse trabalho significa que está mais fácil do que nunca para os desenvolvedores e empresas adicionarem essa abordagem. Decidir quando uma camada adicional de ruído e código tem sentido requer balancear as vantagens com os custos e limitações. Para simplificar, vamos falar a seguir de prós e contras do differential privacy em casos de uso.

 

Compartilhamento e Colaboração

Prós

Compartilhamento é essencial. Mais e mais projetos dependem de colaboração. Mais e mais computação é feita pela nuvem. Encontrar bons algoritmos para proteger a privacidade torna possível que mais pessoas e parceiros consigam trabalhar com os dados sem vazar informações pessoais. Adicionar uma camada de ruído também adiciona mais segurança.

 

Contras

Compartilhar dados ruins é uma boa solução? Sem dúvidas, compartilhar dados é bom, mas compartilhar a informação errada ajuda? Os algoritmos de differential privacy funcionam porque adicionam ruído, que nada mais é do que uma forma elegante de se dizer “erros”. Alguns algoritmos complexos não conseguem navegar em meio a esse ruído. Também, quando o conjunto de dados é pequeno, os efeitos de adicionar ruído aos dados podem trazer distorções significativas para as análises.

 

Permitir o Machine Learning

Prós

Machine Learning precisa de dados. Se nós quisermos explorar o potencial do machine learning e inteligência artificial, precisamos fornecer dados suficientes para que exista o aprendizado. Quanto mais dados, e mais precisos, são fornecidos, melhores os algoritmos ficam. A differential privacy pode acabar sendo a única solução se queremos entregar enormes conjuntos de dados pela web para algum algoritmo especializado de machine learning.

 

Contras

O ruído pode ter efeitos desconhecidos. Algoritmos de machine learning podem parecer mágica, e assim como os mágicos, eles se recusam a revelar o segredo dos truques e o motivo pelo qual o modelo está tomando as decisões. O mistério se torna problemático quando os dados entregues possuem ruído, sendo às vezes impossível saber se o ruído nos dados está causando algum problema.

 

Novas formas de proteger os dados

Prós

Differential Privacy é uma abordagem filosófica. Não é um algoritmo específico. Existem dezenas de algoritmos e pesquisadores melhorando e criando novas abordagens todos os dias. Alguns vão de encontro à definições matemáticas precisas, outros possuem métodos mais “relaxados”.

 

Contras

Sem garantias. A visão da differential privacy não entrega garantias totais, apenas garantias estatísticas que diferenciam entre os dados reais e o ruído. Dessa forma, alguma informação verdadeira vai vazar e o ruído pode acabar não vazando. Mas pelo menos estatisticamente saberemos quanto da informação está realmente vazando.

 

As grandes mudanças são filosóficas

No passado, proteger a privacidade requeria pensar como um médico, munido de um mandato para tomar medidas extremas e defender contra os vazamentos a qualquer custo. A differential privacy requer pensar como um general que defende uma cidade. Existem perdas gerenciáveis e aceitáveis de informação. O objetivo é limitar as perdas o máximo possível enquanto é possível continuar fazendo bom uso dos dados.

O maior desafio para as empresas e desenvolvedores continuará ser trabalhar com um entendimento matemático em rápida evolução. A ideia de adicionar ruído é inteligente e possui potencial, mas os detalhes ainda estão sendo explorados.