LGPD: Como o KNIME contribui na anonimização de dados

Início » LGPD: Como o KNIME contribui na anonimização de dados

LGPD: Como o KNIME contribui na anonimização de dados

A anonimização de dados tornou-se uma importante etapa em qualquer projeto que se manipulam dados, em função das novas regulamentações criadas para proteger dados, a LGPD.

Nesse artigo você verá como anonimização de dados pode ajudá-lo a se ajustar às novas regulamentações impostas pela nova Lei Geral de Proteção de Dados e descubra como a plataforma KNIME Analytics pode te auxiliar nesta importante tarefa.

Você será apresentado aos “nodes” KNIME, criados pela equipe da Redfield para auxiliar o atendimento dos requisitos de privacidade das leis de proteção de dados.

A falta de anonimização ou pseudonimização adequada gera riscos, e caso haja violação dos dados, grandes penalidades serão aplicadas. Saiba que, além de apoiar a anonimização de dados, o KNIME também possui nodes que avaliam e medem os riscos da técnica aplicada.

A anonimização de dados – por que é importante?

Estamos gerando e coletando quantidades cada vez maiores de dados. De fato o crescimento da capacidade de processamento computacional, a custos cada vez menores, como Moore observou, tem incentivado este processo.

Muitos destes dados são pessoais e precisam ser tratados com sensibilidade. Com a finalidade de regulamentar essa necessidade foram criadas leis como a GDPR na união européia e a LGPD no Brasil.

A única exceção às regras estabelecidas pela LGPD são os dados anonimizados. Porém, o que é um dado anonimizado? E como posso processar e tratar dados desta forma?

O que é anonimização de dados?

Conforme artigo 5 da LGPD dados anonimizados são “dados relativos a um titular que não possam ser identificados, considerando a utilização de meios técnicos razoáveis e disponíveis na ocasião de seu tratamento;”

Dados anonimizados são dados que passaram por uma série de processos e técnicas para quebra de sua associação com um indivíduo. Portanto, dados anonimizados não podem mais ser associados a nenhuma pessoa ou fazer-lhe dano.

Entretanto um dado só pode ser considerado anônimo quando não houver formas de se reverter o processo de anonimização. Se de alguma forma este processo puder ser desfeito, identificando-se o titular do dado, então estará sujeito a LGPD.

conforme o artigo 12 da Lei geral de proteção de dados (LGPD):

“Os dados anonimizados não serão considerados dados pessoais para os fins desta Lei, salvo quando o processo de anonimização ao qual foram submetidos for revertido, utilizando exclusivamente meios próprios, ou quando, com esforços razoáveis, puder ser revertido.”

Quando existir alguma forma da identificação e o processo ser desfeito, os dados são considerados pseudonimizados. Desta forma, todas as regras da LGPD são aplicáveis sobre os dados.

Pseudonimização de dados

Segundo o artigo 13 da LGPD pseudonimização é:

“a pseudonimização é o tratamento por meio do qual um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo, senão pelo uso de informação adicional mantida separadamente pelo controlador em ambiente controlado e seguro”

Quando existe uma chave ou ferramenta, mantida pelos responsáveis pela informação, que pode associar novamente os dados ao indivíduo original classificamos os dados como sendo pseudonimizados.

A pseudonimização fornece maior segurança aos dados em caso de eventuais vazamentos. Entretanto, não isenta de responsabilidade judicial em caso de vazamento da chave ou informação de decodificação.

Apesar disto, a aplicação da pseudonimização é essencial, como boa prática, trazendo assim uma camada extra de proteção a dados sensíveis.

Sobre anonimização de dados com Knime

Para apoiar no cumprimento da nova Lei Geral de proteção de dados, estamos trazendo, neste artigo, toda a funcionalidade existente em nodes em KNIME para o processo de anonimização de dados.

Vamos procurar detalhar de forma prática, node a node, os nodes à sua disposição para esta importante tarefa.

Node Anonymization

Utiliza técnica simples – hash; mas também podemos aplicar a salga (aqui: semente fixa) para tornar o anonimato mais seguro. Um benefício adicional dessa abordagem é que ela permite que você volte aos dados originais, pois a tabela de conversão está disponível na segunda porta de saída.

Node Create Hierarchy

A idéia de construir uma hierarquia é definir regras complexas de classificação com várias camadas que vão dos dados originais (dados não modificados) até camadas menos precisas onde os dados estão totalmente suprimidos.

Existem 4 tipos de hierarquias no ARX:

1- Hierarquias baseadas em datas: para dados de séries temporais.

2- Hierarquias baseadas em intervalos: para variável com uma escala de proporção.

3- Hierarquias baseadas em ordem: para variáveis com uma escala ordinal.

4- Hierarquias baseadas em máscaras: esse mecanismo de uso geral permite criar hierarquias para um amplo espectro de atributos, simplesmente substituindo os caracteres por “*”.

Node Hierarchy Reader

Este node é usado para ler arquivos de hierarquia criados anteriormente e atualizá-los de acordo com o conjunto de dados atuais. Esse é um requisito dos algoritmos ARX: mesmo que um novo conjunto de dados tenha a mesma estrutura (nomes de colunas e tipos de dados), ele ainda pode ter diferentes intervalos de valores, e é por isso que deve ser atualizado.

As configurações do node são bem diretas – selecione a coluna que será buscada pela hierarquia e forneça um caminho para um arquivo de hierarquia. O node é capaz de ler várias hierarquias por vez.

Node Hierarchical Anonymization

Agora vamos finalmente aplicar a anonimização hierárquica. Para isto precisaremos indicar a base de dados a ser anonimizada e configurar a hierarquia.

Este node por padrão rotula todas as colunas para serem identificadas. Se você quiser, pode alterar o tipo para quase identificação (opção Quasi identification nas configurações do node).

Existem três modos disponíveis para anonimização de dados: generalização, microagregação e clustering e microagregação. O modo padrão é generalização e a hierarquia é necessária apenas para isso; no entanto, para alguns atributos, usaremos a microagregação. Para o último modo, é necessário selecionar a função de agregação.

Configurações gerais

A guia chamada “Anonymization Configuration” contém configurações gerais, vamos ver algumas delas.

Particionamento – essa opção nos permite dividir o conjunto de dados em várias partições. Cada conjunto de dados é então anonimizado independentemente, usando as mesmas configurações de um novo thread. “Particionar por coluna” significa que você divide o conjunto de dados pelos valores da coluna (por exemplo, sexo, status familiar). Depois disso, todos os resultados serão concatenados em um. Os usuários devem ter cuidado com esse modo, pois, embora possa aumentar o desempenho do anonimato, o resultado final pode não atender aos requisitos do modelo de anonimização. É melhor usá-lo somente quando você aplicar as mesmas configurações de anonimização a diferentes subconjuntos e tiver algumas colunas para distingui-las, por exemplo, por sexo.
Limite de supressão – define a proporção de registros que podem ser completamente suprimidos durante o anonimato.
Adicionar coluna de classe à tabela de saída – se ativo, adiciona uma coluna com um número de classes de equivalência de cada registro.
Omitir colunas de identificação – após o anonimato, as colunas marcadas como área de identificação são excluídas da tabela de resultados.
Omitir registros suprimidos – se quaisquer registros (linhas) foram completamente suprimidos, eles terão apenas “*” para cada atributo de quase identificação – esses registros serão excluídos da tabela de resultados.
Pesquisa heurística ativada – este é um critério de parada para um algoritmo definido pelo número de iterações ou pela quantidade de tempo gasto antes que o algoritmo pare.
Fator de generalização / supressão – um valor que define a preferência durante a transformação de dados: 0 significa generalização, 1 é supressão.

Node Anonymity Assessemt

Este node serve para avaliação do anonimato dos dados. Ele tem duas portas de entrada, uma delas é opcional, para que seja possível não apenas avaliar os riscos, mas também compará-los entre conjuntos de dados originais e anônimos.

Conclusão

Neste artigo você pode conhecer um pouco mais sobre a nova Lei Geral de Proteção de Dados e como a plataforma KNIME Analytics pode lhe auxiliar a anonimizar seus dados.

Continue ligado em nossos posts, muito em breve publicaremos sobre muitos outros pontos que a LGPD determina.

referências:

https://policies.google.com/technologies/anonymization?hl=pt-BR

http://www.serpro.gov.br/lgpd/menu/protecao-de-dados/dados-anonimizados-lgpd

https://www.knime.com/blog/data-anonymization-in-knime-a-redfield-privacy-extension-walkthrough

http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/L13709.htm

Anonimização e Pseudonimização: conceitos e diferenças na LGPD