9 abordagens para detectar anomalias

Em um artigo anterior, falamos sobre a previsão de séries temporais. Uma continuação lógica será um artigo sobre a identificação de anomalias.

Aplicação


A detecção de anomalias é usada em áreas como:

1) Previsão de quebras de equipamentos


Assim, em 2010, as centrífugas iranianas foram atacadas pelo vírus Stuxnet, que colocou o equipamento no modo ideal e desativou parte do equipamento devido ao desgaste acelerado.

Se algoritmos de busca de anomalias fossem usados ​​no equipamento, situações de falha poderiam ser evitadas.



A busca por anomalias na operação de equipamentos é utilizada não apenas na indústria nuclear, mas também na metalurgia e na operação de turbinas de aeronaves. E em outras áreas em que o uso de diagnóstico preditivo é mais barato que as possíveis perdas em caso de avaria imprevisível.

2) Prever fraude


Se o cartão que você usa em Podolsk for retirado na Albânia, é possível que a transação seja verificada novamente.

3) Identificar padrões anormais de consumidor


Se alguns clientes exibem um comportamento anormal, pode haver um problema que você não conhece.

4) Identificação de demanda e carga anormais


Se as vendas na loja FMCG caíram abaixo da borda do intervalo de confiança da previsão, você deve encontrar o motivo do que está acontecendo.

Abordagens de detecção de anomalias


1) O método de vetores de suporte com uma classe SVM de uma classe


Adequado quando os dados no conjunto de treinamento obedecem à distribuição normal, enquanto o conjunto de testes contém anomalias.

O método de vetor de suporte de classe única constrói uma superfície não linear em torno da origem. É possível definir a borda de corte, cujos dados são considerados anormais.

Com base na experiência de nossa equipe do DATA4, o One-Class SVM é o algoritmo mais frequentemente usado para solucionar o problema de pesquisa de anomalias.



2) Método de floresta isolada - floresta isolada


Com o método "aleatório" de construção de árvores, as emissões caem nas folhas nos estágios iniciais (a uma profundidade rasa da árvore), ou seja, as emissões são mais fáceis de "isolar". Valores anômalos são extraídos nas primeiras iterações do algoritmo.



3) Envelope elíptico e métodos estatísticos


Usado quando os dados são normalmente distribuídos. Quanto mais próxima a medição da cauda da mistura de distribuições, mais anômalo é o valor.

Outros métodos estatísticos podem ser atribuídos a essa classe.




Imagem de dyakonov.org

4) métodos métricos


Os métodos incluem algoritmos como k vizinhos mais próximos, k-ésimo vizinho mais próximo, ABOD (detecção de discrepância baseada em ângulo) ou LOF (fator de discreção local).

Adequado se a distância entre os valores nos sinais for equivalente ou normalizada (para não medir a jibóia nos papagaios).

O algoritmo de k vizinhos mais próximos sugere que os valores normais estão localizados em uma determinada região do espaço multidimensional, e a distância para as anomalias será maior do que para o hiperplano de separação.



5) Métodos de cluster


A essência dos métodos de cluster é que, se o valor estiver a mais de uma certa distância dos centros dos clusters, o valor poderá ser considerado anômalo.

O principal é usar um algoritmo que agrupe corretamente os dados, o que depende da tarefa específica.



6) Método do componente principal


Adequado para áreas de maior variação de variação.

7) Algoritmos baseados na previsão de séries temporais


A ideia é que, se um valor for eliminado de um intervalo de confiança de previsão, o valor será considerado anormal. Algoritmos como triplo anti-aliasing, S (ARIMA), reforço etc. são usados ​​para prever as séries temporais.

Os algoritmos de previsão de séries temporais foram discutidos em um artigo anterior.



8) Treinamento com um professor (regressão, classificação)


Se os dados permitirem, usamos algoritmos da regressão linear para redes recorrentes. Medimos a diferença entre a previsão e o valor real e concluímos o quanto os dados são eliminados da norma. É importante que o algoritmo tenha capacidade de generalização suficiente e a amostra de treinamento não contenha valores anormais.

9) Testes de modelo


Abordamos o problema de procurar anomalias como a tarefa de procurar recomendações. Decompomos nossa matriz de recursos usando SVD ou máquinas de fatoração, e os valores na nova matriz, significativamente diferentes dos originais, são considerados anormais.



Imagem de dyakonov.org

Conclusão


Neste artigo, examinamos as abordagens básicas para detectar anomalias.

A busca de anomalias pode ser chamada de arte de várias maneiras. Não existe um algoritmo ou abordagem ideal cuja aplicação resolva todos os problemas. Na maioria das vezes, um conjunto de métodos é usado para resolver um caso específico. As anomalias são pesquisadas usando o método de classe única de vetores de suporte, isolando florestas, métodos métricos e de cluster, além de usar os principais componentes e séries temporais de previsão.

Se você conhece outros métodos, escreva sobre eles na seção de comentários do artigo.

Source: https://habr.com/ru/post/pt477450/


All Articles