Aprendizado Profundo: Visão Geral

Olá pessoal. Já este mês, um novo curso começa na OTUS - "Matemática para Ciência de Dados" . Antecipando o início deste curso, tradicionalmente compartilhamos com você a tradução de material interessante.



Anotação . O aprendizado profundo é a vanguarda da pesquisa em aprendizado de máquina (ML). Consiste em várias camadas ocultas de redes neurais artificiais. A metodologia de aprendizado profundo utiliza transformações não lineares e abstrações de modelo de alto nível em grandes bancos de dados. Os recentes avanços na implementação da arquitetura de aprendizado profundo em vários campos já contribuíram significativamente para o desenvolvimento da inteligência artificial. Este artigo apresenta um estudo moderno da contribuição e novas aplicações da aprendizagem profunda. A visão geral a seguir, em ordem cronológica, apresenta como e em que aplicativos mais significativos foram utilizados algoritmos de aprendizado profundo. Além disso, os benefícios e vantagens da metodologia de aprendizado profundo são apresentados em sua hierarquia multicamada e operações não lineares, que são comparadas com algoritmos mais tradicionais em aplicativos comuns. Uma análise dos recentes avanços no campo revela ainda conceitos comuns, os benefícios crescentes e a popularidade do aprendizado profundo.


1. Introdução


A inteligência artificial (IA), como a inteligência demonstrada pelas máquinas, é uma abordagem eficaz para entender a aprendizagem humana e a formação do raciocínio [1]. Em 1950, o Teste de Turing foi proposto como uma explicação satisfatória de como um computador pode reproduzir o raciocínio cognitivo de uma pessoa [2]. Como um campo de pesquisa, a IA é dividida em subdomínios mais específicos. Por exemplo: Processamento de linguagem natural (PNL) [3] pode melhorar a qualidade da escrita em várias aplicações [4.17]. A unidade mais clássica da PNL é a tradução automática, que é entendida como tradução entre idiomas. Os algoritmos de tradução automática contribuíram para o surgimento de várias aplicações que levam em consideração a estrutura gramatical e os erros ortográficos. Além disso, o conjunto de palavras e vocabulário relacionado ao tópico do material é automaticamente usado como fonte principal quando o computador sugere alterações para o autor ou editor [5]. Na fig. A Figura 1 mostra em detalhes como a IA abrange sete áreas da ciência da computação.


Recentemente, o aprendizado de máquina e a mineração de dados foram destacados e se tornaram os tópicos mais populares entre a comunidade de pesquisa. A totalidade dessas áreas de pesquisa analisa as muitas possibilidades de caracterização de bancos de dados [9]. Ao longo dos anos, os bancos de dados foram compilados para fins estatísticos. Curvas estatísticas podem descrever o passado e o presente para prever padrões futuros de comportamento. No entanto, nas últimas décadas, apenas métodos e algoritmos clássicos foram usados ​​para processar esses dados, enquanto a otimização desses algoritmos poderia formar a base do autoaprendizagem eficaz [19]. Um processo de tomada de decisão aprimorado pode ser implementado com base nos valores existentes, em vários critérios e em métodos estatísticos avançados. Assim, uma das aplicações mais importantes dessa otimização é a medicina, onde sintomas, causas e decisões médicas criam grandes bancos de dados que podem ser usados ​​para determinar o melhor tratamento [11].



Fig. 1. Pesquisa no campo da inteligência artificial (IA) Fonte: [1].


Como o ML abrange uma ampla gama de estudos, muitas abordagens já foram desenvolvidas. Clustering, a rede bayesiana, aprendizado profundo e análise da árvore de decisão são apenas alguns deles. A análise a seguir se concentra principalmente no aprendizado profundo, em seus conceitos básicos, em aplicações comprovadas e modernas em vários campos. Além disso, apresenta vários números que refletem o rápido crescimento de publicações com pesquisas no campo da aprendizagem profunda nos últimos anos em bancos de dados científicos.


2. A base teórica


O conceito de aprendizagem profunda (Deep Learning - DL) surgiu pela primeira vez em 2006 como uma nova área de pesquisa em aprendizado de máquina. Inicialmente, era conhecido como aprendizado hierárquico em [2] e, como regra, incluía muitas áreas de pesquisa relacionadas ao reconhecimento de padrões. O aprendizado profundo leva em consideração principalmente dois fatores principais: processamento não linear em várias camadas ou estágios e treinamento sob ou sem supervisão [4]. O processamento não linear em várias camadas refere-se a um algoritmo no qual a camada atual aceita a saída da camada anterior como entrada. Uma hierarquia é estabelecida entre as camadas para ordenar a importância dos dados cuja utilidade deve ser estabelecida. Por outro lado, o aprendizado controlado e descontrolado está associado a um rótulo de classes de objetivos: sua presença implica um sistema controlado e a ausência significa descontrolado.


3. Aplicações


O aprendizado profundo envolve camadas de análise abstrata e métodos hierárquicos. No entanto, ele pode ser usado em inúmeras aplicações do mundo real. Como exemplo, no processamento de imagens digitais; imagens em preto e branco eram previamente pintadas à mão por usuários que tinham que escolher cada cor com base em seu próprio julgamento. Aplicando o algoritmo de aprendizado profundo, a coloração pode ser realizada automaticamente usando um computador [10]. Da mesma forma, o som pode ser adicionado a um vídeo de bateria sem som usando Redes Neurais Recorrentes (RNNs), que fazem parte de métodos de aprendizado profundo [18].


O aprendizado profundo pode ser apresentado como um método para melhorar os resultados e otimizar o tempo de processamento em vários processos computacionais. No campo do processamento de linguagem natural, métodos de aprendizado profundo foram aplicados para criar legendas de imagens [20] e geração de texto manuscrito [6]. Os seguintes aplicativos são classificados com mais detalhes em áreas como imagem digital, medicina e biometria.


3.1 Processamento de Imagem


Antes de o aprendizado profundo ser oficialmente estabelecido como uma nova abordagem de pesquisa, algumas aplicações foram implementadas como parte do conceito de reconhecimento de padrões por meio do processamento de camadas. Em 2003, um exemplo interessante foi desenvolvido usando o filtro de partículas e o algoritmo de propagação de crenças bayesiano. O conceito básico deste aplicativo acredita que uma pessoa pode reconhecer o rosto de outra pessoa observando apenas metade da imagem do rosto [14], para que o computador possa restaurar a imagem do rosto a partir da imagem cortada.


Mais tarde, em 2006, o algoritmo e a hierarquia gananciosos foram combinados em um aplicativo capaz de processar dígitos manuscritos [7]. Estudos recentes usaram o aprendizado profundo como a principal ferramenta para o processamento de imagens digitais. Por exemplo, o uso de redes neurais convolucionais (CNN) para reconhecer a íris pode ser mais eficaz do que o uso de sensores convencionais. A eficiência da CNN pode atingir 99,35% de precisão [16].


Atualmente, o reconhecimento de localização móvel permite ao usuário descobrir um endereço específico com base na imagem. O algoritmo SSPDH (Semântica Supervisionada - Preservando Deep Hashing) se mostrou uma melhoria significativa em relação ao VHB (Visual Hash Bit) e SSFS (Space - Salience Fingerprint Selection). A precisão do SSPDH é 70% mais eficiente [15].


Por fim, outra aplicação notável no processamento de imagens digitais usando o método de aprendizado profundo é o reconhecimento de faces. Google, Facebook e Microsoft possuem modelos únicos de reconhecimento facial com aprendizado profundo [8]. Recentemente, a identificação baseada em uma imagem do rosto mudou para reconhecimento automático, determinando idade e sexo como parâmetros iniciais. A Sighthound Inc., por exemplo, testou um profundo algoritmo de rede neural convolucional que pode reconhecer não apenas idade e sexo, mas também emoções [3]. Além disso, um sistema confiável foi desenvolvido para determinar com precisão a idade e o sexo de uma pessoa a partir de uma única imagem, aplicando a arquitetura do aprendizado profundo sobre multitarefa [21].


3.2 Medicina


O processamento de imagens digitais é, sem dúvida, uma parte importante das áreas de pesquisa nas quais o aprendizado profundo pode ser aplicado. Da mesma forma, aplicações clínicas foram testadas recentemente. Por exemplo, uma comparação entre aprendizado de baixo nível e aprendizado profundo em redes neurais levou a uma melhor eficácia na previsão de doenças. A imagem obtida por ressonância magnética (RM) [22] do cérebro humano foi processada para prever uma possível doença de Alzheimer [3]. Apesar do rápido sucesso desse procedimento, alguns problemas devem ser seriamente considerados para aplicativos futuros. Uma das limitações é o treinamento e a dependência de alta qualidade. O volume, a qualidade e a complexidade dos dados são aspectos complexos, no entanto, a integração de tipos de dados heterogêneos é um aspecto potencial da arquitetura de aprendizado profundo [17, 23].


A tomografia de coerência óptica (OCT) é outro exemplo em que as técnicas de aprendizado profundo mostram resultados significativos. Tradicionalmente, as imagens são processadas pelo desenvolvimento manual de matrizes convolucionais [12]. Infelizmente, a falta de conjuntos de treinamento limita o método de aprendizado profundo. No entanto, ao longo de vários anos, a introdução de conjuntos de treinamento aprimorados preverá efetivamente patologias da retina e reduzirá o custo da tecnologia OCT [24].


3.3 Biometria


Em 2009, um aplicativo para reconhecimento automático de fala foi aplicado para reduzir a frequência de erro telefônico (Phone Error Rate - PER) usando duas arquiteturas de rede de confiança profunda diferentes [18]. Em 2012, o método CNN [25] foi aplicado como parte de uma rede neural híbrida - o Hidden Markov Model - NN - HMM. Como resultado, um PER de 20,07% foi alcançado. O PER resultante é melhor comparado ao método de linha de base da rede neural de três camadas usado anteriormente [26]. Os smartphones e a resolução de suas câmeras foram testados para reconhecer a íris. Ao usar telefones celulares desenvolvidos por várias empresas, a precisão do reconhecimento da íris pode atingir até 87% de eficiência [22,28].


Do ponto de vista da segurança, especialmente controle de acesso; a aprendizagem profunda é usada em conjunto com características biométricas. O DL foi usado para acelerar o desenvolvimento e a otimização dos dispositivos de reconhecimento facial FaceSentinel. Segundo este fabricante, seus dispositivos podem expandir o processo de identificação de um para um para um para muitos em nove meses [27]. Essa atualização do mecanismo pode levar 10 anos-homem sem a introdução do DL. O que acelerou a produção e o lançamento de equipamentos. Esses dispositivos são usados ​​no aeroporto de Heathrow, em Londres, e também podem ser usados ​​para registrar horas de trabalho e presença, e no setor bancário [3, 29].


4. Visão geral


A Tabela 1 resume várias das aplicações implementadas nos anos anteriores com relação ao aprendizado profundo. O reconhecimento de fala e o processamento de imagem são mencionados principalmente. Esta revisão abrange apenas algumas das longas listas de usos.


Tabela 1. Aplicativos de aprendizagem profunda, 2003-2017



( Aplicação: 2003 - Inferência bayesiana hierárquica no córtex visual; 2006 - Classificação de números; 2006 - Rede de confiança profunda para reconhecimento telefônico; 2012 - Reconhecimento de fala de várias fontes; 2015 - Reconhecimento da íris usando câmeras de smartphones; 2016 - Mastering Go deep redes neurais de busca de árvores; 2017 - Modelo de reconhecimento sensorial da íris).


4.1 Análise de publicações para o ano


Na fig. A Figura 1 mostra o número de publicações de aprendizado profundo do banco de dados ScienceDirect por ano, de 2006 a junho de 2017. Obviamente, um aumento gradual no número de publicações poderia descrever um crescimento exponencial.


Na fig. A Figura 2 mostra o número total de publicações de aprendizado profundo da Springer por ano, de janeiro de 2006 a junho de 2017. Em 2016, houve um aumento repentino de publicações, atingindo 706 publicações, o que prova que a aprendizagem profunda é realmente o foco da pesquisa moderna.


Na fig. A Figura 3 mostra o número de publicações em conferências, revistas e publicações do IEEE de janeiro de 2006 a junho de 2017. Vale ressaltar que desde 2015 o número de publicações aumentou significativamente. A diferença entre 2016 e 2015 é superior a 200% do aumento.



Fig. 1. O aumento do número de publicações sobre aprendizagem profunda no banco de dados Sciencedirect (janeiro de 2006 - junho de 2017)



Fig. 2. O aumento no número de publicações sobre aprendizado profundo do banco de dados Springer. (Janeiro de 2006 - junho de 2017)



Fig. 3. O aumento de publicações de aprendizado profundo do banco de dados IEEE. (Janeiro de 2006 - junho de 2017)


5. Conclusões


O aprendizado profundo é uma aplicação realmente rápida e crescente de aprendizado de máquina. As inúmeras aplicações descritas acima comprovam seu rápido desenvolvimento em apenas alguns anos. O uso desses algoritmos em diferentes campos mostra sua versatilidade. Uma análise das publicações realizadas neste estudo demonstra claramente a relevância dessa tecnologia e fornece uma ilustração clara do crescimento do aprendizado profundo e das tendências em relação a pesquisas futuras nessa área.


Além disso, é importante observar que a hierarquia de níveis e o controle no aprendizado são fatores-chave no desenvolvimento de um aplicativo bem-sucedido de aprendizado profundo. A hierarquia é importante para a classificação adequada dos dados, enquanto o controle leva em consideração a importância do próprio banco de dados como parte do processo. O principal valor do aprendizado profundo é otimizar os aplicativos de aprendizado de máquina existentes por meio de processamento hierárquico inovador. O aprendizado profundo pode fornecer resultados efetivos no processamento de imagens digitais e no reconhecimento de fala. Uma redução na porcentagem de erros (de 10 para 20%) confirma claramente a melhoria em comparação com os métodos existentes e comprovados.


Nesta era e no futuro, o aprendizado profundo pode ser uma ferramenta de segurança útil por meio de uma combinação de reconhecimento de rosto e fala. Além disso, o processamento de imagens digitais é um campo de pesquisa que pode ser aplicado em muitas outras áreas. Por esse motivo, e tendo se mostrado verdadeira otimização, o aprendizado profundo é um assunto moderno e interessante para o desenvolvimento da inteligência artificial.


Literatura usada


  1. Abdel, O .: Aplicação de conceitos de redes neurais convolucionais ao modelo híbrido NN-HMM para reconhecimento de fala. Acústica, processamento de fala e sinal 7, 4277-4280 (2012).
  2. Mosavi A., Varkonyi-Koczy AR: Integração de Machine Learning e Otimização para Robot Learning. Avanços em sistemas inteligentes e computação 519, 349-355 (2017).
  3. Bannister, A.: Biometria e IA: como o FaceSentinel evolui 13 vezes mais rápido graças ao aprendizado profundo (2016).
  4. Bengio, Y.: Aprendendo arquiteturas profundas para IA. Fundamentos e tendências no Machine Learning 2, 1-127 (2009).
  5. Mosavi, A., Varkonyi-Koczy, AR, Fullsack, M.: Combinação de aprendizado de máquina e otimização para tomada de decisão automatizada. MCDM (2015).
  6. Deng L, Yu D Aprendizagem profunda: métodos e aplicações. Fundamentos e tendências no processamento de sinais 7, 197-387 (2014)
  7. Goel, B.: Desenvolvimentos no campo do processamento de linguagem natural. Revista Internacional de Pesquisa Avançada em Ciência da Computação 8, (2017).
  8. Vaezipour, A.: Mosavi, A. Seigerroth, U .: Otimização integrada de aprendizado de máquina para tomada de decisão, 26ª Conferência Européia de Pesquisa Operacional, Roma (2013).
  9. Hinton GE, Simon O, Yee-Whye TA algoritmo de aprendizado rápido para redes de crenças profundas. Computação neural 18, 1527-1554 (2006)
  10. Hisham, A., Harin, S.: Deep Learning - o novo garoto da Inteligência Artificial. (2017)
  11. Kim IW, Oh, M.: Aprendizado profundo: da quimioinformática à medicina de precisão. Journal of Pharmaceutical Investigation: 1-7 (2017)
  12. Mosavi, A., Vaezipour, A.: Desenvolvimento de ferramentas eficazes para análise preditiva e decisões informadas. Relatório Técnico. Universidade de Tallinn (2013)
  13. Mosavi A., Y., Bathla, Varkonyi-Koczy AR: Prevendo o Futuro Usando a Web
    Conhecimento: Pesquisa de ponta avança em sistemas inteligentes e computação (2017).
  14. Mosavi, A., Vaezipour, A.: Otimização de pesquisa reativa; Aplicativo para multiobjetivo
    Problemas de otimização. Matemática Aplicada 3, 1572-1582 (2012)
  15. Lee JG (2017) Aprendizagem Profunda em Imagem Médica: Visão Geral. Revista coreana de
    Radiology 18 (4): 570-584
  16. Lee T.: David M Inferência Bayesiana hierárquica no córtex visual. JOSA 20, 1434-1448
    (2003).
  17. Liu W Hash de aprendizado profundo para pesquisa visual móvel. Jornal EURASIP sobre Imagem e
    Processamento de vídeo 17, (2017).
  18. Marra F.: Uma Abordagem de Aprendizagem Profunda para Identificação de Modelo de Sensor de Íris. Cartas de reconhecimento de padrões (2017).
  19. Miotto R et al (2017) Aprendizado profundo em saúde: revisão, oportunidades e desafios.
    Briefings em bioinformática
  20. Mohamed A.: Redes de crenças profundas para reconhecimento por telefone. Workshop Nips sobre aprendizagem profunda
    para reconhecimento de fala e aplicativos relacionados: 1, 635-645 (2009).
  21. Moor. J .: O teste de Turing: o padrão ilusório da inteligência artificial. Springer Science &
    Mídia de Negócios (2003).
  22. Vaezipour, A. Mosavi, U. Seigerroth, A.: Análise visual e decisões informadas em saúde
    e ciências da vida, Conferência Internacional CAE, Verona, Itália (2013)
  23. Raja KB, Raghavendra R, Vemuri VK, Busch C (2015) Íris visível baseada em smartphone
    reconhecimento usando filtragem esparsa profunda. Letras de reconhecimento de padrões 57: 33-42.
  24. Safdar S, Zafar S, Zafar N, Khan NF (2017) Sistemas de apoio à decisão (DSS) baseados em aprendizado de máquina para diagnóstico de doenças cardíacas: uma revisão. Revisão da inteligência artificial: 1-17
  25. Mosavi, A. Varkonyi. A.: Aprendendo em robótica. Aprendizado 157, (2017)
  26. Xing J, Li K, Hu W, Yuan C, Ling H et al (2017) Diagnóstico de modelos de aprendizagem profunda para alta
    estimativa da precisão da idade a partir de uma única imagem. Reconhecimento de padrões
  27. Mosavi, A. Rabczuk, T.: Aprendizado e otimização inteligente de materiais computacionais
    Inovação em design, aprendizado e otimização inteligente, Springer-Verlag, (2017)
  28. Vaezipour, A., et al., Análise visual para decisões informadas, International CAE Conference, Verona, Itália, (2013).
  29. Dehghan, A.: DAGER: Idade Profunda, Gênero e Reconhecimento de Emoções Usando Convolucional
    Rede Neural3, 735-748 (2017)
  30. Mosavi, A: modelo de decisão preditiva, 2015, https://doi.org/10.13140/RG.2.2.21094.630472
  31. Vaezipour, A., et al.: Análise visual e decisões informadas em ciências da saúde e da vida. "
    Artigo em Anais da Conferência Internacional CAE, Verona, Itália. (2013).
  32. Vaezipour, A.: Análise visual para decisões informadas, CAE Conference, Itália, (2013).
  33. A.Vaezipour, A.:Machine learning otimização integrada para tomada de decisão. 26ª Conferência Europeia de Pesquisa Operacional, Roma (2013).
  34. Vaezipour, A.: Visual Analytics para análise de decisão multicritério, em Anais da Conferência Internacional CAE, Verona, Itália (2013).
  35. Mosavi, A., Vaezipour, A.: Desenvolvimento de ferramentas eficazes para análise preditiva e decisões informadas. Relatório Técnico. (2013). https://doi.org/10.13140/RG.2.2.23902.84800
  36. Mosavi A., Varkonyi-Koczy AR: Integração de Machine Learning e Otimização para
    Aprendizagem do robô Avanços em sistemas inteligentes e computação 519, 349-355 (2017).
  37. Mosavi, A., Varkonyi, A.: Aprendizagem em robótica. Learning, 157 (2017).
  38. Mosavi, A.: Arquitetura de software para tomada de decisão; a abordagem assistida de visualização e mineração de dados. Revista Internacional de Informação e Ciência da Computação 3, 12-26 (2014).
  39. Mosavi, A.: O sistema em larga escala de tomada de decisão com múltiplos critérios; pré-processamento
    Teoria e Aplicações de Sistemas Complexos de Grande Escala 9, 354-359 (2010).
  40. Esmaeili, M., Mosavi, A.: Redução variável para otimização multiobjetivo usando dados
    técnicas de mineração. Engenharia e tecnologia de computadores 5, 325-333 (2010)
  41. Mosavi, A.: Mineração de dados para tomada de decisão na engenharia de design ideal. Journal of AI
    e Data Mining 2, 7-14 (2014).
  42. Mosavi, A., Vaezipour, A.: Análise Visual, Universidade de Obuda, Budapeste, (2015).
  43. Mosavi, A., Vaezipour, A.: Otimização de pesquisa reativa; Aplicativo para multiobjetivo
    Problemas de otimização. Applied Mathematics 3, 1572-1582 (2012).
  44. Mosavi, A., Varkonyi-Koczy, AR, Fullsack, M.: Combinação de aprendizado de máquina e
    Otimização para tomada de decisão automatizada. MCDM (2015).
  45. Mosavi, A., Delavar, A.: Modelagem de Negócios, Obuda University, Budapest, (2016).
  46. Mosavi, A.: Aplicação da mineração de dados em problemas de otimização multiobjetivo. Revista Internacional de Simulação e Otimização de Projetos Multidisciplinares, 5, (2014)
  47. Mosavi, A. Rabczuk, T.: Aprendizado e Otimização Inteligente para Inovação de Design de Materiais, Ciência da Computação Teórica e Questões Gerais, LION11 (2017).
  48. Mosavi, A., Visual Analytics, Universidade de Obuda, 2016.
  49. Mosavi, A.: Tomada de decisão preditiva, Tech Rep 2015. doi: 10.13140 / RG.2.2.16061.46561
  50. Mosavi. A.: Tomada de Decisão Preditiva, Modelo de Decisão Preditiva, Tech. Relatório. (2015).
    https://doi.org/10.13140/RG.2.2.21094.63047
  51. Mosavi, A., Lopez, A.: Varkonyi-Koczy, A.: Aplicações Industriais de Big Data: Estado de
    o Art Survey, Avanços em Sistemas Inteligentes e Computação, (2017).
  52. Mosavi, A., Rabczuk, T., Varkonyi-Koczy, A.: Revendo o novo aprendizado de máquina
    Ferramentas para Design de Materiais, Avanços em Sistemas Inteligentes e Computação, (2017).
  53. Mousavi, S., Mosavi, A., Varkonyi-Koczy, AR: Um algoritmo de balanceamento de carga para recursos
    alocação em computação em nuvem, Avanços em sistemas inteligentes e computação, (2017).
  54. Baranyai, M., Mosavi, A., Vajda, I., Varkonyi-Koczy, AR: Design Ótimo de Elétrica
    Máquinas: Pesquisa Avançada, Avanços em Sistemas Inteligentes e Computação, (2017).
  55. Mosavi, A., Benkreif, R., Varkonyi-Koczy, A.: Comparação das equações de feixe de Euler-Bernoulli e Timoshenko para a dinâmica de sistemas ferroviários, avanços em sistemas inteligentes
    and Computing, (2017).
  56. Mosavi, A., Rituraj, R., Varkonyi-Koczy, AR: Revendo a otimização multiobjetivo
    Pacote do modo Fronteira no Setor Energético, Avanços em Sistemas Inteligentes e Computação,
    (2017).
  57. Mosavi, A., Bathla, Y., Varkonyi-Koczy AR: Prevendo o Futuro Usando a Web
    Conhecimento: Pesquisa de ponta, avanços em sistemas e computação inteligentes,
    (2017).

Source: https://habr.com/ru/post/pt459785/


All Articles