Qualquer pessoa que não o trivial (ou raro), o objetivo é criar facilmente um monte de problemas em praticamente todas as tentativas de aplicação de redes neurais para resolver problemas reais. Obviamente, a falta de um conjunto de treinamento sadio complica significativamente o grande número de cenários para o uso da abordagem neurostem.
O que fazer, por exemplo, com uma espécie rara de gafanhoto, cujo reconhecimento de representantes, por um motivo ou outro, se tornou uma tarefa muito importante.
Todos os resultados / exemplos foram obtidos independentemente (e rapidamente).
Objetos personalizados
O mundo real, como tarefas reais, é extraordinariamente único, incomum e geralmente muito específico quando se trata de cor, forma, comportamento etc.
Para enfrentar com sucesso os problemas relevantes requer (conjunto de treinamento, no nosso caso) de dados. E como nem todo mundo está tentando construir o piloto automático “mais correto” ou procurar sorrisos nas fotografias, a criação dos conjuntos necessários se torna o principal problema.
Concordo, a probabilidade de encontrar um conjunto pronto e de alta qualidade para algum estilo de coloração muito específico tende a zero:
A propósito, os algoritmos do youtube parecem um pouco falsos quando se trata do corpo pintado. Pelo menos o conteúdo retornado parece um pouco controverso.
A maneira usual de marcar
Bem, suponha que a marcação manual não pareça muito assustadora - você não tem medo de trabalho monótono ou o fornecimento de multidões é adequado tanto para a qualidade do resultado quanto para o custo. Mas isso é verdade desde que se limite a uma caixa delimitadora (um exemplo hackneyed é usado, apenas para fins ilustrativos):
O que fazer se as especificidades da tarefa exigirem encontrar o contorno exato? O Mask RCNN é uma solução, mas requer um conjunto de treinamento preciso e de alta qualidade. E para desenhar um contorno, como você sabe, este não é um retângulo para marcar e esse trabalho exigirá vários outros esforços.
Abordagem automatizada
A eterna pergunta: "O que fazer?". A resposta não é menos trivial - para automatizar. algoritmos de visão computacional clássicos tornam possível alcançar resultados aceitáveis, em determinadas condições básicas.
Na verdade, é a imposição de condições adicionais que não permite o uso dessa abordagem como solução principal. No entanto, os algoritmos padrão corretos permitem obter rapidamente um conjunto de alta qualidade, diversificado e facilmente extensível.
Tão alta qualidade que até mesmo a mudança de cor usual na área selecionada parece uma solução quase pronta:
Mais sobre a abordagem na próxima vez.
Exemplo de conjunto de treinamento
A abordagem para gerar um conjunto de treinamento a partir de um vídeo é conveniente, pois o resultado final contém exemplos exclusivamente "ao vivo" e completamente reais que refletem a variabilidade e a complexidade do mundo real. Por exemplo, lábios:
Outros resultados
Acompanhe o desenvolvimento do projeto
YouTube:
RobotsCanSeeTelegrama:
RobotsCanSeeUs