A principal tarefa dos computadores quânticos é aprimorar a inteligência artificial

A idéia de mesclar computação quântica e aprendizado de máquina está em seu auge. Ela pode corresponder a expectativas elevadas?




No início dos anos 90, Elizabeth Behrman, professora de física na Universidade Wichita, começou a trabalhar na fusão da física quântica com inteligência artificial - particularmente na tecnologia de rede neural então impopular. A maioria das pessoas pensava que ela estava tentando misturar óleo com água. "Foi muito difícil para mim publicar", lembra ela. - As revistas nas redes neurais disseram: "Que tipo de mecânica quântica é essa?", E as revistas de física disseram: "Que tipo de rede neural é essa?"

Hoje, uma mistura desses dois conceitos parece a coisa mais natural do mundo. Redes neurais e outros sistemas de aprendizado de máquina tornaram-se a tecnologia mais repentina do século XXI. Eles se saem melhor em ocupações humanas do que em seres humanos e nos ultrapassam não apenas em tarefas nas quais a maioria de nós não brilhava de qualquer maneira - por exemplo, no xadrez ou na análise aprofundada de dados, mas também nas tarefas para as quais o cérebro evoluiu - por exemplo, reconhecimento de rosto, tradução de idiomas e determinação do direito de passagem em um cruzamento de quatro vias. Tais sistemas se tornaram possíveis devido ao enorme poder dos computadores, portanto, não é de surpreender que as empresas de tecnologia tenham começado a procurar computadores não apenas maiores, mas pertencentes a uma classe completamente nova.

Após décadas de pesquisa, os computadores quânticos estão quase prontos para realizar cálculos à frente de qualquer outro computador na Terra. Sua principal vantagem é geralmente a fatoração de grandes números - uma operação essencial para os modernos sistemas de criptografia. É verdade que, nesse ponto, restam pelo menos mais dez anos. Mas os processadores quânticos rudimentares de hoje também são misteriosamente perfeitos para as necessidades de aprendizado de máquina. Eles manipulam grandes quantidades de dados de uma só vez, procuram padrões esquivos que são invisíveis para computadores clássicos e não apresentam dados incompletos ou indefinidos. "Existe uma simbiose natural entre a natureza essencialmente estatística da computação quântica e o aprendizado de máquina", diz Johann Otterbach, físico da Rigetti Computing, uma empresa de computação quântica em Berkeley, Califórnia.

Por esse motivo, o pêndulo já girou para outro máximo. Google, Microsoft, IBM e outros gigantes da tecnologia estão investindo dinheiro no aprendizado de máquina quântica (CMO) e em uma incubadora de startups dedicada a esse tópico, localizada na Universidade de Toronto. "Aprendizado de máquina" está se tornando um chavão ", diz Jacob Biamont , especialista em física quântica do Instituto de Ciência e Tecnologia Skolkovo . "E misturando-o com o conceito de" quantum ", você aprenderá uma palavra de megamodo."

Mas o conceito de "quantum" nunca significa exatamente o que se espera dele. Embora você possa decidir que o sistema KMO precisa ser poderoso, ele sofre da síndrome do "bloqueio". Ele trabalha com estados quânticos, e não com dados legíveis por humanos , e a tradução entre esses dois mundos pode nivelar todas as suas vantagens óbvias. É como o iPhone X, que tem todos os seus recursos impressionantes, não é mais rápido que o telefone antigo, porque a rede local é nojenta. Em alguns casos especiais, os físicos podem superar esse gargalo de E / S, mas ainda não está claro se esses casos aparecerão ao resolver problemas práticos com MO. "Ainda não temos respostas claras", diz Scott Aaronson , especialista em TI da Universidade do Texas em Austin, sempre tentando realmente analisar as coisas no campo da computação quântica. "As pessoas são bastante cautelosas sobre a questão de saber se esses algoritmos fornecerão algum tipo de vantagem na velocidade".

Neurônios quânticos


A principal tarefa de uma rede neural, seja clássica ou quântica, é reconhecer padrões. É criado à imagem do cérebro humano e é uma estrutura de unidades básicas de computação - "neurônios". Cada um deles pode ser mais difícil de ligar / desligar. Um neurônio monitora a saída de muitos outros neurônios, como se estivesse votando em certas questões, e muda para a posição ligada se neurônios suficientes tiverem votado a favor. Normalmente, os neurônios são organizados em camadas. A primeira camada aceita entrada (por exemplo, pixels da imagem), as camadas do meio criam várias combinações de entrada (representando estruturas como faces e formas geométricas) e a última camada produz saída (uma descrição de alto nível do que está na imagem).


As redes neurais profundas são treinadas ajustando os pesos de suas conexões da melhor maneira para transmitir sinais através de várias camadas para neurônios associados aos conceitos generalizados necessários

O que é importante, todo esse esquema não é elaborado com antecedência, mas é adaptado no processo de aprendizado por tentativa e erro. Por exemplo, podemos alimentar redes de imagens rotuladas como "gatinho" ou "filhote". Ele atribui um rótulo a cada imagem, verifica se foi bem-sucedido e, se não, corrige as conexões neurais. No começo, funciona quase por acidente, mas depois melhora os resultados; depois, digamos, 10.000 exemplos, ela começa a entender animais de estimação. Pode haver um bilhão de conexões internas em uma rede neural séria e todas elas precisam ser ajustadas.

Em um computador clássico, essas conexões são representadas por uma fabulosa matriz de números, e operação de rede significa executar cálculos de matriz. Normalmente, essas operações com a matriz são fornecidas para processamento em um chip especial - por exemplo, uma GPU . Mas ninguém pode fazer operações de matriz melhor do que um computador quântico. "O processamento de grandes matrizes e vetores em um computador quântico é exponencialmente mais rápido", diz Seth Lloyd, físico do Instituto de Tecnologia de Massachusetts e pioneiro na computação quântica.

Para resolver esse problema, os computadores quânticos podem tirar proveito da natureza exponencial de um sistema quântico. A maior parte da capacidade de informação de um sistema quântico está contida não em suas unidades de dados individuais - qubits, análogos quânticos de bits de um computador clássico - mas nas propriedades conjuntas desses qubits. Dois qubits juntos têm quatro estados: ambos ativados, desativados, ativados / desativados e desativados / ativados. Todo mundo tem um certo peso, ou "amplitude", que pode desempenhar o papel de um neurônio. Se você adicionar um terceiro qubit, poderá imaginar oito neurônios; o quarto - 16. A capacidade da máquina está crescendo exponencialmente. De fato, os neurônios são manchados por todo o sistema. Quando você altera o estado de quatro qubits, processa 16 neurônios de uma só vez, e um computador clássico teria que processar esses números um de cada vez.

Lloyd estima que 60 qubits são suficientes para codificar a quantidade de dados que a humanidade produz em um ano, e 300 podem conter o conteúdo clássico de todo o Universo. O maior computador quântico disponível atualmente, fabricado pela IBM, Intel e Google, tem cerca de 50 qubits. E isso é apenas se assumirmos que cada amplitude representa um bit clássico. De fato, amplitudes são valores contínuos (e representam números complexos) e, com precisão adequada para resolver problemas práticos, cada um deles pode armazenar até 15 bits, diz Aaronson.

Mas a capacidade de um computador quântico para armazenar informações de forma compactada não as torna mais rápidas. É preciso poder usar esses qubits. Em 2008, Lloyd, físico Aram Harrow, do MIT, e Avinatan Hassidim , cientista da computação da Universidade Bar-Ilan, em Israel, mostraram como uma importante operação de inversão algébrica de matriz poderia ser realizada. Eles o dividiram em uma sequência de operações lógicas que podem ser executadas em um computador quântico. Seu algoritmo funciona para um grande número de tecnologias MO. E ele não precisa de tantos passos quanto, digamos, fatorar um grande número. Um computador pode executar rapidamente uma tarefa de classificação antes que o ruído - um dos principais fatores limitantes da tecnologia moderna - possa arruinar tudo. "Antes de você ter um computador quântico totalmente versátil e resistente a erros, você pode apenas ter uma vantagem quântica", disse Kristan Temm, do Centro de Pesquisa. Thomas Watson, da IBM.

Deixe a natureza resolver o problema


Até o momento, o aprendizado de máquina baseado na computação quântica de matrizes foi demonstrado apenas em computadores com quatro qubits. A maioria dos sucessos experimentais do aprendizado de máquina quântica usa uma abordagem diferente na qual um sistema quântico não apenas simula uma rede, mas é uma rede. Cada qubit é responsável por um neurônio. E, embora não seja necessário falar sobre crescimento exponencial, esse dispositivo pode tirar proveito de outras propriedades da física quântica.

O maior desses dispositivos, contendo cerca de 2.000 qubits, foi fabricado pela D-Wave Systems, localizada perto de Vancouver. E não é exatamente isso que as pessoas imaginam quando pensam no computador. Em vez de obter alguma entrada, executar uma sequência de cálculos e mostrar a saída, ele funciona encontrando consistência interna. Cada um dos qubits é um loop elétrico supercondutor, funcionando como um eletroímã minúsculo, orientado para cima, para baixo ou para cima e para baixo - ou seja, estando em superposição. Juntos, os qubits se ligam devido à interação magnética.



Para iniciar esse sistema, primeiro é necessário aplicar um campo magnético de orientação horizontal que inicialize os qubits com a mesma superposição para cima e para baixo - o equivalente a uma folha em branco. Existem algumas maneiras de inserir dados. Em alguns casos, você pode corrigir a camada de qubit nos valores iniciais necessários; com mais frequência, a entrada é incluída devido a interações. Então você permite que os qubits interajam. Alguns tentam alinhar da mesma maneira, outros na direção oposta e, sob a influência de um campo magnético horizontal, mudam para a orientação preferida. Nesse processo, eles podem forçar outros qubits a mudar. No início, isso acontece com bastante frequência, pois muitos qubits estão localizados incorretamente. Com o tempo, eles se acalmam, após o qual você pode desativar o campo horizontal e corrigi-los nessa posição. Nesse momento, os qubits alinharam-se em uma sequência de posições para cima e para baixo, o que é uma conclusão com base na entrada.

Nem sempre é óbvio qual será o arranjo final dos qubits, mas esse é o ponto. O sistema, simplesmente se comportando naturalmente, resolve um problema pelo qual um computador clássico lutaria por um longo tempo. "Não precisamos de um algoritmo", explica Hidetoshi Nishimori , físico do Instituto de Tecnologia de Tóquio que desenvolveu os princípios para a operação de máquinas D-Wave. - Esta é uma abordagem completamente diferente da programação convencional. O problema é resolvido pela natureza. ”

A troca de qubits é devida ao tunelamento quântico, a tendência natural dos sistemas quânticos para a configuração ideal, o melhor possível. Pode-se construir uma rede clássica operando com princípios analógicos usando jitter aleatório em vez de tunelamento para trocar bits e, em alguns casos, funcionaria melhor. Mas, curiosamente, para os problemas que surgem no campo do aprendizado de máquina, a rede quântica parece atingir seu melhor rapidamente.

A máquina da D-Wave tem suas desvantagens. É extremamente suscetível ao ruído e, na versão atual, pode executar poucas variedades de operações. Mas os algoritmos de aprendizado de máquina são tolerantes a ruídos por natureza. Eles são úteis precisamente porque podem reconhecer o significado na realidade desarrumada, separando gatinhos de filhotes, apesar de momentos de distração. "As redes neurais são conhecidas por sua resistência ao ruído", disse Berman.

Em 2009, uma equipe liderada por Hartmouth Niven , especialista em TI do Google, pioneiro em realidade aumentada (ele foi co-fundador do projeto Google Glass), que entrou no campo do processamento de informações quânticas, mostrou como o protótipo inicial da máquina da D-Wave é capaz de executar uma tarefa muito real aprendizado de máquina. Eles usaram a máquina como uma rede neural de camada única, classificando imagens em duas classes: "carro" e "não carro" em uma biblioteca de 20.000 fotografias tiradas nas ruas. A máquina tinha apenas 52 qubits em funcionamento, não o suficiente para inserir completamente a imagem. Portanto, a equipe de Niven combinou um carro com um computador clássico que analisou vários parâmetros estatísticos das imagens e calculou quão sensíveis esses valores eram à presença na foto do carro - eles geralmente não eram particularmente sensíveis, mas pelo menos diferiam dos aleatórios. Alguma combinação desses valores poderia determinar com segurança a presença de um carro; simplesmente não era óbvio qual combinação. E a rede neural estava envolvida na determinação da combinação desejada.

Uma equipe tem um qubit associado a cada valor. Se o qubit foi definido como um valor 1, marcou o valor correspondente como útil; 0 significava que ela não era necessária. As interações magnéticas dos qubits codificaram os requisitos desse problema - por exemplo, a necessidade de levar em conta apenas as quantidades mais diferentes para que a escolha final seja a mais compacta. O sistema resultante foi capaz de reconhecer o carro.

No ano passado, uma equipe liderada por Maria Spiropoulou, especialista em física de partículas do Instituto de Tecnologia da Califórnia, e Daniel Lidara, físico da Universidade do Sul da Califórnia, aplicaram um algoritmo para resolver um problema físico prático: classificar colisões de prótons nas categorias de bóson de Higgs e não bóson Higgs ". Limitando as estimativas apenas às colisões que geraram fótons, eles usaram a teoria básica das partículas para prever quais propriedades de um fóton deveriam indicar a aparência de curto prazo de uma partícula de Higgs - por exemplo, excedendo um certo valor limite do momento. Eles examinaram oito dessas propriedades e 28 combinações delas, que no total produziram 36 sinais candidatos e permitiram que o chip D-Wave encontrasse a amostra ideal. Ele identificou 16 variáveis ​​como úteis e três como as melhores. "Dado o tamanho pequeno do conjunto de treinamento, a abordagem quântica deu uma vantagem na precisão dos métodos tradicionais usados ​​na comunidade de especialistas em física de alta energia", disse Lidar.


Maria Spiropoulou, física do Instituto de Tecnologia da Califórnia, usou o aprendizado de máquina para procurar bósons de Higgs

Em dezembro, Rigetti demonstrou uma maneira de agrupar automaticamente objetos usando um computador quântico de uso geral de 19 qubit. Os pesquisadores forneceram ao carro uma lista de cidades e as distâncias entre eles e pediram que ela classificasse as cidades em duas regiões geográficas. A dificuldade dessa tarefa é que a distribuição de uma cidade depende da distribuição de todas as outras, portanto, é necessário procurar uma solução para todo o sistema de uma só vez.

A equipe da empresa, de fato, atribuiu um qubit a cada cidade e observou em qual grupo foi designado. Através da interação de qubits (no sistema Rigetti, não é magnético, mas elétrico), cada par de qubits buscava valores opostos, pois nesse caso sua energia era minimizada. Obviamente, em qualquer sistema que contenha mais de dois qubits, alguns pares deverão pertencer ao mesmo grupo. Cidades localizadas mais próximas eram mais propensas a concordar com isso, uma vez que, para elas, o custo energético de pertencer ao mesmo grupo era menor do que no caso de cidades distantes.

Para trazer o sistema com o mínimo de energia, a equipe de Rigetti escolheu uma abordagem semelhante à da D-Wave. Eles inicializaram qubits com uma superposição de todas as distribuições de grupo possíveis. Eles permitiram que os qubits interagissem brevemente entre si, e isso os levou a aceitar certos valores. Em seguida, eles usaram um análogo do campo magnético horizontal, que permitia que os qubits invertessem a orientação, se tivessem uma tendência que levasse o sistema levemente a um estado de energia com energia mínima. Em seguida, eles repetiram esse processo de duas etapas - interação e revolução - até o sistema minimizar a energia, distribuindo cidades em duas regiões diferentes.

Tarefas de classificação semelhantes, embora úteis, são bastante simples. São esperados avanços em MO reais em modelos generativos que não apenas reconhecem filhotes e gatinhos, mas também são capazes de criar novos arquétipos - animais que nunca existiram, mas são tão fofos quanto os reais. Eles são capazes de derivar categorias independentemente como “gatinhos” ou “filhotes” ou reconstruir uma imagem que não tem uma pata ou cauda. "Essas tecnologias são capazes e muito úteis na região de Moscou, mas são muito difíceis de implementar", disse Mohammed Amin , cientista chefe da D-Wave. A ajuda de computadores quânticos seria útil aqui.

A D-Wave e outras equipes de pesquisa aceitaram esse desafio.Treinar esse modelo significa ajustar as interações magnéticas ou elétricas dos qubits para que a rede possa reproduzir alguns dados de teste. Para fazer isso, você precisa combinar a rede com um computador convencional. A rede está envolvida em tarefas complexas - determina o que esse conjunto de interações significa em termos da configuração final da rede - e o computador parceiro usa essas informações para ajustar as interações. Em uma demonstração no ano passado, Alejandro Perdomo-Ortiz , pesquisador do Laboratório de Inteligência Artificial Quântica da NASA, juntamente com uma equipe deu à D-Wave um sistema de imagem composto por números escritos à mão. Ela determinou que havia dez categorias no total, correspondia números de 0 a 9 e criou seu próprio rabisco na forma de números.

Gargalos no túnel


Todas essas são boas notícias. E a má notícia é que, por mais legal que seja o seu processador, você não pode fornecer dados para trabalhar. Nos algoritmos de álgebra matricial, uma única operação pode processar uma matriz de 16 números, mas ainda exige 16 operações para carregar a matriz. "A questão da preparação do estado - colocar os dados clássicos em um estado quântico - é evitada, e acho que essa é uma das partes mais importantes", disse Maria Schuld, pesquisadora da Xanadu, uma startup de computadores quânticos e um dos primeiros cientistas a se formar em CMO. Os sistemas MO fisicamente distribuídos enfrentam dificuldades paralelas - como introduzir uma tarefa em uma rede de qubits e fazer com que os qubits interajam conforme necessário.

Depois de poder inserir os dados, é necessário armazená-los de forma que o sistema quântico possa interagir com eles sem interromper os cálculos atuais. Lloyd e colegas propuseram RAM quântica usando fótons, mas ninguém possui um dispositivo analógico para supercondutores de qubits ou íons presos - tecnologias usadas nos principais computadores quânticos. "Este é outro grande problema técnico além do problema de construir o próprio computador quântico", disse Aaronson. - Ao me comunicar com os pesquisadores, tenho a impressão de que eles estão assustados. Eles não têm idéia de como abordar a criação deste sistema. ”

E, finalmente, como exibir os dados? Isso significa medir o estado quântico da máquina, mas a medição não apenas retorna um número de cada vez, escolhido aleatoriamente, mas também destrói todo o estado do computador, apagando o restante dos dados antes que você possa recuperá-lo. Você precisa executar o algoritmo repetidamente para obter todas as informações.

Mas nem tudo está perdido. Para alguns tipos de tarefas, a interferência quântica pode ser usada. É possível controlar o curso das operações para que respostas incorretas se cancelem e as corretas se reforcem; Assim, ao medir o estado quântico, você retornará não apenas um valor aleatório, mas a resposta desejada. Mas apenas alguns algoritmos, por exemplo, pesquisa com pesquisa exaustiva, podem tirar proveito da interferência, e a aceleração geralmente acaba sendo pequena.

Em alguns casos, os pesquisadores encontraram soluções alternativas para entrada e saída de dados. Em 2015, Lloyd, Silvano Garnerone, da Universidade de Waterloo, no Canadá, e Paolo Zanardi, da Universidade do Sul da Califórnia, mostraram que em certos tipos de análise estatística não é necessário inserir ou armazenar todo o conjunto de dados. Da mesma forma, não é necessário ler todos os dados quando vários valores-chave são suficientes. Por exemplo, as empresas de tecnologia usam a Região de Moscou para emitir recomendações sobre programas de televisão para visualização ou mercadorias para compra com base em uma enorme matriz de hábitos humanos. "Se você está criando um sistema desse tipo para Netflix ou Amazon, não precisa da matriz registrada em algum lugar, mas de recomendações para os usuários", diz Aaronson.

Tudo isso levanta a questão: se uma máquina quântica demonstra suas habilidades em casos especiais, talvez a máquina clássica também possa se mostrar bem nesses casos? Esta é uma questão importante não resolvida nesta área. Afinal, os computadores comuns também podem fazer muito. O método de seleção usual para processar grandes conjuntos de dados - amostragem aleatória - é na verdade muito semelhante ao espírito de um computador quântico, que, aconteça o que acontecer dentro dele, acaba produzindo um resultado aleatório. Schuld observa: “Eu implementei muitos algoritmos aos quais reagi como:“ É tão legal, é uma aceleração ”” e, apenas por diversão, escrevi a tecnologia de amostragem para um computador clássico e percebi que o mesmo poderia ser alcançado com ajudar na amostragem ".

Nenhum dos sucessos alcançados até o momento pela KMO está completo sem problemas. Pegue o carro D-Wave. Ao classificar imagens de carros e partículas de Higgs, não funcionou mais rápido do que um computador clássico. "Um dos tópicos não discutidos em nosso trabalho é a aceleração quântica", disse Alex Mott, especialista em TI do projeto DeepMind do Google, que trabalhou na equipe de pesquisa da partícula Higgs. Abordagens de álgebra matricial, como o algoritmo de Harrow-Hassidimi-Lloyd, demonstram aceleração apenas no caso de matrizes esparsas - quase completamente preenchidas com zeros. "Mas ninguém faz a pergunta - os dados esparsos geralmente são interessantes para o aprendizado de máquina?" - disse Schuld.

Inteligência quântica


Por outro lado, mesmo as raras melhorias nas tecnologias existentes podem agradar as empresas de tecnologia. "As melhorias resultantes são modestas, não exponenciais, mas pelo menos quadráticas", diz Nathan Vayeb , pesquisador quântico de computadores da Microsoft Research. "Se você pegar um computador quântico suficientemente grande e rápido, poderemos revolucionar muitas áreas da região de Moscou". E, no processo de utilização desses sistemas, os cientistas da computação podem talvez resolver um enigma teórico - eles são, na verdade, por definição, mais rápido e exatamente?

Schuld também acredita que há espaço para inovação no lado do software. MO não é apenas um monte de cálculos. Este é um conjunto de tarefas com sua própria estrutura específica definida. "Os algoritmos criados pelas pessoas são separados das coisas que tornam o MO interessante e bonito", disse ela. - Portanto, comecei a trabalhar do outro lado e pensei: Se eu já tenho um computador quântico - em pequena escala - que modelo de MO pode ser implementado nele? Talvez este modelo ainda não tenha sido inventado. Se os físicos quiserem impressionar os especialistas em MO, eles terão que fazer mais do que apenas criar versões quânticas dos modelos existentes.

Assim como muitos neurocientistas chegaram à conclusão de que a estrutura dos pensamentos humanos reflete a necessidade do corpo, os sistemas MO também se materializam. Imagens, idioma e a maioria dos dados que fluem através deles vêm do mundo real e refletem suas propriedades. O CMO também se materializa - mas em um mundo mais rico que o nosso. Uma área em que sem dúvida brilhará é no processamento de dados quânticos. Se esses dados não são uma imagem, mas o resultado de um experimento físico ou químico, uma máquina quântica se tornará um de seus elementos. O problema de entrada desaparece e os computadores clássicos estão muito atrasados.

Como em uma situação de círculo vicioso, os primeiros KMOs podem ajudar a desenvolver seus sucessores. "Uma das maneiras pelas quais realmente queremos usar esses sistemas é criar os próprios computadores quânticos", disse Weibe. "Para alguns procedimentos de correção de erros, esta é a única abordagem que temos." Talvez eles possam até consertar os erros em nós. Sem abordar a questão de saber se o cérebro humano é um computador quântico - e essa é uma questão muito controversa -, às vezes ainda se comporta dessa maneira. O comportamento humano é extremamente contextual; nossas preferências são formadas através das escolhas que nos são fornecidas e não obedecem à lógica. Nisto somos semelhantes às partículas quânticas. "Como você faz perguntas e em que ordem importa, e isso é típico dos conjuntos de dados quânticos", disse Perdomo-Ortiz.Portanto, o sistema CMO pode se tornar um método natural para estudar distorções cognitivas do pensamento humano.

Redes neurais e processadores quânticos têm algo em comum: é surpreendente que eles até funcionem. A capacidade de treinar uma rede neural nunca foi óbvia, e por décadas a maioria das pessoas duvidou que isso fosse possível. Da mesma forma, não é óbvio que os computadores quânticos um dia serão adaptados à computação, porque os recursos distintivos da física quântica estão tão bem escondidos de todos nós. No entanto, os dois funcionam - nem sempre, mas com mais frequência do que esperávamos. E, considerando isso, parece provável que sua unificação encontre um lugar para si mesma sob o sol.

Source: https://habr.com/ru/post/pt410777/


All Articles