A conferência Big Data, Meet Big Brother, organizada pela Fundação Sistema_VC, foi realizada em Moscou. Tudo estava lá: chegou um desenvolvedor israelense que sabe processar dados cem vezes mais rápido do que qualquer um. O MTS disse que o MTS morrerá se não se tornar uma empresa de TI. Empresários russos estavam dando alarme, tentando dissipá-lo.

Parece que todo mundo já está acostumado com o fato de que nas conversas sobre big data, especialmente se forem filosóficas, mais cedo ou mais tarde o supervilão orwelliano Big Brother aparecerá - assim como Hitler
em todas as disputas na Internet . Os organizadores não retiraram e venceram o selo imediatamente no título. A ansiedade - justificada ou não - faz parte do hype, o que fazer.
De fato, eles sonhavam com o grande encontro da antiguidade - de todos os tipos de egípcios antigos, quando as pessoas foram reescritas para entender como usá-las de maneira mais eficaz. No período de Pedro I, o big data (censo para cobrança de impostos) foi coletado por três anos e depois processado por mais três anos. Agora, com exceção desse processo, adicionamos fios, velocidades e tipos de dados. Tudo em nome da eficiência, otimização e um sonho ainda mais antigo da humanidade - para que tudo de alguma forma se torne feito por si mesmo.
As empresas sonham que tudo deve ser claramente segmentado, deve-se decidir quem, o que e quando vender. Os compradores querem que tudo o que for necessário seja comprado, ligado, mastigado e digerido. Na conferência, pessoas inteligentes se reuniram para discutir como conseguir isso. Eu os ouvi com inteligência, perguntei e escrevi tudo.
Yorgan Calllebout e Psicologia em Big Data

A conferência começou com um discurso do psicólogo Jorgan Calllebaut. Ele trabalha para o DataSine. Com a ajuda do aprendizado de máquina e dos modelos psicológicos, eles segmentam o público e estudam quem precisa mostrar quais anúncios.
Funciona assim: eles coletam todos os dados que encontram - desde registros na Internet até o histórico de pagamentos - e com a ajuda do aprendizado de máquina, eles os sobrepõem ao modelo psicológico dos Grandes Cinco.
extroversão - introversão
anexo - isolamento
autocontrole - impulsividade
instabilidade emocional - estabilidade emocional
expressividade - praticidade
Yorgan afirma que o quarto ponto que sua empresa não usa, porque não é ético. Segundo ele, supostamente, podemos concluir sobre a saúde mental de uma pessoa e usá-la contra ela.
Os métodos de distribuição, é claro, são deduzidos pela pessoa e, se não forem aprofundados, parecem bastante estereotipados. Por exemplo, Yorgan diz que se você compra muitos livros, provavelmente é um introvertido. Se você costuma gastar dinheiro em bares - provavelmente extrovertido (porque os introvertidos estão em casa e ficam calados).
Para a pergunta "por que mais ?!" Yorgan tem uma resposta médica. O problema é o hormônio acetilcolina, ao qual todas as pessoas têm diferentes graus de sensibilidade. Se uma pessoa é sensível ao hormônio, ela se torna introvertida e, com fortes emissões de, digamos, interação com as pessoas, fecha-se em um nódulo e engole a língua. Extrovertidos têm um limiar mais alto para a estimulação hormonal. Portanto, a multidão, barulho e comunicação por algum tempo podem não incomodá-los.
O hormônio espirra não apenas à vista das pessoas, mas também reage a muitas coisas - cores, sons, palavras. Portanto, para extrovertidos e introvertidos, a equipe de Yorgan faz várias cartas publicitárias.
Por exemplo, usamos as mesmas figuras e fatos, mas organizamos as cartas na lista de correio de maneiras diferentes. Para extrovertidos, colocamos fotos alaranjadas, brilhantes. Para introvertidos, azul e frio. O aprendizado de máquina nos ajuda a escolher essas fotos. Pelo fato de você alterar uma imagem no email, o número de cliques no link aumenta em 40%. Se você também configurar o texto, os coeficientes aumentam para 80%.
Quando Yorgan foi perguntado ansiosamente se a introdução de big data nos transformaria em introvertidos, ele respondeu que não, não. Como nasceu, então você será.
Mas essa foi a mais incomum das perguntas preocupantes. O resto foi nos clássicos - mas as empresas não começarão a nos manipular com esses seus aparelhos psicológicos?
Muitas empresas nem chegaram ao nível em que poderiam usar big data, muito menos manipular alguém com sua ajuda. E, em geral, não vamos manipulá-lo. Não queremos forçá-lo a fazer algo contra sua vontade. Personalizamos apenas as ofertas para que todos fiquem felizes.
Banco de dados Ami Gal e GPU Speed

Ami Gal, o fundador da SQream, veio de Tel Aviv para a conferência. Sua empresa está desenvolvendo seu banco de dados, que, segundo o comunicado, é 100 vezes mais rápido que o normal devido ao processamento de solicitações para a GPU. Isso o torna adequado para trabalhar com big data.
Dos exemplos, Ami falou sobre o caso do Israeli Cancer Research Center. Há um banco de dados sobre o tratamento de milhares de pacientes há décadas, há amostras dos genes de cada paciente, informações sobre todas as anomalias, reações e, é claro, o sucesso de um determinado tratamento.
Reunindo enormes conjuntos de dados, os cientistas aprenderam a selecionar os métodos de tratamento estatisticamente mais adequados para cada novo paciente. O problema era que poderia haver até 6 bilhões de registros em apenas uma coluna dessa tabela. Anteriormente, a análise levava 2 meses - agora leva 2 horas.
Ou seja, assim que os cientistas recebem uma amostra do DNA do paciente, eles imediatamente sabem qual método é mais provável de levar ao sucesso.
Eu estava interessado em aprender mais sobre Ami, sua empresa e tecnologia, então perguntei a ele sobre tudo pessoalmente.

Ami estudou ciências da computação e física na Universidade de Tel Aviv, depois trabalhou como programador e, em 1996, fundou sua primeira empresa. Segundo ele, então não era como a vida cotidiana moderna das startups de tecnologia: "Tínhamos que fazer algo e vendê-lo imediatamente aos clientes para sobreviver".
Em 2000, ele fundou a Magic Software com parceiros. Lá, Ami assumiu o cargo de diretor técnico e vice-presidente de P&D, mas gradualmente passou da tecnologia para os negócios - "mudou-se para o lado sombrio".
Depois de deixar o Magic depois de três anos, Ami começou a investir em startups. "Se as startups contam com parentes, amigos e tolos, então eu fui uma das últimas", ele ri.
E, finalmente, em 2010, juntamente com um migrante russo, Kostya Varakin, Ami teve a idéia de acelerar os bancos de dados usando uma GPU e fundou o SQream.
- Quando a ideia surgiu, não houve sensação do tipo "Sim, é óbvio! Por que ninguém ainda está processando consultas SQL na GPU? ”Hoje é óbvio. Mas quando começamos, ninguém queria nos ouvir. Pareceu a todos que isso era impossível.
A ideia veio ao meu co-fundador Kostya Varakin de São Petersburgo. Mas ela parecia tão impossível que ele não decidiu falar imediatamente. E eu pensei - usar uma GPU não é para jogos, mas para processamento de dados - é legal. Começamos a trabalhar, colocamos essa abordagem no coração da empresa.
Obviamente, acreditávamos que as GPUs eram ótimas para dados, e todo mundo começaria a usá-las ali mesmo. Mas eles não começaram. Lembro que quando eu queria aumentar os investimentos, as pessoas nos negócios reagiram assim: “Você está brincando? Processamento de dados GPU? Isso não acontece, vá embora. "
Apenas seis anos depois (cerca de dois a três anos atrás) a GPU se tornou popular graças ao seu trabalho com IA, profundo aprendizado de máquina. E, é claro, agora o processamento de dados na GPU deixou de parecer uma idéia estranha.
"As pessoas que você propôs a ideia não viram velocidade?"Visto, todo mundo viu. Mas o fato é que as GPUs são projetadas para trabalhar com gráficos vetoriais. E a maneira como processamos dados é exatamente o oposto de trabalhar com um vetor. O chip não foi projetado para esse tipo de cálculo. Portanto, com o software, devemos fazer com que o processador acredite que processa, por exemplo, vídeo, embora não seja assim. Ou seja, você precisa converter tudo antes e depois da GPU, porque ela aceita apenas o vetor.
Tivemos que resolver problemas complexos e dividi-los em listas de instruções simples para o processador. Mas parecia quase impossível.
- E qual foi o mais difícil de desenvolver?Trabalhe com russos (risos). De fato, a coisa mais difícil da história da empresa não foi uma solução técnica. No começo, planejávamos desenvolver apenas um acelerador para os bancos de dados de outras pessoas. Algo que irá acelerar o Oracle, MS SQL. Digamos que enviamos uma solicitação para a Oracle e ela corre mais rapidamente graças à GPU.
Entramos no mercado com a pergunta: "Você precisa de algo que faça com que seu banco de dados funcione 20 vezes mais rápido"? E o mercado respondeu: "Não, não é necessário".
O problema era que interceptamos a solicitação entre o mecanismo e o cliente. Isso foi uma interferência com a Oracle. Nos disseram: "Isso é impossível - envie uma solicitação ao seu mecanismo e processe você mesmo". E dizemos: "Não temos um banco de dados".
"Então faça."
Examinamos como outras empresas agem e como os data warehouses com arquitetura MPP são organizados. Todos eles são criados com base em outro banco de dados - principalmente PostgreSQL ou MySQL. Vertica, Greenplum e outros repositórios herdados são todos construídos em torno do PostgreS.
Decidimos tentar também. Eles pegaram o PostgreSQL e o implementaram na GPU. Acabou bem devagar: a velocidade aumentou apenas duas vezes. Ninguém traduziria bancos de dados na GPU por uma questão de aceleração em duas vezes. Não sabíamos o que fazer, não dormimos por uma semana. Com todo o respeito a mim e aos meus colegas, não podíamos dar ao luxo de construir um banco de dados do zero - esse é um projeto muito grande.
Mas tentamos e, depois de criar o primeiro bloco, a produtividade aumentou 18 vezes. Decidimos continuar, embora soubéssemos que o caminho seria longo e difícil. Essa decisão acabou sendo a mais difícil durante todo o tempo de operação do SQream. Afinal, isso significava que precisaríamos de muito mais dinheiro, pessoas e tempo para construir uma empresa.
Falando do ponto de vista da tecnologia, o mais difícil foi iniciar um JOIN usando uma GPU entre duas tabelas grandes em disco.
- Qual é a sua pilha?Usamos o CUDA para trabalhar com a GPU. Nós escrevemos tudo em C ++, Haskell e um pouco em Erlang.
Quando você trabalha com bilhões de transações por um determinado período de tempo, digamos, em uma fração de segundo, você precisa de algo muito próximo ao hardware.
Vamos do assembler para o Cuda e para o C ++. Se você adicionar outra coisa ao longo do caminho, a velocidade já cairá, por isso precisamos ser o mais baixo possível. Tentamos trabalhar com outras plataformas: por exemplo, usamos OpenCL em vez de Cuda, mas tudo isso não foi tão bem-sucedido, o processo foi muito lento.
Precisamos ir o mais fundo possível para que a produtividade seja alta.
Para isso, usamos linguagens de programação como C ++, Haskell, Cuda. Em alguns momentos, implementamos o Erlang, mas isso acontece com muito menos frequência - usamos o mesmo C ++ cada vez mais.
- Se eu trabalhasse apenas com bancos de dados regulares, no caso de mudar para o seu, precisarei treinar novamente?Do ponto de vista do idioma, não há necessidade de aprender nada de novo. Se você escreveu em SQL, tudo será o mesmo aqui. Há coisas que funcionam de maneira diferente. Mas as especificações descrevem bem como configurar tudo.
- A aceleração declarada de 100 vezes é o máximo que você pode extrair da GPU?Não acho que nossa empresa tenha atingido 10% do possível. Já em setembro, estamos lançando a terceira versão do produto, na qual dobraremos a produtividade. No futuro, planejamos aumentá-lo cada vez mais. O desempenho da CPU desde 2006 quase não está aumentando, e a quantidade de dados está crescendo exponencialmente. O desempenho da GPU está crescendo da mesma maneira.
Acontece que estamos no começo do ciclo de vida. Uma das coisas que planejamos em breve é aumentar o desempenho não apenas em uma GPU, mas também em várias. Imagine qual será a velocidade! Aqui está um pedido com duração de 100 segundos. Nós o dividimos em vários pequenos entre dez GPUs - e a solicitação passa em um instante.
Geralmente, penso que estamos à beira de uma nova era em que a computação de GPU se tornará dominante no processamento de dados.
"Por que eles ainda não?" O que para?Muito disso. Eu posso citar três obstáculos.
O primeiro não é tão forte quanto antes, mas ainda existe. Quando chegamos a empresas que trabalham com Oracle ou IBM, elas se deparam com uma escolha - vá para uma pequena startup de Tel Aviv ou fique com um grande participante. Mesmo se eles forem resolvidos, esse processo será bastante atrasado.
A segunda barreira é a falta de pessoas. Tel Aviv é um pequeno vale do silício. Israel tem uma concorrência muito alta por funcionários: levo três meses para encontrar o funcionário certo, embora eu precise dele em três segundos.
E finalmente, o terceiro - como proprietário de uma empresa de tecnologia, posso dizer que sempre há alguém mais inteligente que você e muito mais. Temos constantemente que garantir que a tecnologia esteja no auge das oportunidades e muito para investir nela.
- Não lhe parece que a GPU ainda é uma "muleta" e, para os dados, seria melhor encontrar ou inventar sua própria unidade de processamento?Obviamente, estamos procurando novos tipos de processadores - não apenas gráficos. Agora, existem tecnologias e melhores - elas aparecerão no mercado nos próximos dois anos. É preciso estar preparado para isso. É por isso que estamos em contato com startups, fabricantes de chips de computação, incluindo computadores quânticos.
Assim que essas tecnologias se desenvolverem, o mundo poderá resolver problemas muito mais rapidamente, e isso, é claro, não pode esperar para ver. Para ser muito otimista, em cinco anos aparecerão as primeiras máquinas desse tipo, suas versões muito iniciais, adequadas para pesquisas acadêmicas. E menos de dez anos se passarão antes das primeiras tentativas de introduzir essa tecnologia em campos públicos: medicina e segurança. Antes disso, a GPU funcionará bem. É interessante ver o que eventualmente se torna mais rápido.
Empresas russas e big data

Entre as apresentações, pessoas jovens e bonitas passeavam pelo espaço elegante, andavam no telhado, conversavam e bebiam limonada de ervas. Não o comprei por causa da estúpida acetilcolina (obrigado a Yorgan por explicar), mas não estou ofendido.
Então, Leonid Tkachenko, chefe do departamento de Big Data da MTS, Alisa Chumachenko, fundadora do GOSU Data Lab, fundadora do Segmento Roma Nester e Yevgeny Isupov do Tinkoff Bank, entraram no palco para discutir big data.
Tanto eu como o público fomos perfeitamente abordados pelas declarações de Leonid. É incomum ouvir esse nível de franqueza do topo de uma das maiores empresas da Rússia. O fato de citá-lo aqui mais não significa que ele falou muito mais do que qualquer outra pessoa (este não é um anúncio da MTS. Eu tenho um operador diferente, e Leonid, a julgar por suas palavras, já suportou isso. Embora, mesmo nesse caso, ele esteja falando de mim sabe mais do que eu pensava).

Ele começou imediatamente com o fato de que o Big Data realmente não está funcionando no momento e o mito está inchado. Segundo ele, se o problema não puder ser resolvido por métodos convencionais, nada mudará com o advento do big data.
Por exemplo, o MTS tinha um modelo de previsão de rotatividade de clientes bem-sucedido. Quando o big data foi aplicado, o crescimento foi completamente insignificante. E exatamente o oposto. O MTS não conseguiu prever quando os assinantes decidiriam mudar para uma tarifa mais barata (para ligar com antecedência e dissuadir alguns bônus). Quando tentamos resolver o problema usando big data, ele ainda não funcionou.
Não é necessário procurar um milagre nas tecnologias de Big Data
Evgeny Isupov se opôs a ele:
- Quando adicionamos novos dados ou matemática mais especializada, o que nos permite fazer engenharia avançada de recursos, para gerar recursos difíceis de serem encontrados por uma pessoa, vimos um aumento significativo lá.
E com isso Leonid concordou:
- Aqui também está um exemplo em que a adição de novos dados desempenha um papel significativo. Se observarmos como nossos assinantes ligam, sabemos que eles estão ligando. Vale a pena adicionar uma geoanálise mínima, uma estação base onde o telefone passa a maior parte das noites e uma estação base onde está localizado cinco dias por semana. Tudo - sabemos onde você mora e trabalha.
Se adicionarmos a modelagem com base no perfil de chamada - e o fizemos - podemos restaurar toda a sua família. Vemos que há três assinantes do MTS, outro mais rápido e outro megafone. Não temos geoanalistas, apenas sabemos como eles chamam nossa rede.
Nesse modelo, existem mais de mil coisas muito sutis e significativas que você mesmo não gerará. Por exemplo, esse recurso - como a densidade da comunicação entre as pessoas muda de 3 para 4 na sexta-feira e de 4 para 5. E assim por diante. Aceitamos todos os pares de amigos ou estranhos que se chamam muito, impõem milhares de recursos e são capazes de dividi-los em duas partes: casais que moram juntos e casais que não moram juntos.
Alisa Chumachenko liderou a idéia em uma direção pragmática - em primeiro lugar, segundo ela, as tarefas estão indo, não as tecnologias. Se fizer sentido fazer algo com a ajuda do big data, e for mais rentável e mais eficaz do que os métodos antigos, eles serão usados. Trabalhar com Big Data em prol do Big Data não é necessário, mas por algum motivo muitos estão tentando.
Big data é exatamente hype e aparecerá onde não pertence.
Quando ela perguntou se alguém tinha ouvido falar do DeepMind, estendi minha mão com o pensamento: "Senhor, é claro que todos ouviram, eles são, malditamente, mais conhecidos que o Papa". Mas cerca de cinco pessoas levantaram os braços.
Então Alice começou a falar sobre a vitória da IA no Go e acrescentou um fato que pessoalmente me surpreendeu. Acontece que para uma rede neural treinada encontrou aplicação prática. É usado para resfriar os servidores do Google.
A IA examina que tipo de serpentina de resfriamento, onde e quando torcer, aprende, estimula e pune - e esse processo já reduziu os custos do servidor em 40%.A própria Alice, já que trabalha com jogos, sonha com um sistema que saiba tudo sobre suas preferências de jogo. Lembrou-se da primeira vez que entrou no League of Legends, e o jogo lhe deu 30 segundos para escolher um de algumas centenas de heróis.- Se o jogo soubesse que sempre jogo apoio - destacaria os heróis que mais me agradam e me aconselhou a não tocar no resto. Se o jogo soubesse que eu amo, eu me converteria em um usuário e suportaria o dinheiro.
Falando sobre o futuro do big data, um monólogo legal deu a Leonid:- MTS é um homem na casa dos 50. Tudo está para trás. Adiante é uma vida miserável, ou em geral no Vagankovo. Telecom clássico é o fim. Estamos cientes disso e, como empresa, estamos procurando um novo corpo, onde transferir nossa alma para um novo negócio. E neste corpo nós terminamos.Big Data pode se tornar um. Temos três estratégias:
- A acumulação completa de todos os dados sobre o cliente em geral, mesmo que não entendamos como usá-los. As tecnologias de armazenamento são baratas o suficiente para armazenar tudo.
- Dados abertos Os cientistas acessam os dados e tentam cegar alguma coisa.- Construir um novo negócio baseado no conhecimento das pessoas, baseado na penetração em suas cabeças, almas, desejos. Torne o máximo de personalização possível. Saber tudo sobre você, como se estivéssemos observando e espionando você sem fazer isso.
E a última milha desse negócio já foi construída - para capturar uma pessoa na Internet e mostrar-lhe um anúncio. Resta construir o primeiro, penetrar profundamente e profundamente e descobrir o que essa pessoa quer ver. Para que cada segunda pessoa compre.
Leonid acredita que o futuro dos dados pode ser de duas maneiras. Ou os dados se tornarão propriedade das pessoas e elas poderão vender informações sobre si mesmas, decidir qual empresa e o que abrir. Ou os dados se tornarão propriedade completa dos estados.
Saberá absolutamente tudo sobre nós. Mas pelo menos a vida será mais segura.
Todos concordam que os dados serão fortemente regulamentados de uma maneira ou de outra.- Todo mundo que enfrenta o GDPR nos últimos seis meses entende que o acesso a dados privados será fortemente regulamentado. Por outro lado, há a China, olhando para a qual você entende que não é. É provável que a Rússia siga a versão chinesa. De qualquer forma, as grandes empresas que armazenam esses dados (olham maliciosamente Leonid) terão dificuldades.O romance acredita que a ansiedade nasce da ignorância e do mal-entendido:- Estamos em estado de pânico tecnológico. Todo mundo tem medo de que alguém saiba algo sobre eles, e todo mundo não gosta. Por exemplo, existem 15 razões tecnológicas e comerciais pelas quais o Facebook não é rentável para espionar as pessoas. Mas as pessoas acreditavam nisso e agora percebem o serviço de maneira diferente.O processo de coleta de dados deve ser transparente para que as pessoas não tenham medo.
Como em todas as questões globais, as contradições nascem em pequenas coisas. Onde traçar a linha entre privacidade e conforto, onde a quem e em que casos tornar públicas as informações pessoais.Como Eugene disse, quando informações como "o que você fez ontem à noite" são usadas contra você para rir ou até machucá-lo, é claro que você não deseja abri-las. Mas se essas informações podem, por exemplo, melhorar a saúde ou o sono, elas podem ser doadas.Roman acredita que vale a pena ter medo de pequenas empresas:"As grandes empresas vazam mais caro do que vender meus dados". Eles estão pressionando pequenas empresas que estão se esforçando para monetizar dados com todo o seu poder. Adquirimos dados de 40 fontes e alguns de empresas que não nos ofereceram dados sobre pessoas. Quando você pode fechar amanhã, você não tem uma grande responsabilidade para com a sociedade e as pessoas.Alice, pelo contrário, acredita em um futuro brilhante:- Eu só quero pensar que você não tem uma conta bancária, eles lhe enviaram um cartão uma vez. Hoje, tudo o que fazemos é tornar-se público. Como não acredito em cenários extremos, quero que a IA apareça mais cedo, mostrando e oferecendo tudo o que é relevante.E Leonid resumiu:- Se você quiser dar tudo de si, é melhor desligar o telefone.Em vez de conclusões
Ao falar sobre o Big Brother, lembro-me sempre de uma história. Quando Orwell escreveu 1984, ele enviou uma cópia para seu professor, Aldous Huxley. Ele respondeu em uma carta - ele elogiou o livro, mas não concordou com a idéia. Ele acreditava que "a promoção da infantilidade e da hipnose por drogas é muito mais adequada para ganhar poder do que prisões e cassetetes".Obviamente, assustar-se com o fato de que “o Big Brother está te observando” é muito mais espetacular, e temê-lo é muito mais divertido. Mas, caro Sistema_VC, acho que o nome Big Data, Conheça o Admirável Mundo Novo seria melhor.