Como a tecnologia na memória mudou a inteligência comercial

Cerca de 5 milissegundos vão de solicitação a resposta se os dados estiverem armazenados no disco rígido. O SSD responde 30 vezes mais rápido - em 150 microssegundos. A RAM requer 300.000 vezes menos tempo - apenas 15 nanossegundos. *



Você pode conversar por um longo tempo sobre como a inteligência comercial ajuda nas finanças ou na logística. Existem muitas maneiras de aplicar informações, novas aparecem o tempo todo. Mas o princípio de operação de diferentes soluções analíticas é o mesmo e consiste em combinar dados de diferentes fontes e analisá-los juntos - ou seja, em sua totalidade.

Para usar informações de várias fontes, você precisa se conectar a elas e extrair dados. Mas os dados foram criados de maneiras diferentes, com diferentes frequências e armazenados em diferentes formatos. Portanto, antes de visualizar os dados ou transferi-los para outros sistemas para processamento adicional, eles precisarão ser combinados usando algumas operações matemáticas - transformação.

A tecnologia na memória consiste no fato de que todos os dados de diferentes fontes são carregados de uma só vez na RAM. Depois disso, a transformação pode ser realizada "on the fly", sem consultar o disco. Por exemplo, clique para selecionar uma dimensão e obter imediatamente um gráfico que exibirá os valores dos indicadores na seção desejada. Devido ao fato de todos os dados já estarem na RAM, o aplicativo analítico não precisa fazer solicitações ao disco rígido para obter novas informações.

Esta introdução deve me ajudar a falar sobre como e por que as tecnologias subjacentes às soluções analíticas modernas mudaram.

Foi caro no começo


"A memória é a nova unidade", disse o pesquisador da Microsoft, Jim Gray, no início dos anos 2000. Em 2003, ele publicou um artigo, "The Economics of Distributed Computing", ** onde comparava o custo dos vários estágios do processamento de dados em computadores. Jim Gray mostrou que os cálculos deveriam estar no mesmo local que os dados - para não movê-los novamente. Ele aconselhou mover os cálculos o mais próximo possível das fontes de dados. Ou seja, filtre os dados o mais cedo possível e salve como resultado.

Nos anos seguintes, o DBMS na memória apareceu no mercado de vários líderes do setor, incluindo Oracle, IBM e SAP, além de vários projetos de código aberto - por exemplo, Redis e MemcacheDB.

A primeira tarefa que o DBMS resolveu na memória não foi a análise de negócios ou mesmo aplicativos de negócios, mas oportunidades de comércio eletrônico que se abrem em conexão com a extração instantânea de informações. Por exemplo, um DBMS na memória pode permitir que uma loja on-line em tempo real ofereça aos clientes produtos com base em suas preferências ou exiba anúncios.

O mercado de soluções corporativas de análise de dados evoluiu em um caminho diferente. A maioria das empresas está intrinsecamente ligada a sistemas que utilizam DBMSs transacionais, baseados em princípios desenvolvidos nos anos 80 do século passado. Sua tarefa é salvar constantemente pequenas porções de dados que vão para o fluxo em disco e confirmar imediatamente sua integridade (cenário de trabalho OLTP). Entre os sistemas que utilizam esse DBMS estão as soluções ERP, sistemas bancários automatizados, cobrança, terminais POS.

Mas as tarefas analíticas exigem um banco de dados completamente diferente. Aqui você precisa recuperar rapidamente as informações salvas anteriormente. Além disso, em grandes partes - para cada relatório analítico, absolutamente todos os dados que devem ser refletidos nele serão necessários. Mesmo se o próprio relatório consistir em um dígito.

Além disso, seria bom fazer o upload de dados o mais raramente possível, porque o volume pode ser grande e carregar um grande conjunto de dados usando consultas analíticas trará vários obstáculos.

Em primeiro lugar, o disco rígido que armazena informações é lento. Em segundo lugar, a estrutura do armazenamento de dados em um DBMS tradicional não permitirá que ele execute rapidamente uma consulta analítica. Os dados foram armazenados linha por linha - à medida que foram recebidos, portanto, fisicamente próximos, estão os valores que pertencem a uma linha. E, em resposta a uma consulta analítica, o banco de dados precisa retornar os valores de uma coluna, mas de linhas diferentes. Portanto, essas solicitações são lentas e criam uma grande carga no sistema de armazenamento. Ou seja, a localização das informações no disco é organizada de maneira inadequada.

Assim, os DBMSs tradicionais, nos quais todas as informações iniciais para análise foram inicialmente armazenadas, eram pouco adequados para desempenhar o papel de uma fonte de dados à qual o sistema analítico está conectado diretamente. Portanto, no século passado, para tarefas analíticas, a prática padrão era usar um modelo de dados intermediário no qual todos os valores já são calculados em algum momento. Esse modelo de dados foi chamado de "cubo analítico" ou cubo OLAP. Para criar um cubo OLAP, foram desenvolvidos os chamados processos ETL (extrair, transformar, carregar) - consultas a bancos de dados nos sistemas de origem e as regras segundo as quais as transformações de dados devem ser realizadas. Obviamente, se não houver informações no cubo OLAP, elas não poderão aparecer no relatório.

O problema com essa abordagem foi o alto custo da solução. Primeiro, era necessário um data warehouse, onde os indicadores pré-calculados seriam colocados. Em segundo lugar, se precisávamos de um determinado indicador em um contexto diferente, para obtê-lo, todos os processos de transformação de dados no caminho do sistema de origem para o cubo OLAP precisavam ser recriados reescrevendo as consultas analíticas. Em seguida, recalcule o cubo OLAP inteiro, o que levou várias horas.

Suponha que um cubo OLAP contenha informações de vendas para diferentes países. Mas o CFO de repente queria ver as vendas por cidade e depois agrupá-las pela fatura média. Para receber esse relatório, ele precisou entrar em contato com o departamento de TI para reconstruir o cubo OLAP. Ou ele poderia forçar as coisas e atrair um conhecedor do MS Excel, que criaria esse relatório manualmente. Para fazer isso, ele teve que descarregar dados dos sistemas de origem em tabelas usando consultas analíticas e fazer várias manipulações trabalhosas e não declaradas com elas.

No primeiro caso, o CFO teve que esperar. No segundo, ele recebeu números difíceis de confiar.

Além disso, a solução acabou sendo muito cara. Era necessário gastar dinheiro na criação de um repositório, que deve ser administrado. Era necessário contratar especialistas em DBMS para fazer ETL - reconstruir cubos OLAP para cada tarefa. Paralelamente, analistas especiais geralmente apareciam na empresa, que criava relatórios sob demanda (os chamados relatórios ad-hoc). De fato, eles inventaram maneiras diferentes de obter o relatório desejado usando o MS Excel e superaram as dificuldades associadas ao fato de este programa ser projetado para outras tarefas.

Como resultado, o caminho dos relatórios era caro, mesmo para grandes empresas. Os gerentes de pequenas e médias empresas tinham que se contentar com as oportunidades disponíveis no MS Excel.

A solução foi encontrada em outro lugar.


Em 1994, a então empresa sueca QlikTech da pequena cidade de Lund lançou o programa QuikView, que mais tarde foi renomeado para QlikView. O aplicativo foi projetado para otimizar a produção. Tornou possível saber o uso de quais partes e materiais estão conectados e quais não estão. Ou seja, o programa foi solicitado para visualizar as relações lógicas entre peças, materiais, montagens e produtos. Para fazer isso, ela carregou os conjuntos de dados de memória RAM de diferentes fontes, comparou-os e mostrou instantaneamente a conexão.

Por exemplo, existem várias tabelas com atores, seus papéis em filmes, diretores, gêneros, datas de lançamento, honorários - com qualquer coisa. Todos eles são carregados na RAM. Agora você pode clicar em qualquer parâmetro para selecioná-lo e ver imediatamente todos os outros associados a ele. Clicamos em Brad Pitt - temos bilheteria de todos os filmes em que ele estrelou. Escolha comédias - obtenha a quantidade de comédias de bilheteria com Brad Pitt. Tudo isso acontece instantaneamente, em tempo real.

Embora naqueles anos no mercado de tarefas analíticas de sistemas de informações corporativas fossem resolvidas usando modelos de dados intermediários - cubos OLAP, a abordagem da QlikTech se mostrou muito mais conveniente. Permitiu abandonar o estágio intermediário na forma de cálculo de um cubo OLAP e, como resultado, economizar muito.

O aplicativo analítico foi conectado diretamente às fontes e carregado periodicamente todos os dados necessários para o relatório na RAM. A necessidade de alterar os processos ETL a cada vez para obter os valores dos indicadores em novas seções desapareceu - agora eles são calculados em tempo real no momento da solicitação. Não é mais necessário criar e administrar um armazém de dados. O custo de propriedade da solução analítica despencou.

Com a proliferação de servidores de 64 bits que tornaram possível trabalhar com grandes quantidades de RAM, a tecnologia na memória rapidamente começou a mudar a inteligência comercial. Isso é bem ilustrado por relatórios da empresa de pesquisa Magic Quadrant, Gartner. Em 2016, seis desenvolvedores da plataforma de BI deixaram o quadrante de líderes de uma só vez, incluindo veteranos do setor como IBM, Oracle e SAP. Restam apenas três jogadores que confiaram na tecnologia da memória e abandonaram os cubos OLAP. Estes são Microsoft, Qlik e Tableau.


Posição dos jogadores no quadrante mágico do Gartner para plataformas de análise e inteligência de negócios ***

Podemos dizer que a Qlik se tornou pioneira e líder na transformação do mercado. Em 2016, a plataforma de análise de dados QlikView foi usada por clientes em todo o mundo e as vendas anuais ultrapassaram US $ 600 milhões.

De relatórios a gerenciamento orientado a dados


Com a disseminação de soluções analíticas baseadas na tecnologia de memória, um grande número de empresas abriu maneiras anteriormente inacessíveis de usar dados corporativos. Houve uma oportunidade de não se limitar aos relatórios gerenciais, que são padrão para cada um dos setores. Uma variedade de processos começou a "medir" - para introduzir métricas e usá-las para descrever processos. Tornou-se muito mais fácil usar informações objetivas para tomar decisões mais informadas. O número de usuários de negócios que trabalham com dados aumentou bastante.

Uma enorme influência sobre o interesse no uso de dados foi causada por mudanças no comportamento e no marketing do consumidor, que se tornaram digitais - ou seja, com base em métricas. Muitas pessoas novas foram atraídas pela Data Science pelas expectativas de como o mundo mudará o Big Data.

Como resultado de todos esses processos, a “democratização” dos dados corporativos ocorreu rapidamente. Anteriormente, os dados pertenciam aos serviços de TI. Marketing, vendas, inteligência de negócios e executivos entraram em contato com o departamento de TI para obter relatórios. Agora, os funcionários trabalhavam com os dados por conta própria. Verificou-se que o acesso direto dos funcionários aos dados pode aumentar a produtividade e dar uma vantagem competitiva.

No entanto, a primeira geração de soluções analíticas baseadas em tecnologia em memória deu aos usuários de negócios oportunidades muito limitadas para usar dados. Eles só podiam trabalhar com painéis e painéis prontos. A tecnologia na memória permitiu que eles "caíssem" profundamente em qualquer indicador e vissem do que é feito. Mas sempre foi sobre os indicadores que são determinados com antecedência. O estudo foi limitado a visualizações já no painel. Esse método de usar dados era chamado de “análise direcional” e ele não supunha que o usuário de negócios conectasse independentemente novas fontes e criasse indicadores e visualizações ele mesmo.

O próximo passo na democratização dos dados foi o autoatendimento. A idéia do autoatendimento era que os usuários de negócios explorassem os dados, criando visualizações e introduzindo novos indicadores por conta própria.

Vale ressaltar que, quando a tecnologia na memória começou a mudar a análise de negócios, não havia sérios obstáculos tecnológicos antes de dar aos usuários acesso a todos os dados. Talvez os clientes mais conservadores tenham uma pergunta sobre a adequação de tal função. Mas o mundo já se voltou na direção do desejo de "contar tudo". Agora, os gerentes que não possuem habilidades matemáticas e de programação também precisavam de uma ferramenta que lhes permitisse falar a linguagem de dados.

O acesso direto aos dados para analistas de negócios abriu muitas novas oportunidades. Eles poderiam apresentar e testar quaisquer hipóteses, aplicar métodos de ciência de dados, identificar essas dependências, cuja existência é difícil de prever com antecedência. Agora você pode combinar dados corporativos internos com dados externos obtidos de fontes de terceiros.

Em setembro de 2014, a Qlik lançou a segunda geração de sua plataforma, chamada Qlik Sense. O Qlik Sense usou a mesma arquitetura e a mesma tecnologia. A diferença estava na nova abordagem para criar visualizações. Agora, as visualizações padrão podem ser criadas em tempo real, basta arrastar e soltar campos com as dimensões desejadas na planilha. Isso simplificou a mineração de dados devido a uma redução muito acentuada no ciclo de pesquisa. Um teste de hipóteses começou a levar apenas alguns segundos.

Talvez o rápido crescimento nas vendas de plataformas analíticas de autoatendimento se deva principalmente à facilidade de demonstração. Se antes o cliente tivesse que tomar uma decisão de compra, considerando os slides da apresentação, agora ele poderia instalar o programa em seu computador, conectar-se a fontes e em algumas horas percorrer todo o caminho, desde a criação de um painel até a abertura em seus dados.

Existem dados. O que agora


A tecnologia na memória teve um grande impacto em como as empresas usam as informações hoje. Combinar e explorar dados ficou mais fácil, e foi um forte impulso comercial para a transformação digital. No entanto, é tolice dizer que a transformação digital se tornou comum e agora qualquer empresa pode implementá-la facilmente.

Do ponto de vista da tecnologia, tudo é simples, desde que a quantidade de dados estudados seja limitada a várias tabelas do Excel. Se se tratar de combinar bilhões de registros, provavelmente a tarefa continuará sendo difícil do ponto de vista técnico, e sua solução exigirá experiência no campo das descobertas de BI e engenharia. Especialmente se você ainda precisar gerenciar a qualidade dos dados, que é uma tarefa comum para a maioria das empresas de médio e grande porte.

Do ponto de vista comercial, tudo é simples, desde que você precise de relatórios ou painéis com indicadores padrão do setor. Se estamos falando de um sistema analítico, no qual novas fontes são constantemente adicionadas, novas métricas são introduzidas e especialistas de várias áreas estão envolvidos nisso tudo, então também não há simplicidade.

No entanto, essas não são as dificuldades que os clientes superaram há vários anos. O nível de maturidade das plataformas analíticas hoje é tal que, mesmo que haja muitos dados iniciais, você não precisa mais esperar pelo cálculo dos indicadores e pode confiar nos números obtidos. No centro da transformação está a computação em memória.

A próxima tecnologia que mudará o mercado de soluções analíticas provavelmente será plataformas em nuvem. A infraestrutura dos provedores de serviços em nuvem (CSP), junto com um conjunto de serviços, já está se transformando em uma plataforma de gerenciamento de dados.



Fontes:

* IDC, Guia de mercado para tecnologias de computação na memória, www.academia.edu/20067779/Market_Guide_for_In-Memory_Computing_Technologies

** Jim Gray "Economia da computação distribuída", www.microsoft.com/en-us/research/wp-content/uploads/2016/02/tr-2003-24.doc

*** Você pode ver como a situação dos desenvolvedores da plataforma de BI nos relatórios do Quadrante Mágico do Gartner mudou de 2010 para 2019 na visualização interativa: qap.bitmetric.nl/extensions/magicquadrant/index.html

Source: https://habr.com/ru/post/pt470113/


All Articles