Meça sete vezes, uma vez que implemente a ferramenta de BI

Há pouco tempo, tive a tarefa de mudar para um novo sistema de BI para nossa empresa. Como tive que me aprofundar bastante nessa questão, decidi compartilhar meus pensamentos sobre isso com a comunidade respeitável.

imagem
Na Internet, existem muitos artigos sobre esse tópico, mas, para minha grande surpresa, eles não responderam muitas das minhas perguntas sobre como escolher a ferramenta certa e foram um tanto superficiais. Dentro de três semanas de teste, testamos quatro ferramentas: Tableau, Looker, Periscope / Sisense, análise de modo . Essas ferramentas serão discutidas principalmente neste artigo. Devo dizer imediatamente que o artigo proposto é a opinião pessoal do autor, refletindo as necessidades de uma empresa de TI pequena, mas que cresce rapidamente :)

Algumas palavras sobre o mercado


Agora, mudanças bastante interessantes estão ocorrendo no mercado de BI, consolidação está em andamento, grandes players de tecnologia em nuvem estão tentando fortalecer suas posições integrando verticalmente todos os aspectos do trabalho com dados (armazenamento, processamento, visualização). Nos últimos meses, houve cinco grandes aquisições: o Google comprou o Looker, o Salesforce comprou o Tableau, o Sisense comprou o Periscope Data, o Logi Analytics comprou o Zoomdata, o Alteryx comprou o ClearStory Data. Não mergulharemos mais no mundo corporativo de fusões e aquisições. Vale a pena observar que podem ser esperadas novas mudanças nas políticas protecionistas e de preços dos novos proprietários de ferramentas de BI (como a ferramenta Alooma recentemente nos agradou, logo após a compra pelo Google, eles deixar de oferecer suporte a todas as fontes de dados, exceto o Google BigQuery :)).

Pouco de teoria


Então, eu queria começar com uma pequena parte teórica, porque agora onde sem teoria. Como o Gartner nos diz, um sistema de BI é um termo que combina produtos de software, ferramentas, infraestrutura e melhores práticas, o que nos permite melhorar e otimizar as decisões [1]. Essa definição também inclui armazenamento de dados e ETL. Neste artigo, proponho focar em um segmento mais restrito, a saber, produtos de software para visualização e análise de dados.

Na pirâmide de criação de valor para a empresa (tive a coragem de propor outra apresentação dessa estrutura óbvia na Figura 0), as ferramentas de BI estão localizadas após os blocos de armazenamento de registros e processamento preliminar de dados (ETL).

Isso é importante para entender - a melhor prática nesse caso é a separação das tarefas ETL e BI . Além de um processo mais transparente de trabalhar com dados, você também não estará vinculado a uma solução de software e poderá escolher a ferramenta mais adequada para cada uma das tarefas de ETL e BI. Com um processo ETL bem estruturado e uma arquitetura ideal de tabelas de dados, geralmente você pode fechar 80% de todos os problemas de negócios urgentes sem usar software especial. Obviamente, isso exigirá envolvimento significativo de analistas e DS. Portanto, chegamos à questão principal: o que realmente precisamos primeiro de um produto de software de BI?

imagem
Fig. 0 0

Critérios principais para escolher um produto de software de BI


Como já entendemos, todas as principais métricas e indicadores de desempenho da empresa como um todo podem ser obtidas diretamente das tabelas analíticas do banco de dados previamente preparado como parte do processo de ETL (eu vou lhe dizer no próximo artigo como criar um processo de ETL da melhor maneira possível Enquanto isso, vou explicar por que isso é tão importante: de acordo com uma pesquisa do Kaggle, a principal dificuldade que metade do DS enfrenta são dados sujos [2]). O principal problema nesse caso, obviamente, será a complexidade e a ineficiência do uso do tempo dos analistas. Em vez de criar um produto completo, os analistas / DS preparam indicadores o tempo todo, contam métricas, verificam discrepâncias em números, procuram erros no código SQL e realizam outras atividades inúteis. Aqui estou convencido de que a principal coisa que os analistas / DS devem fazer é criar um produto que agregue valor à empresa a longo prazo. Pode ser um serviço de liquidação / previsão, cujo resultado faz parte do principal produto da empresa (por exemplo, um algoritmo para calcular o custo / tempo de uma viagem) ou, por exemplo, um algoritmo para distribuição de pedidos entre clientes ou um relatório analítico completo que identifica os motivos da saída de usuários e uma diminuição na MAU .

Portanto, o principal critério para a escolha de um sistema analítico deve ser a capacidade de descarregar analistas o máximo possível de problemas e fluidez ad hoc. Como isso pode ser alcançado? De fato, existem duas opções: a) automatizar, b) delegar. No segundo parágrafo, quero dizer a frase agora popular Self Service - para dar às empresas a oportunidade de se aprofundarem nos próprios dados.

Ou seja, os analistas configuram um produto de software uma vez: crie cubos de dados, configure atualização automática de cubos (por exemplo, todas as noites), envie relatórios automaticamente, prepare vários assistentes de painel e ensine aos usuários como usar o produto. Além disso, a empresa fornece suas necessidades adicionais de forma independente, calculando os indicadores necessários em várias agregações e filtros de dados usando a opção simples e compreensível de arrastar e soltar .

Além da simplicidade do processo de geração de relatórios, a velocidade de execução da consulta também é importante . Ninguém esperará 15 minutos no mês anterior para carregar dados ou métricas para outra cidade. Para resolver esse problema, existem várias abordagens geralmente aceitas. Um deles é a criação de cubos de dados OLAP (processamento analítico online). Nos cubos OLAP, os tipos de dados são divididos em dimensões (dimensões) - esses são campos pelos quais as agregações podem ser feitas (por exemplo, cidade, país, produto, intervalos de tempo, tipo de pagamento ...) e medidas são métricas calculadas para medições (por exemplo, número de viagens, receita, número de novos usuários, verificação média, ...). Cubos de dados é uma ferramenta bastante poderosa que permite produzir resultados muito rapidamente usando dados pré-agregados e métricas calculadas. O outro lado dos cubos OLAP é o fato de todos os dados serem pré-coletados e não mudarem até a próxima construção do cubo. Se você precisar de agregação de dados ou uma métrica que não foi originalmente calculada, ou se precisar de dados mais recentes, será necessário recriar o cubo de dados.

Outra solução para aumentar a velocidade de trabalho com dados são as soluções em memória . O banco de dados de memória (IMDB) foi projetado para fornecer desempenho máximo quando houver RAM suficiente para armazenar dados. Embora os bancos de dados relacionais sejam projetados para fornecer desempenho máximo quando os dados não são completamente colocados na RAM, a E / S lenta do disco deve ser executada em tempo real. Muitas ferramentas modernas combinam essas duas soluções (por exemplo, Sisense, Tableau, IBM Cognos, MicroStrategy etc.).

Antes disso, falamos sobre a simplicidade e a conveniência de usar ferramentas de BI para usuários de negócios. É importante configurar um processo conveniente de desenvolvimento e liberação de painel para analistas / DS. Aqui a situação é semelhante a qualquer outro produto de TI - você precisa de um processo de implantação rápido e conveniente ( tempo de implantação rápida ), além de um processo de desenvolvimento cuidadoso, teste, revisão de código, versão, controle de versão e colaboração em equipe. Tudo isso é combinado pelo conceito de fluxo de trabalho.

Assim, chegamos aos principais requisitos do produto de software de BI . Os mesmos requisitos formaram a base do mapa de velocidade, com base no qual finalmente escolhemos um fornecedor de produtos.

Tabela 1. Critérios de seleção da ferramenta de BI.
Não.ExigênciaDescrição do produtoSignificado (min = 1, max = 5)
1UX + arrastar e soltarUma interface de arrastar e soltar acessível e fácil de usar para relatórios é necessária para usuários corporativos.5
2Tratamento de dadosComo os dados são armazenados e processados ​​pelo sistema. Essas são as mecânicas, como OLAP e soluções em memória, das quais falamos acima. Quanto mais rápido e fácil o acesso aos dados for organizado, melhor.5
3WorkflowÉ necessário um tempo de implantação rápido e conveniente. Também revisão de código, controle de versão, desenvolvimento e lançamento.5
4VisualizaçãoO conjunto de visualizações de dados disponíveis. Quanto mais opções diferentes para apresentar dados, melhor.4
5SuporteDisponibilidade de suporte, SLA para responder a uma solicitação.3
6EstatisticasA capacidade de usar métodos estatísticos, integração com Python.2
7PreçoTudo está claro aqui, Lebowski :)4


A mesa final dos resultados da votação em nossa equipe é a seguinte:

Tabela 2. Resultados da votação para escolher uma ferramenta de BI.
Não.ExigênciaRelevânciaTableauLookerPeriscópioMode
1UX + arrastar e soltar54.3.4.62.72.8
2Tratamento de dados54.4.3.53.6.2.3
3Workflow53.1.4.83.83.3.
4Visualização43.83.73.4.2.1
5Suporte33.74.23.83.4.
6Estatisticas22.32.22.52.8
7Preço44243
Total3,773,793,432,79

Por parte dos usuários corporativos (eles também participaram da seleção do produto), os votos foram divididos aproximadamente igualmente entre o Tableau e o Looker. Como resultado, a escolha foi feita em favor do Looker. Por que o Looker e quais são as diferenças fundamentais entre as ferramentas, discutiremos agora.

Descrição detalhada da ferramenta


Então, vamos começar com a descrição das ferramentas de BI.

  1. Tableau

    (aqui falaremos sobre um pacote de serviços estendido: Tableau Online)
    1. UX + arrastar e soltar.
      O Tableau é uma ferramenta bastante antiga no mercado desde 2003, e há uma sensação de que a interface não mudou muito desde então. Você pode ter medo de pop-ups e opções suspensas no estilo do Windows XP (Fig. 1, Fig. 2). Mas rapidamente você pode se acostumar e dominar a funcionalidade básica da ferramenta. O Tableau lembra muitas versões avançadas do Excel, possui guias (planilhas) e painéis (painéis) - uma combinação de visualizações obtidas nas planilhas. A opção arrastar e soltar é bastante fácil de usar, os filtros nos gráficos são facilmente configurados e alterados (Fig. 3, Fig. 4). O Tableau possui duas versões do serviço: Desktop e Desktop + Online. A área de trabalho é mais antiquada - é, de fato, o Excel avançado. A versão online para o período de teste costumava ser cuidadosa e às vezes terminava em atualizar a página sem salvar seu trabalho.

      imagem
      Fig. 1

      imagem
      Fig. 2


      Fig. 3


      Fig. 4

    2. Manipulação de dados.
      O Tableau lida com os dados muito rapidamente, alterando o filtro de tempo ou a agregação em questão de segundos, mesmo em grandes volumes de dados (mais de 20 milhões de registros). Como já dissemos, para isso, o Tableau usa cubos de dados OLAP e mecanismo de dados na memória. O Tableau afirma que, graças à sua solução interna de memória Hyper, a velocidade de execução da consulta aumentou 5 vezes .

      Os cubos de dados podem ser configurados na versão local do Tableau Desktop e baixados ou atualizados em um servidor de rede. Nesse caso, todos os painéis criados na versão anterior do conjunto do cubo serão atualizados automaticamente. Os cubos de atualização podem ser configurados automaticamente, por exemplo, à noite. Todas as medidas e medidas (dimensões e medidas) são definidas com antecedência ao montar o cubo e não são alteradas até a próxima versão da montagem. Juntamente com o uso de cubos de dados no Tableau, é possível acessar o banco de dados diretamente, isso é chamado de conexão ao vivo; nesse caso, a velocidade será muito menor, mas os dados serão mais relevantes. O processo de montagem de um cubo de dados é bastante simples, o principal é selecionar os campos corretos para montar várias tabelas (junções) (Fig. 5).

      imagem
      Fig. 5

    3. Workflow
      É por esse motivo que não escolhemos o Tableau no futuro. De acordo com esse parâmetro, o Tableau ficou muito atrás do setor e não pôde oferecer nenhuma ferramenta para simplificar o desenvolvimento e o lançamento de painéis. O Tableau não fornece controle de versão, revisão de código, colaboração de equipe, nem existe um ambiente de desenvolvimento e teste bem pensado. É justamente por isso que as empresas geralmente abandonam o Tableau em favor de ferramentas mais avançadas. Já com vários funcionários envolvidos na criação de cubos e painéis de dados, pode surgir confusão - onde encontrar a versão mais recente dos dados, quais métricas podem ser usadas e quais não. Há uma falta de integridade dos dados, o que leva a uma desconfiança dos negócios nas métricas que ele vê no sistema.

    4. Visualização
      Em termos de visualização de dados, o Tableau é uma ferramenta muito poderosa. Você pode encontrar tabelas e gráficos para todos os gostos e cores (fig. 6). Visualização de dados - na página, como no Excel, você pode alternar entre as guias.

      imagem
      Fig. 6

    5. Suporte.
      Do ponto de vista do suporte do Tableau, parecia-me pouco orientado para o cliente , eu mesmo precisava encontrar a resposta para a maioria das perguntas. Felizmente, o Tableau tem uma comunidade bastante grande , onde você pode encontrar respostas para a maioria das perguntas.

    6. Estatisticas
      O Tableau tem a capacidade de integrar-se ao Python. Mais detalhes podem ser encontrados.

    7. Preço
      Os preços são bastante padrão para o mercado, podem ser encontrados no site oficial. O preço depende do nível do usuário (desenvolvedor, explorador, visualizador), a descrição pode ser encontrada . Ao calcular 10 desenvolvedores, 25 exploradores e 100 espectadores, sai US $ 39.000 / ano por ano.


  2. Looker


    1. UX + arrastar e soltar.
      Looker é uma empresa relativamente jovem, fundada em 2012. O UX é nativamente claro e simples para o usuário, o recurso de arrastar e soltar é convenientemente implementado (Fig. 7).

      imagem
      Fig. 7

    2. Manipulação de dados.
      Trabalhar com dados no Looker é visivelmente mais lento que no Tableau . O principal motivo é que o Looker faz consultas diretamente no banco de dados sem criar cubos OLAP. Como discutimos, essa abordagem tem suas vantagens - o fato de os dados estarem sempre atualizados e qualquer agregação de dados poder ser feita. O Looker também fornece uma ferramenta para acelerar consultas complexas - consultas em cache , ou seja, a capacidade de armazenar consultas em cache.

    3. Workflow
      A principal vantagem do Looker, em comparação com todas as ferramentas de BI que testamos, é o processo de desenvolvimento e liberação do painel . O Looker integra o controle de versão usando o github . O ambiente de desenvolvimento ( modo de produção) e o ambiente produtivo (fig. 8) também estão bem separados. Outra vantagem do Looker é que o acesso à modelagem de dados permanece nas mesmas mãos - existe apenas uma versão mestre do modelo de dados, que garante a integridade.
      Aqui faz sentido mencionar também que o Looker possui seu próprio análogo da linguagem SQL com recursos adicionais para modelagem de dados - LookML. Essa é uma ferramenta bastante simples e flexível que permite personalizar a funcionalidade de arrastar e soltar e adicionar muitas novas opções (Fig. 9).

      imagem
      Fig. 8

      imagem
      Fig. 9

    4. Visualização
      Do ponto de vista da visualização, o Looker não é muito inferior ao Tableau, pois é possível encontrar gráficos e gráficos ao seu gosto. A organização dos gráficos é vertical, ao contrário do Tableau, onde a organização é paginada (Fig. 10, Fig. 11). Um recurso útil para usuários de negócios é o detalhamento - a capacidade de segmentar dados selecionados em dimensões predefinidas.

      imagem
      Fig. 10

      imagem
      Fig. 11

    5. Suporte.
      O apoio de consultores de negócios e especialistas técnicos da Looker, devo dizer, foi surpreendente - poderíamos agendar uma videochamada em meia hora em qualquer questão e obter uma resposta completa. Parece que o Looker realmente valoriza seus clientes e tenta simplificar suas vidas.

    6. Estatisticas
      O Looker possui uma API - Look API e SDK para Python, com sua ajuda, você pode se conectar ao Looker a partir do Python e fazer o download das informações necessárias, executar as transformações e análises estatísticas necessárias no Python e carregar os resultados no banco de dados com saída subsequente para os lookers nos painéis.

    7. Preço
      O Looker custa significativamente mais que o Tableau , para um conjunto semelhante de usuários, o Looker sai quase duas vezes mais caro que o Tableau - cerca de US $ 60.000 / ano.


  3. Periscópio


    1. UX + arrastar e soltar.
      O periscópio é uma ferramenta bastante fácil de usar , com funcionalidade limitada . Há também uma função de arrastar e soltar, mas filtros para diferentes gráficos deverão ser criados separadamente, o que é inconveniente (Fig. 12). Você não pode ficar sem o SQL para criar consultas um pouco mais complexas.

      imagem
      Fig. 12

    2. Manipulação de dados.
      O periscópio possui um cruzamento entre os cubos OLAP e o cache de consultas. Nele, você pode criar Views e armazená-las em cache. View é qualquer consulta SQL, para seu armazenamento em cache é necessário clicar no botão 'materializar' nas configurações desta View (Fig. 13). Você também pode publicar uma Visualização 'publicar' para poder usá-la para arrastar e soltar.

      imagem
      Fig. 13

    3. Workflow
      O Periscope Pro integra o controle de versão usando o git. Há também a oportunidade de ver o histórico de alterações em qualquer painel e reverter para a versão anterior.

    4. Visualização
      O conjunto de gráficos e tabelas é muito limitado; não é possível encontrar a variedade aqui, como no Tableau ou no Looker.

    5. Suporte.
      O suporte é bastante operacional, se você fizer a alteração de que o centro de suporte opera no Horário Padrão do Pacífico. Dentro de 24 horas, você definitivamente receberá uma resposta.

    6. Estatisticas
      O Periscope possui integração com o Python. Mais detalhes podem ser encontrados aqui .

    7. Preço
      O Periscope Pro custará aproximadamente como o Tableau: US $ 35.000.


  4. Análise de modo


    1. UX + arrastar e soltar.
      O modo é a mais simples dessas ferramentas. Sua principal diferença é a integração com o Python e a capacidade de criar relatórios analíticos com base no Jupyter Notebook (Fig. 14). Se você não criou o processo de criação de relatórios analíticos usando o Jupyter Notebook, essa ferramenta pode ser útil para você. O modo é mais uma adição a um sistema de BI completo, sua funcionalidade é muito limitada. Para criar painéis, você pode usar tabelas de não mais de 27 mil linhas, o que limita bastante os recursos da ferramenta (Fig. 15). Caso contrário, você precisará escrever consultas SQL separadas para cada gráfico, a fim de agregar os dados e obter uma tabela de dimensões menor para visualização (Fig. 16).

      imagem
      Fig. 14

      imagem
      Fig. 15

      imagem
      Fig. 16

    2. Data handling.
      Mode data handling . , .

    3. Workflow.
      Mode Github, .

    4. Visualization.
      , 6-7 .

    5. Support.
      .

    6. Statistics.
      , Mode Python, user friendly Jupyter Notebook.

    7. Price.
      Mode, , — $50,000/.




Conclusões


A escolha de um fornecedor de ferramentas de BI deve ser abordada minuciosamente, com o apoio de usuários de negócios e a definição dos principais critérios para a escolha de uma ferramenta (de preferência na forma de um mapa de velocidade). Os critérios apresentados neste artigo têm como objetivo principal melhorar a eficiência do trabalho com dados, simplificar o processo de extração de informações, melhorar a qualidade da visualização de dados e reduzir o ônus para os analistas.


Fontes


  1. Gartner, Inteligência de negócios - BI - Glossário de TI da Gartner
  2. Kaggle
  3. Tableau - Hyper
  4. ZDNet - Salesforce-Tableau, outros negócios de BI fluem
  5. Site do Tableau
  6. Site do Looker
  7. Site do periscópio
  8. Site de análise de modo

Source: https://habr.com/ru/post/pt460807/


All Articles