
Os produtos HFLabs em volumes industriais processam dados: endereços, nomes completos, detalhes da empresa e até uma carruagem no total. Naturalmente, os testadores lidam com esses dados todos os dias: atualizam os casos de teste, estudam os resultados da limpeza. Freqüentemente, os clientes fornecem uma base "ativa" ao testador para configurar o serviço para ele.
A primeira coisa que ensinamos aos novos QAs é salvar os dados em sua forma original. Tudo de acordo com os convênios: "Não faça mal". Neste artigo, mostrarei como trabalhar com cuidado com arquivos CSV no Excel e no Open Office. As dicas ajudarão a não estragar nada, salvar informações após a edição e geralmente se sentir mais confiante.
O material é básico, os profissionais definitivamente ficarão entediados.O que são arquivos CSV?
O formato CSV é usado para armazenar tabelas em arquivos de texto. Os dados geralmente são compactados em tabelas; portanto, os arquivos CSV são muito populares.
Um arquivo CSV consiste em linhas de dados e delimitadores que indicam os limites da colunaCSV significa valores separados por vírgula - "valores separados por vírgulas". Mas não se deixe enganar pelo nome: ponto e vírgula e guias podem servir como separadores de coluna em um arquivo CSV. Ainda será um arquivo CSV.
O CSV possui muitas vantagens sobre o mesmo formato do Excel: os arquivos de texto são simples como um botão, abrem rapidamente, são lidos em qualquer dispositivo e ambiente, sem ferramentas adicionais.
Por causa de suas vantagens, o CSV é um formato de troca de dados muito popular, embora já tenha 40 anos e usa aplicativos industriais, eles baixam dados de bancos de dados.
Um problema - um editor de texto para trabalhar com CSV não é suficiente. Ainda assim, se a tabela for simples: no primeiro campo o ID é do mesmo tamanho, no segundo a data tem o mesmo formato e no terceiro há algum endereço. Mas quando os campos de comprimentos diferentes e há mais de três, o tormento começa.
Acompanhe divisores e colunas - você quebra os olhosPior ainda com a análise de dados - tente o Bloco de notas para adicionar pelo menos todos os números em uma coluna. Não estou falando de belos gráficos.
Portanto, os arquivos CSV são analisados e editados no Excel e seus análogos:
Open Office ,
LibreOffice e outros.
Para os veteranos que, no entanto, lêem: pessoal, conhecemos a análise diretamente no banco de dados usando SQL, conhecemos o Tableau e o Talend Open Studio . Este artigo é para iniciantes, mas em um nível básico e uma pequena quantidade de dados do Excel com análogos é suficiente.Como o Excel atrapalha os dados: dos clássicos
Tudo ficaria bem, mas o Excel, mal abrindo o arquivo CSV, inicia seus truques astutos. Ele altera os dados sem demanda, para que eles se tornem inúteis. E ele faz isso completamente despercebido. Por causa disso, ao mesmo tempo, pegamos vários problemas.
A maioria dos incidentes se deve ao fato de o programa converter seqüências de caracteres com um conjunto de números em números sem demanda.
Arredonda. Por exemplo, na célula original, dois telefones são armazenados separados por vírgulas sem espaços: "5235834.5235835". O que o Excel fará? Famosamente converte números em um número e arredonda para duas casas decimais: "5235834.52". Então perdemos o segundo telefone.
Leva à forma exponencial. O Excel converte cuidadosamente "123456789012345" para o número "1,2E + 15". Perdemos completamente o valor original.
O problema é relevante para caracteres longos, de quinze linhas numéricas. Por exemplo, códigos CLADR (este é um identificador de estado de um objeto de endereço: cidade, rua, casa).
Remove as principais vantagens. O Excel acredita que o sinal de mais no início de uma linha com números é um caractere completamente supérfluo. Como, e é tão claro que o número é positivo, pois não há menos na frente dele. Portanto, o sinal de adição inicial no número "+74955235834" será descartado como desnecessário - resultará em "74955235834". (Na realidade, o número sofrerá ainda mais, mas, para maior clareza, vou me dar bem com o sinal de mais).
A perda de um sinal de adição é crítica, por exemplo, se os dados forem para um sistema de terceiros e esse verificar rigidamente o formato ao importar.
Divide três dígitos. O Excel é uma boa alma que analisa uma cadeia digital com mais de três caracteres. Por exemplo, "8 495 5235834" se transformará em "84 955 235 834".
A formatação é importante, pelo menos para os números de telefone: os espaços separam os códigos de país e cidade do resto do número e um do outro. O Excel viola facilmente a divisão correta do telefone.
Remove zeros à esquerda. O Excel transformará a sequência "00523446" em "523446".
E no TIN, por exemplo, os dois primeiros dígitos são o código da região. Para a República de Altai, começa do zero - "04". Sem zero, o significado do número será distorcido e a verificação do formato INN não passará.
Altera as datas para as configurações locais. O Excel corrige com prazer o número da casa "1/2" a "01 de fevereiro". Como o Windows sugeriu que, neste formulário, é mais conveniente ler as datas.
Derrubamos a corrupção de dados importando adequadamente
Mas, falando sério, o Excel não é o culpado pelos problemas, mas uma maneira óbvia de importar dados para o programa.
Por padrão, o Excel aplica o tipo Geral aos dados no arquivo CSV baixado - o tipo geral. Por causa disso, o programa reconhece seqüências digitais como números. Esse pedido pode ser derrotado usando a ferramenta de importação interna.
Inicio o mecanismo de importação interno no Excel. No menu, é “Dados → Obter dados externos → Do texto”.
Eu seleciono um arquivo CSV com dados, uma caixa de diálogo é aberta. Na caixa de diálogo, clico no tipo de arquivo Delimitado (delimitado). Codificação - a que está no arquivo geralmente é determinada automaticamente. Se a primeira linha do arquivo for um cabeçalho, marque "Meus dados têm cabeçalhos".
Passo para o segundo passo do diálogo. Eu seleciono o separador de campos (geralmente um ponto e vírgula - ponto e vírgula). Desligo “Trate delimitadores consecutivos como um” e defino “Qualificador de texto” como “{none}”. (O qualificador de texto é um símbolo do começo e do fim do texto. Se o separador no CSV for uma vírgula, será necessário o qualificador de texto para distinguir as vírgulas dentro do texto das vírgulas do separador.)
Na terceira etapa, escolhi o formato dos campos , para o efeito tudo foi iniciado. Para todas as colunas, defino o tipo como "Texto". A propósito, se você clicar na primeira coluna, mantenha pressionada a tecla Shift e clique na última, todas as colunas serão destacadas de uma só vez. Convenientemente.
Em seguida, o Excel perguntará onde colar os dados do CSV - basta clicar em "OK" e os dados aparecerão em uma planilha aberta.
Você deve criar uma nova pasta de trabalho no Excel antes de importarMas! Se pretendo adicionar dados ao CSV via Excel, há mais alguma coisa a fazer.Após a importação, é necessário forçar todas as células da planilha para o formato "Texto". Caso contrário, os novos campos adquirirão o mesmo tipo geral.
- Pressiono Ctrl + A duas vezes, o Excel seleciona todas as células da planilha;
- Clico no botão direito do mouse;
- Eu seleciono "Formatar células" no menu de contexto;
- na caixa de diálogo exibida, selecione o tipo de dados Texto à esquerda.
Para selecionar todas as células, você precisa pressionar Ctrl + A duas vezes. Exatamente dois, isso não é uma piada, tenteDepois disso, com alguma sorte, o Excel deixará os dados originais em paz. Mas essa não é a garantia mais difícil; portanto, após salvar, definitivamente verificaremos o arquivo através de um visualizador de texto.
Alternativa: Open Office Calc
Para trabalhar com arquivos CSV, eu uso o Calc. Não é que eles não considerem os dados digitais como cadeias de caracteres, mas pelo menos não os aplique a reformatação de acordo com as configurações regionais do Windows. Sim, e a importação é mais simples.
Obviamente, você precisará do pacote Open Office (OO). Durante a instalação, ele oferecerá a reatribuição de arquivos do MS Office para si mesmo. Não recomendo: embora o OO seja bastante funcional, ele não entende completamente a complicada formatação de documentos da Microsoft.
Mas tornar o OO o programa padrão para arquivos CSV é bastante razoável. Você pode fazer isso depois de instalar o pacote.
Então, começamos a importação de dados do CSV. Após clicar duas vezes no arquivo, o Open Office exibe uma caixa de diálogo.
Observe que no OO você não precisa criar uma nova pasta de trabalho e forçar a importação a iniciar, por si só- Codificação - como no arquivo.
- "Separador" é um ponto e vírgula. Naturalmente, se é precisamente o separador no arquivo.
- "Separador de texto" - vazio (igual ao Excel).
- Na seção "Campos", clico no quadrado superior esquerdo da tabela, todas as colunas são destacadas. Eu indico o tipo de "Texto".
Uma coisa que estragou muito sangue: se você selecionar erroneamente vários separadores de campos ou o texto errado for dividido, o arquivo poderá abrir corretamente, mas poderá ser salvo incorretamente.
Além do Calc, o libreOffice é popular no HFLabs, especialmente no Linux. Ambos são usados mais ativamente para CSV do que para o Excel.
Faixa de bônus: problemas ao salvar do Calc em .xlsx
Se você salvar dados do Calc no formato .xlsx do Excel, lembre-se - o OO às vezes inexplicavelmente e em larga escala perde dados.
O terreno baldio branco no meio é ricamente preenchido com dados no arquivo CSV originalPortanto, depois de salvar, eu abro o arquivo novamente e verifique se os dados estão no lugar.
Se algo for perdido, o tratamento é salvar de CSV para .xlsx. Ou, se o Windows estiver instalado, importe de CSV para Excel e salve a partir daí.
Após salvar novamente, eu definitivamente verificarei mais uma vez se todos os dados estão no lugar e não há linhas vazias extras.
Se você estiver interessado em trabalhar com dados, consulte nossas vagas . O HFLabs quase sempre precisa de analistas, testadores, engenheiros de implementação, desenvolvedores. Forneceremos dados para que pouco pareça :)