"O objetivo deste curso é prepará-lo para o seu futuro técnico."

Oi Habr. Lembre-se do impressionante artigo
“Você e seu trabalho” (+219, 2394 marcado, 386k leituras)?
Portanto, Hamming (sim, sim,
códigos de Hamming com auto-verificação e auto-correção) tem um
livro inteiro escrito com base em suas palestras. Estamos traduzindo, porque o homem está falando de negócios.
Este livro não é apenas sobre TI, é um livro sobre o estilo de pensamento de pessoas incrivelmente legais.
“Isso não é apenas uma carga de pensamento positivo; descreve condições que aumentam as chances de fazer um ótimo trabalho. ”Já traduzimos 21 (de 30) capítulos. E
estamos trabalhando em uma edição em papel.
Capítulo 27. Dados Inválidos
(Obrigado pela tradução, Valentin Pinchuk, que respondeu à minha ligação no "capítulo anterior".) Quem quer ajudar com a tradução, o layout e a publicação do livro - escreva em um e-mail pessoal ou magisterludi2016@yandex.ruNa minha experiência e na experiência de muitos outros pesquisadores, os dados, em regra, são muito menos precisos do que o que é declarado. Esse não é um momento fácil - dependemos da escolha dos dados iniciais para a tomada de decisões e dos dados iniciais durante a modelagem, com base nas decisões tomadas. Como a natureza dos erros é muito diversa e não tenho uma teoria unificada para explicar todos eles, tenho que seguir exemplos e generalizações individuais deles.
Deixe-me começar com um teste de durabilidade. Um bom exemplo é minha experiência de participar de testes de ciclo de vida de tubos de vácuo. Eles foram projetados para uso nos primeiros cabos submarinos para transmissão de voz com uma vida útil prevista de 20 anos (após 22 anos, acabamos de desativar o cabo, que ficou muito caro - e isso dá uma boa idéia da velocidade do progresso tecnológico da época).
Os tubos para o cabo foram obtidos pela primeira vez em cerca de 18 meses de como o próprio cabo deveria ser baixado debaixo d'água. Eu tinha um dispositivo de computação de capacidade média baseado na calculadora estatística especializada IBM 101, que forneci à equipe de processamento de dados. Também os ajudei principalmente nos aspectos técnicos dos cálculos. Ao mesmo tempo, não participei de forma alguma do trabalho direto do projeto. No entanto, uma vez que um dos gerentes de projeto me mostrou os equipamentos de teste armazenados no sótão. Como sempre, perguntei-me: "Por que você tem certeza de que o equipamento de teste tem a mesma confiabilidade que o equipamento nos testes?" Sua resposta me convenceu de que ele não pensava nisso. Devido à futilidade de aprofundar os detalhes, deixei esta lição. Mas não esqueci a pergunta em si!
Os testes de durabilidade estão se tornando cada vez mais importantes e complexos, pois precisamos de componentes cada vez mais confiáveis para sistemas cada vez maiores e mais complexos. Um dos princípios básicos é a aceleração do processo de teste, que se baseia no fato de que, com um aumento de temperatura de 17 ° C, muitas, mas não todas, reações químicas dobram sua velocidade. O método de aumentar a tensão operacional também é usado para acelerar a identificação de pontos fracos. Um efeito semelhante ao testar chips fornece um aumento na freqüência do relógio. Mas mesmo a aplicação complexa de métodos não garante a força das bases para conclusões sobre durabilidade. No entanto, em resposta, os especialistas dizem: "O que ainda podemos fazer diante das restrições de tempo e dinheiro?" Afinal, o intervalo de tempo entre uma descoberta científica e sua implementação técnica é constantemente reduzido, para que não haja realmente tempo para testes reais do ciclo de vida de um novo dispositivo antes que ele seja amplamente utilizado. E se você ainda prefere ter certeza disso, ficará para sempre atrás da vida.
Obviamente, além do exposto, existem outros métodos de teste projetados para estudar outros aspectos. Até agora, eu estava convencido da precariedade desses fundamentos dos testes de durabilidade, mas outros não existem! Uma vez no Bell Telephone Laboratories, argumentei que era necessário criar um departamento para testar a durabilidade, cuja tarefa seria se preparar para testar um novo dispositivo quando ele estava apenas planejado para o desenvolvimento, e não quando eles surgiram com o advento do dispositivo acabado. Não tive sucesso, embora tenha feito algumas suposições relativamente fracas sobre por onde começar. Não havia tempo para pesquisas básicas nos testes de durabilidade - eles estavam sob a maior pressão dos prazos: para obter os resultados necessários amanhã. Como diz o ditado: "Nunca haverá tempo suficiente para fazer tudo certo, mas sempre será encontrado para corrigir erros" - especialmente em software de computador!
Aqui está a pergunta que vou fazer para você: “Como você espera testar um dispositivo (ou conjunto de dispositivos), que requer alta confiabilidade, quando o equipamento de teste é menos confiável, o tempo de teste é extremamente limitado, mas o dispositivo requer uma vida útil muito longa " Esse problema certamente o atormentará no futuro. Portanto, é melhor começar a pensar sobre ele agora, a fim de delinear maneiras de resolvê-lo em uma situação em que é hora de obter os resultados dos testes de durabilidade.
Permitam-me agora abordar alguns aspectos das medidas. Por exemplo, um amigo meu no Bell Telephone Laboratories, que era um estatístico muito bom, descobriu que alguns dos dados que ele analisou eram imprecisos. Seus argumentos sobre a necessidade de medi-los novamente não convenceram o chefe do departamento, que estava convencido da confiabilidade de seus subordinados e, além disso, todos os instrumentos de medição estavam com placas de cobre, confirmando sua precisão. Então, numa bela manhã de segunda-feira, meu amigo veio trabalhar e disse que havia esquecido sua pasta no trem a caminho de casa na sexta-feira e havia perdido tudo. O chefe do departamento teve que dar ordens para medições repetidas, após as quais meu amigo apresentou as notas iniciais e mostrou o quanto elas eram diferentes! Obviamente, isso não aumentou sua popularidade, mas revelou a imprecisão das medições, que desempenhariam um papel crucial posteriormente.
O mesmo estatístico amigo fez uma pesquisa para uma empresa externa usando telefonemas de seu conselho. Esses dados foram registrados precisamente pelo equipamento do escritório central que fazia chamadas e compilava documentos de pagamento para o seu pagamento. Um dia, ele acidentalmente descobriu uma ligação para um escritório inexistente! Depois, examinou os dados com mais cuidado e encontrou uma porcentagem bastante alta de ligações que se conectaram por vários minutos a escritórios inexistentes! Os dados foram registrados pelas mesmas máquinas que fizeram as chamadas, mas eram dados errados. Portanto, você não pode confiar no fato de que a máquina registrará corretamente os dados sobre si mesma!
Meu irmão, que trabalhou por muitos anos no Serviço de Controle de Poluição do Ar de Los Angeles, certa vez me disse que eles revelaram a necessidade de remontar, calibrar e instalar todas as novas ferramentas que compraram! Caso contrário, havia problemas intermináveis com precisão, e isso apesar das garantias do fornecedor!
Certa vez, fiz muitas pesquisas de hardware para a Western Electric. Eles forneceram ao estudo dados primários por 18 meses a partir de registros de mais de 100 amostras de equipamentos. Fiz a pergunta óbvia: por que eu deveria acreditar na consistência dos dados - por exemplo, pode haver, por exemplo, o descarte de equipamentos inexistentes nos registros? Eles garantiram que pensaram sobre isso, analisaram todos os dados e adicionaram algumas pseudo-transações para excluir tais casos. Eu acreditei neles de forma imprudente, e somente mais tarde, no decorrer do trabalho, descobri que ainda havia contradições residuais nos dados, então tive que procurá-los primeiro, depois excluí-los e só então recalcular todos os dados novamente. Com essa experiência, aprendi a não começar a processar os dados até uma análise completa de erros. Eles reclamaram da minha lentidão, mas quase sempre encontrei erros nos dados. Quando os apresentei, eles foram forçados a reconhecer minha prudência como razoável. Independentemente da inviolabilidade dos dados e da urgência de uma resposta, aprendi como pré-testar os dados para garantir consistência e minimizar o número de valores dramaticamente diferentes (valores discrepantes).
Em outra ocasião, participei como iniciador e depois como consultor de um grande estudo da equipe da AT&T em Nova York, usando um computador UNIVAC alugado. Os dados tinham que vir de muitos lugares, então eu decidi que seria prudente conduzir um estudo piloto primeiro para garantir que todas as fontes entendessem a essência do que está acontecendo e saibam como preparar cartões perfurados da IBM com os dados necessários. Nós conseguimos. No entanto, quando o estudo principal começou, algumas fontes não encheram cartões perfurados de acordo com as instruções recebidas. Imediatamente ficou claro para mim que o estudo piloto, de pequena escala, percorreu todo o caminho através de um grupo local treinado de especialistas em cartões perfurados, e o estudo principal passou por grupos gerais de cartões perfurados. Infelizmente, eles não tinham idéia do estudo piloto! Mais uma vez, eu era irracional do que imaginava: subestimei os mecanismos internos de uma grande organização.
Mas e as evidências científicas básicas? A publicação do Bureau Nacional de Padrões em 10 constantes físicas fundamentais (velocidade da luz, número Avogadro, carga eletrônica, etc.) fornece dois conjuntos de dados (para 1929 e 1973) e os erros de cálculo correspondentes (ver Fig. 27.I) . É fácil ver que se:
- tome o conjunto de dados de 1973 como correto (de acordo com o fato de que a tabela ilustra o aumento na precisão da determinação de constantes físicas milhares de vezes ao longo de 44 anos entre as edições),
- calcular o desvio dos novos valores constantes dos anteriores;
- calcular quantas vezes esse desvio excede o erro do cálculo anterior,
- então, em média, esse desvio é 5,267 vezes maior (os valores da última coluna R são adicionados à tabela pelo autor).
Você pode ter assumido que os valores das constantes físicas foram cuidadosamente calculados, mas agora você pode ver como eles eram imprecisos! A seguinte seleção de constantes físicas (veja a Fig. 27.II) mostra um erro médio de metade disso. No entanto, só podemos adivinhar o que acontecerá com essa precisão após os próximos 20 anos! Quer apostar?
Figura 27.lAssinaturas: “dados não confiáveis” PRECISÃO DA MEDIÇÃO (em frações por milhão)
FontesBirge, RT; Valores prováveis das constantes físicas gerais Rev. do Mod. Phys. 1 (1929) 1;
Cohen, E. Richard; Taylor, Barry N. (1973). "O ajuste dos mínimos quadrados de 1973 das constantes fundamentais" (PDF). Journal of Physical and Chemical Reference Data. 2 (4): 663-734. Código do Bib: 1973JPCRD ... 2..663C. doi: 10.1063 / 1.3253130
Cohen, E. Richard; Taylor, Barry N. (1987). "O CODATA de 1986 recomendou valores das constantes físicas fundamentais". Jornal de Pesquisa do Bureau Nacional de Padrões. 92 (2): 1–13. doi: 10.6028 / jres.092.010
Isso não é de todo surpreendente. Vi recentemente uma tabela de medidas da constante de Hubble (a inclinação da linha de dependência do desvio para o vermelho na distância), que é fundamental na cosmologia moderna. Muitos valores vão além dos erros declarados para a maioria dos outros valores.
Assim, uma medição estatística direta indica que mesmo as constantes físicas mais precisas nas tabelas não são tão precisas quanto declaradas. Como isso pode ser? Descuido e otimismo são dois fatores principais. Um estudo cuidadoso revela que as tecnologias experimentais existentes nas quais fomos treinados também não são ideais e contribuem para os erros de estimativa de erros. Vamos entender como você está na prática, e não na teoria, colocar um experimento. Você coleta o equipamento e o liga e, é claro, o equipamento não funciona como deveria. Portanto, você passa algum tempo, geralmente semanas, fazendo com que funcione corretamente. Agora você está pronto para receber dados, mas primeiro realiza o ajuste fino do equipamento. Como Ao configurá-lo para obter dados consistentes. Simplificando, você obtém baixa dispersão, mas o que mais você pode fazer? Mas são esses dados com uma pequena dispersão que você transmite estatísticas e são usados para avaliar a variabilidade. Você não transmite os dados corretos devido às configurações corretas - não sabe como fazer isso - transfere dados de baixa dispersão e obtém a alta confiabilidade das estatísticas que deseja declarar! Esta é uma prática comum de laboratório! Não é de surpreender que a confiabilidade dos dados raramente seja consistente com o declarado.
Figura 27.IIVou lembrá-lo da regra de Hamming:
em 90% dos casos, o resultado da próxima medição independente irá além dos limites assumidos pelo nível anterior de 90% de confiança!
Essa regra, é claro, exagera um pouco os fatos, mas em tal formulação é mais fácil lembrar - a maioria das informações publicadas sobre a precisão das medições está longe de ser tão boa quanto declarada. Isso é justificado pela história do próprio experimento e reflete discrepâncias posteriormente reveladas com precisão declarada. Não tentei obter um subsídio para realizar um estudo em larga escala, mas tenho poucas dúvidas sobre seus resultados.
Outro fenômeno surpreendente que se pode encontrar é o uso de dados no modelo quando há erros nos dados e no próprio modelo. Por exemplo, uma distribuição normal é assumida, mas as caudas podem realmente ser maiores ou menores do que as previstas pelo modelo. Ou valores negativos não podem ser obtidos, embora uma distribuição normal permita. Depois, existem duas fontes de erros: medições e erros de modelo. E sua capacidade de realizar medições cada vez mais precisas apenas aumenta a contribuição para o erro devido à incompatibilidade do modelo de realidade.
Lembro-me de minha experiência quando era membro do Conselho de Administração de uma empresa de computadores. Íamos mudar para uma nova família de computadores e preparamos estimativas muito precisas do custo de novos modelos. O especialista de vendas afirmou então que, a um determinado preço, ele seria capaz de receber um pedido de 10, de outro - de 15 e de terceiro - de 20 vendas. Suas suposições, e não digo que estavam incorretas, foram combinadas com dados de engenharia verificados para decidir sobre o preço de um novo modelo! Ou seja, o valor total foi determinado principalmente, levando em consideração a confiabilidade dos cálculos de engenharia, ignorando a incerteza existente das premissas do especialista em vendas. Isso é típico para grandes organizações. Estimativas cuidadosas são combinadas com premissas arbitrárias, e a confiabilidade do todo é considerada igual à confiabilidade do componente de engenharia. Você pode fazer uma pergunta justa, por que se preocupar com estimativas completas de engenharia quando combinadas com outras suposições arbitrárias, mas essa é uma prática generalizada em muitas áreas de atividade!
Primeiro falei sobre ciência e engenharia para que você não seja irônico demais na transição para dados econômicos. Li o livro de Morgenstern Sobre a precisão das dimensões econômicas várias vezes, Princeton Press, 2ª ed. Este é um economista altamente respeitado.
Meu exemplo favorito de seu livro são os números oficiais do fluxo de ouro de um país para outro, de acordo com os dois lados. Às vezes, os números podem diferir mais de duas vezes! Se eles não puderem obter os dados corretos no fluxo de ouro, quais dados poderão estar corretos? Pude ver como um dispositivo elétrico, quando enviado para países do terceiro mundo, poderia ser chamado de médico devido a diferenças nos direitos aduaneiros, mas o ouro é ouro, dificilmente pode ser chamado de qualquer outra coisa.
Morgenstern observa que a DuPont Chemical já possuía aproximadamente 23% da General Motors. Você acha que esse fato foi levado em consideração no cálculo do produto nacional bruto (PNB)? De jeito nenhum, acabou contando duas vezes!
Como exemplo, descobri que, não muito tempo atrás, quando as regras tributárias para relatórios sobre estoques mudaram, muitas empresas mudaram seus métodos de relatório para se beneficiar das novas regras. Para fazer isso, eles tiveram que mostrar menos bens e materiais e, consequentemente, pagar menos impostos. Em vão, procurei no Wall Street Journal pelo menos uma menção a esse fato. Não havia um único. Embora os estoques sejam um dos principais indicadores que usamos para avaliar as expectativas dos fabricantes, a economia está crescendo ou caindo. Acredita-se que os fabricantes reduzam os estoques se antecipam uma queda nas vendas, mas aumentam os estoques se antecipam o crescimento das vendas - para não perder a possível receita deles. Então, até onde eu pude entender, a mudança na lei sobre relatórios sobre estoques e seu impacto nas dimensões econômicas não foram levadas em consideração.
Em geral, há um problema comum para todas as séries temporais. A definição do objeto medido está mudando constantemente. Considere, como o melhor exemplo, a pobreza. Estamos constantemente aumentando o nível de pobreza, para que você nunca possa se livrar dela - essa definição será sempre alterada por funcionários interessados em preservar os projetos que lideram, o que exige um número suficiente de pessoas abaixo do nível de pobreza. O que chamamos de “pobreza” é, em muitos aspectos, superior ao que o rei da Inglaterra não fazia há muito tempo!
Na Marinha dos EUA, o conteúdo dos termos "youman" (secretário do escritório), "navio" etc. mudou ao longo dos anos, portanto, em qualquer série temporal que você estuda para identificar tendências na Marinha dos EUA, esse fator adicional o confunde em suas conclusões. Não é que você não deva tentar entender a situação usando dados passados (enquanto usa os sofisticados métodos de processamento de sinal dos capítulos 14-17), mas ainda existem problemas devido a alterações nas definições que não poderiam ser ditas oficialmente. documentos! As definições tendem a mudar ao longo do tempo sem formalização formal desse fato.
Formas regularmente publicadas de indicadores econômicos, incluindo desemprego (que não distinguem entre desempregados e deficientes, mas deveriam, na minha opinião), geralmente são preparadas muito antes da publicação. Nossa sociedade nos últimos anos tem mudado rapidamente de industrial (produção) para pós-industrial (sociedade de serviços), mas nem Washington (no sentido de autoridades federais) nem indicadores econômicos perceberam isso em uma extensão razoável. A relutância deles em mudar a definição de indicadores econômicos é baseada na tese de que as mudanças, conforme observado no parágrafo anterior, tornarão o passado incomparável com o presente - e é melhor ter um indicador irrelevante do que mudar seu significado, dizem eles. A maioria de nossas instituições (e pessoas) está respondendo lentamente a mudanças, como a transição para serviços da produção, e é ainda mais lenta para se perguntar como o que eles fizeram ontem deve ser alterado para se adequar ao amanhã. Instituições e pessoas preferem uma vida sem mudanças e, portanto, estão muito atrasadas, e depois fazem esforços heróicos para acompanhar os tempos. Instituições, como as pessoas, só se movem se forçadas.
Se você adicionar ao exposto os fatos óbvios de que a maioria dos dados econômicos foi coletada para outros fins e apenas acidentalmente ficou disponível para pesquisa econômica em andamento, e muitas vezes há fortes argumentos para falsificar os dados primários, fica claro por que os dados econômicos são de baixa qualidade.
Como outra fonte de imprecisão mencionada por Morgenstern, consideramos a prática geralmente aceita de oferecer descontos a clientes especiais que são mantidos em ciúmes em segredo. Como regra, durante os períodos de depressão, as empresas aumentam os descontos e os reduzem quando o ambiente de negócios melhora, mas os valores oficiais dos custos devem se basear nos preços de venda abertos, para que os descontos não sejam conhecidos. Portanto, desacelerações e altos da economia introduzem sistematicamente desvios multidirecionais nos dados coletados.
O que os economistas do governo podem usar como dados primários além desses dados predominantemente imprecisos com viés? Sim, eles podem, até certo ponto, saber sobre a presença de erros sistemáticos, mas não sabem de forma alguma a distorção dos dados. Portanto, não se surpreenda que muitas das previsões dos economistas estejam muito erradas. Eles simplesmente não têm outra opção, portanto, suas previsões não devem ser muito confiáveis.
Na minha experiência, a maioria dos economistas simplesmente não quer discutir uma imprecisão fundamental nos dados econômicos utilizados, por isso tenho pouca fé neles como cientistas. Mas quem disse que a economia é uma ciência? Somente os próprios economistas!
Se os dados científicos e de engenharia são 5 (ou mais) menos precisos do que o indicado, se as coisas são ainda piores com os dados econométricos, então você pode imaginar como estão as coisas com os dados sociométricos! Não tenho um estudo comparativo de todo o campo, mas minha pouca experiência limitada sugere que eles não são muito bons. Novamente, nada melhor pode estar disponível, mas isso não significa que os dados disponíveis possam ser usados sem levar em consideração.
Deve ficar claro que prestei muita atenção à questão da precisão dos dados na maior parte do meu trabalho. E não espero nada além de uma lenta melhoria no futuro próximo sobre esse assunto, conhecendo a posição dos especialistas.
Se os dados geralmente são ruins e você entende que precisa coletar mais dados, o que você pode fazer na melhor das hipóteses?
Primeiro , esteja ciente do que eu sempre lhe disse: um ser humano não é criado para ser confiável, não pode ser contado sem erros, não pode executar uma tarefa repetitiva monótona com alta precisão. Como exemplo, considere um jogo de boliche. Tudo o que um jogador precisa fazer é jogar a bola exatamente na linha certa a cada vez. Mas quão raramente até os melhores jogadores fazem o tiro perfeito! Os grupos de apoio admiram a precisão do vôo da bola, pois isso requer a máxima preparação e execução cuidadosas, mas com uma consideração cuidadosa, o jogador ainda tem muito a melhorar.
Em segundo lugar , você não pode coletar uma quantidade realmente grande de dados sem erros. Este é um fato conhecido que é constantemente ignorado. A gerência geralmente requer 100% de cobertura da pesquisa, enquanto muito menos, digamos 1% ou até 1/10% da cobertura da pesquisa produzirá resultados mais precisos! Isso é conhecido, como eu disse, mas é ignorado. As empresas telefônicas estão acostumadas a usar uma amostra muito pequena e cuidadosamente selecionada para distribuir renda entre as diferentes empresas envolvidas no atendimento de chamadas interurbanas e, com base nessa amostra, distribuem dinheiro entre parceiros. As companhias aéreas estão agora fazendo o mesmo. Amostras pequenas cuidadosamente colhidas são melhores do que amostras grandes mal selecionadas. Melhor, pois são mais baratos e mais precisos.
Terceiro , muitos dados sociométricos foram obtidos por meio de questionários. Mas é um fato conhecido que a maneira como as perguntas são formuladas, a ordem, as pessoas que fazem perguntas ou apenas esperam que o questionário seja concluído - tudo isso afeta seriamente as respostas. Obviamente, em uma situação simples em “preto e branco”, isso não é aplicável, mas quando você faz uma revisão, em regra, a situação é enlameada, caso contrário você não precisaria iniciá-la. Lamento não ter salvo uma pesquisa da American Mathematics Society entre seus membros. Fiquei tão indignado com as perguntas que impuseram as respostas desejadas com minhas formulações que simplesmente as devolvi com uma explicação desse motivo. Quantos matemáticos, diante de respostas a perguntas como estas: existe apoio financeiro suficiente para matemáticos, é suficiente para publicações, bolsas de estudo para estudantes de pós-graduação etc., quantos deles dirão que há dinheiro mais que suficiente? Obviamente, a Sociedade Matemática usou os resultados para fundamentar a solicitação de maior apoio aos matemáticos em todas as áreas.
Recentemente, preenchi um questionário longo e importante (importante para as ações norteadoras que poderiam resultar de seus resultados). Preenchai o mais honestamente possível, mas percebi que não era um entrevistado típico. Continuando a refletir, sugeri que a classe de pessoas entrevistadas não era homogênea, mas consistia em subclasses bastante diferentes; portanto, quaisquer valores médios calculados não eram aplicáveis a nenhum desses grupos. Isso está exatamente de acordo com a piada bem conhecida de que há dois filhos e meio em uma família americana comum. Mas, ao mesmo tempo, você não encontrará metade da criança! Os valores médios são úteis para grupos homogêneos (homogêneos no sentido das operações que deveriam ser executadas com eles), mas para grupos heterogêneos eles geralmente não fazem sentido. Como observado anteriormente, em média, um adulto tem um testículo e um seio, mas este não tem nada a ver com personalidades comuns em nossa sociedade
(agora, se mantivermos o pedantismo do autor, devemos falar sobre a sociedade nos EUA em termos de "tinha" - comentário de um tradutor) .
Se o intervalo de respostas for muito assimétrico, o valor mediano (que divide o número de objetos de amostra pela metade - metade tem esse valor menor que a mediana, metade mais do que aprox. Translator) é preferível à média como um indicador - nós o aceitamos publicamente recentemente. Portanto, agora publique com mais frequência a renda mediana e o preço mediano da moradia, em vez dos valores médios.
Quarto , há outro aspecto que exorto a prestar atenção. Repeti várias vezes que o curso dos eventos de uma organização muda de lugar e durante a presença de altos funcionários dessa organização. Portanto, tente conhecer pessoalmente como os questionários são preenchidos antes que você seja promovido o suficiente em serviço. Me deparei com uma demonstração vívida desse efeito quando estava no conselho de administração de uma empresa de computadores. Oficiais mesquinhos agiram de maneira a tentar me agradar, mas eles só me deixaram muito zangado com isso; além disso, não tive motivos para lhes dizer nada em um comentário. Frequentemente, os subordinados fazem o que acham que você quer deles, mas, na realidade, não é isso que você precisa! Também acredito que, se a gerência da sua organização enviar um questionário, aqueles que desejam obter favor provavelmente o preencherão com cuidado e dentro do prazo, a maior parte o puxará para o último momento e, depois disso, o funcionário de nível inferior os preencherá intuitivamente, sem fazer os cálculos necessários e medidas - já é tarde para tomá-las, então estou enviando o que posso! Com a confiabilidade geral desses relatórios "compostos", ninguém sabe. Eles podem superestimar os resultados, subestimar ou até não distorcer muito. Mas a alta gerência deve tomar decisões com base nessas pesquisas - portanto, se os dados estiverem ruins, é provável que as decisões sejam ruins.
Minha atividade favorita quando leio ou ouço sobre dados é me perguntar como as pessoas os coletaram, como suas conclusões podem ser substanciadas. Por exemplo, há muitos anos, quando mencionei isso em um jantar, uma viúva encantadora disse que não vê razão para coletar dados sobre qualquer assunto. Depois de pensar um pouco, opus-me: "Como você mede o número de adultérios por ano na península de Monterey?" Sério? Você vai acreditar no questionário? Ou você seguirá as pessoas? Parece difícil, se não impossível, fazer uma estimativa razoável do número de adultério por ano. Existem muitas outras coisas semelhantes que são muito difíceis de medir, e isso é especialmente verdade nas relações sociais.
Foi proposto um método muito sutil, cuja eficácia eu pessoalmente não testei na prática. Suponha que você queira estimar o número de assassinatos não resolvidos. Você está entrevistando pessoas e pedindo que joguem uma moeda sem testemunhas e, se as caudas caírem, elas devem declarar que cometeram um assassinato e, se uma águia, devem dizer a verdade. Por definição, ninguém, exceto o próprio povo, sabe o resultado do sorteio, portanto ninguém os acusará de assassinato se o declararem. Então, para uma amostra suficientemente grande, um pequeno excesso da proporção de confissões de assassinatos acima do valor de 0,5 fornecerá a estimativa desejada. Mas isso pressupõe que as pessoas entrevistadas respondem sinceramente, levando em conta a segurança. Variantes de tal método foram amplamente discutidas, mas, tanto quanto eu sei, ainda falta um estudo sério de sua eficácia.
Em conclusão, você deve ter ouvido falar da famosa eleição presidencial em que os jornais declararam vitória para uma pessoa, quando na verdade a outra venceu por uma margem enorme. Há também uma pesquisa da revista Literary Digest, realizada por telefone, cujos resultados mais tarde se revelaram completamente errôneos, de modo que a revista logo deixou de existir, e muitos acreditam por causa dessa pesquisa. Em seguida, a falácia dos resultados foi explicada pelo fato de que a posse do telefone se correlaciona com o nível de riqueza e o nível de riqueza com as preferências políticas.
(O autor inesperadamente comete uma série de erros e confusões aqui, o que é muito inesperado! Aqui estão os detalhes. No final da campanha eleitoral de 1936 nos Estados Unidos, a influente revista semanal The Literary Digest, com uma circulação de quase dois milhões de cópias, publicou os resultados de uma pesquisa postal em escala sem precedentes O estudo foi determinar quem os americanos querem ver como seu presidente: Franklin D. Roosevelt, um candidato democrata concorrendo a um segundo mandato, ou Elf Landon, um candidato da República . 55% , 41%. «The Literary Digest»: . . 61% , — 37%. , . : , , «» «The Literary Digest». , . . , 1938 «The Literary Digest» «Time Magazine». , , , «The Literary Digest» . , , . , : «The Literary Digest» 1936 . , . , – , 1936 . – .).Projetar, conduzir e resumir pesquisas não é para amadores. Você precisa de conselhos de especialistas em questionários (e não de estatísticas comuns) quando começa a questionários, e é impossível evitar essa atividade. Cada vez mais, não precisamos de fatos nus sobre objetos materiais, mas os resultados de observações em setores sociais e relacionados - e este é um solo traiçoeiro e instável.Daí a conclusão: à medida que você progride, precisará de mais e mais informações desse tipo, à medida que nos tornamos mais socialmente orientados e sujeitos a ações judiciais por coisas triviais. Você será forçado a conduzir pesquisas repetidas vezes sobre as atitudes pessoais das pessoas, e é por isso que dediquei tanta atenção a dados não confiáveis. Você precisa de dados confiáveis para tomar decisões confiáveis, mas raramente os terá com pelo menos alguma confiabilidade!Para continuar ...Quem quer ajudar com a tradução, o layout e a publicação do livro - escreva em um e-mail pessoal ou envie um e-mail para magisterludi2016@yandex.ruA propósito, também lançamos a tradução de outro livro interessante - “A Máquina dos Sonhos: A História da Revolução Computacional” )Conteúdo do livro e capítulos traduzidos- Intro to The Art of Doing Science and Engineering: Learning to Learn (March 28, 1995) : 1
- «Foundations of the Digital (Discrete) Revolution» (March 30, 1995) 2. ()
- «History of Computers — Hardware» (March 31, 1995) 3. —
- «History of Computers — Software» (April 4, 1995) 4. —
- «History of Computers — Applications» (April 6, 1995) 5. —
- «Artificial Intelligence — Part I» (April 7, 1995) 6. — 1
- «Artificial Intelligence — Part II» (April 11, 1995) ()
- «Artificial Intelligence III» (April 13, 1995) 8. -III
- «n-Dimensional Space» (April 14, 1995) 9. N-
- «Coding Theory — The Representation of Information, Part I» (April 18, 1995) ( :((( )
- «Coding Theory — The Representation of Information, Part II» (April 20, 1995)
- «Error-Correcting Codes» (April 21, 1995) ()
- «Information Theory» (April 25, 1995) ( :((( )
- «Digital Filters, Part I» (April 27, 1995) 14. — 1
- «Digital Filters, Part II» (April 28, 1995) 15. — 2
- «Digital Filters, Part III» (May 2, 1995) 16. — 3
- «Digital Filters, Part IV» (May 4, 1995)
- «Simulation, Part I» (May 5, 1995) ( )
- «Simulation, Part II» (May 9, 1995)
- «Simulation, Part III» (May 11, 1995)
- «Fiber Optics» (May 12, 1995) 21.
- «Computer Aided Instruction» (May 16, 1995) ( :((( )
- «Mathematics» (May 18, 1995) 23.
- «Quantum Mechanics» (May 19, 1995) 24.
- «Creativity» (May 23, 1995). : 25.
- «Experts» (May 25, 1995) 26.
- «Unreliable Data» (May 26, 1995) ()
- «Systems Engineering» (May 30, 1995) 28.
- «You Get What You Measure» (June 1, 1995) 29. ,
- «How Do We Know What We Know» (June 2, 1995) :(((
- Hamming, «You and Your Research» (June 6, 1995). :
, — magisterludi2016@yandex.ru