A perda do décimo primeiro dia do mês e outras datas



Em novembro de 2012, Randal Monroe publicou uma história em quadrinhos xkcd com um calendário no qual o tamanho dos números de cada mês era proporcional à frequência com que esse número é mencionado nos livros por seu próprio nome (por exemplo, "14 de outubro") no banco de dados do Google Ngrams desde 2000. A maioria das principais datas são bastante óbvias: 04 de julho , 25 de dezembro , o primeiro dia de cada mês, o último dia de quase todos os meses, e de 11 de setembro , deixando todos para trás. Poucos dias parecem muito menores que o resto. Por exemplo, 29 de fevereiro- um pequeno ponto. Mas se você olhar de perto, poderá ver que o 11º dia de cada mês é relativamente pequeno. Uma nota foi enviada aos quadrinhos: “Em todos os meses, exceto em setembro, o dia 11 é mencionado com muito menos frequência do que o resto das datas. Isso foi até 11 de setembro de 2001, e não sei por que isso acontece. " Vasculhei os dados e acho que descobri o porquê.

No começo, eu tinha certeza de que o 11º é diferente do resto. Um mês pode durar até 31 dias e alguns desses dias certamente serão os menores de todos. Talvez o 11º número do calendário não seja o menor, apenas nossos olhos se apegam a ele. Então eu comparei os dados reais, e não apenas estudei os quadrinhos. O banco de dados Ngrams retorna o número total de vezes que uma frase é mencionada por um ano, normalizada pelo número de livros publicados naquele ano.

Escolhi a quantidade de cada dia do ano (1 de janeiro a 2 de janeiro) e plotei as medianaspor mês para cada dia do mês (1 de janeiro, 1 de fevereiro, etc.) para cada ano. Isso mostrou com que frequência os dias 11 e 30 são mencionados no ano selecionado. A mediana permite suavizar rajadas de dias como 4 de julho. A mediana parecerá incomum apenas se o número de série for muito diferente em pelo menos 6 em 12 meses.

Construí medianas para cada número de série de 2000 a 2008. Abaixo está um histograma para 31 medianas. O primeiro número se destaca de todos e 15 são pouco visíveis entre os demais. Mas o resultado do 11º dia é o mínimo em uma quantidade bastante grande (com um valor P <0,05), o que, à primeira vista, é difícil de explicar.



E essa lacuna existe há muito tempo. O gráfico a seguir mostra todos os números de série para cada um dos anos de 1800 a 2008. Os dados são suavizados por 11 anos para remover o ruído. Mesmo no início, o 11º é muito menor que o grupo principal. Sua pequena falha persiste por várias décadas e, na década de 1860, a 11ª repentinamente se desvia de sua posição como a segunda da série intermediária. A diferença entre o 11º e os números de série comuns aumenta acentuadamente e, como resultado, o valor para a frequência de suas referências se torna aproximadamente metade menor, o que continua na primeira metade do século XX. Na segunda metade, a diferença é reduzida, mas não desaparece até o fim.



Leitores atentos perceberão outra estranheza. Existem mais 4 linhas abaixo do que deveriam ser. De cima para baixo, esses são os números 2, 3, 22 e 23. De 1800 a 1890, são ainda mais baixos que o 11º. Mas, desde 1900, a diferença entre eles diminui, enquanto a diferença desde o 11 começa a aumentar e desaparece completamente na década de 1930. Este também é um tópico bastante interessante, que consideraremos um pouco mais tarde.

Curiosidades tipográficas


Começando o estudo, esperava encontrar um tabu secreto sobre os eventos do 11º dia ou um desvio tipográfico das regras da imprensa. Infelizmente, o motivo acabou sendo muito mais prático: o número 1 é muito semelhante ao I maiúsculo ou l minúsculo (L) na maioria das fontes usadas para imprimir livros. E também 11 pode ser confundido com n. Os algoritmos do Google estão errados, reconhecendo 11 na página e interpretando o número de série como algum tipo de palavra.

Podemos procurar diretamente frases sem sentido, como 11 de março ou 2 de julho ou 2 de maio. 11 pode ser confundido com nove combinações de I, I e I. Cinco deles são realmente encontrados no banco de dados, pelo menos por um mês: II-nd, Il-nd, ii-nd, li-nd e ll-nd. Além disso, havia opções com apenas um caractere errado, 1ª, 1ª e 1ª. Eu chamei esses erros de xxth. Livros do Googlefaz consultas a um banco de dados mais recente que o Ngrams, mas ainda é possível encontrar exemplos desses erros. Por exemplo , o Google reconhece o seguinte como 2 de janeiro:



Como em 11 de fevereiro :



mas em março de li :



existem muitos exemplos no banco de dados. Você pode encontrar outros números de série erroneamente interpretados, mas o dia 11 é muito mais comum que outros.

Acrescentei meus cálculos em 2 de janeiro, 11 de janeiro, etc., e fiz o mesmo nos outros meses. O gráfico a seguir mostra que o 11º recebe um grande impulso com essa adição. Até a década de 1860, a diferença entre o 11º e o grupo principal desapareceu. Após a década de 1860, um terço ou um quarto dessa diferença desapareceu.



E para onde foi o resto do 11º? Desde a década de 1860, o algoritmo do Google começa a cometer um erro estranho - em vez do 11, reconhece os enésimos. Aqui está um exemplo de página preenchida com o enésimo número de janeiro:



em alguns anos, o número de reconhecimentos incorretos excede o número de reconhecidos corretos. Acrescentei o nono dia de janeiro a 11 de janeiro e fiz o mesmo com os outros meses. O gráfico a seguir mostra os números enésimos e sua soma com 11s. Até a década de 1860, sua contribuição era insignificante, mas esse erro começa a ser responsável por quase todos os 11 desaparecidos.



Horário combinado

Adicionando os erros xxth e n-ésimo ao 11º gráfico, fechei a lacuna ao longo de todo o comprimento do gráfico e o 11º começou a parecer o mesmo de todas as outras datas. Acontece que o reconhecimento incorreto do dia 11 na forma do dia n, II, ll e assim por diante, é responsável por um pequeno número de 11 números entre os outros dias do mês.



Máquinas de impressão


Embora esteja claro por que o 11º foi mais frequentemente reconhecido incorretamente do que outros, por que o número de erros é tão desigual? O que aconteceu na década de 1860, por causa do qual a taxa de erro aumentou tanto? Suspeito que isso se deva à invenção, na década de 1860, de um dispositivo como uma máquina de escrever. As primeiras máquinas de escrever não tinham uma chave separada para o número 1 . Foi proposto o uso da letra l (L) em letras minúsculas. E quando o algoritmo reconhece o 11 de outubro, na verdade ele faz isso mais corretamente do que pensávamos. Os livros do Google não têm muitos documentos datilografados, mas esse dispositivo popular teve um grande impacto no desenvolvimento de fontes. 1 e eu não diferimos em máquinas de escrever cada vez mais comuns, e até a fonte tipográfica começou a corresponder às expectativas dessa semelhança. Compare esses caracteres em uma fonte1850 : A



diferença entre l sem serifa no topo e 1 com uma serifa óbvia é visível. Compare-os na fonte de 1920 : os



caracteres são idênticos, exceto o kerning. E hoje, a maioria das fontes descreve 1 e 1 como caracteres altos, com duas serifas na parte inferior e uma direcionada para a esquerda, na parte superior. Somente o ângulo de entalhe 1 é um pouco maior que o de l. A qualidade de impressão dos livros desde 1970 ajudou a reduzir o número de reconhecimento incorreto, mas eles não desapareceram completamente; portanto, os problemas restantes apareceram na história em quadrinhos do xkcd.

A questão da popularidade do erro permanece em aberto, na qual 11 é substituído pelo enésimo. Este é um erro bastante estranho. O enésimo é frequentemente encontrado em publicações científicas e matemáticas, e isso pode afetar sua popularidade. Na maioria das fontes, a parte superior de n é muito fina e provavelmente pode não estar visível nos textos em que o algoritmo foi treinado. Mas há uma grande diferença no crescimento de 1 e n, especialmente na era das máquinas de escrever, onde ocorrem muitos erros. Mas a frase nono de janeiro é um absurdo, então as chances de tal reconhecimento deveriam ter sido reduzidas. Talvez alguns textos modernos contivessem erros, e o 11º fosse marcado como enésimo, que serviu de fonte dos erros? A única maneira de descobrir é abrir o código-fonte do algoritmo do Google, que reconhece o texto. Vamos deixar este exercício para o leitor.

Perdeu 2, 3, 22 e 23


Descobrimos os 11º números, mas, durante o estudo do comportamento deles, deparei-me com outro mistério - um número incompreensivelmente baixo de 2, 3, 22 e 23 números, mas apenas até a década de 1930, após trazendo seu número empatado.

No gráfico abaixo estão todos os números, e acontece que nos anos 1800 as datas indicadas não são usadas. As primeiras referências a nossas datas apareceram na década de 1810, seu número cresce na mesma proporção que as outras datas, mas ao mesmo tempo mantém uma lacuna com elas - seu número é cerca da metade do tamanho. De repente, na década de 1890, a lacuna diminuiu, e isso acontece até a década de 1930, quando eles finalmente se fundem no grupo principal.



Estilo pré-revolucionário


Então, os números 2 e 3 no século 19 foram infelizes? O algoritmo do Google dificilmente reconhece duplos e triplos em fontes antigas? Não, acontece que antes, em vez do atual registro em inglês “2º, 3º, 22º, 23º”, era costume escrever “2d, 3d, 22d, 23d”. Criei uma mediana para 2 de janeiro, 2 de fevereiro e outros meses e fiz o mesmo com as datas restantes. O gráfico abaixo mostra a frequência de ocorrência dessas datas no estilo antigo de gravação - elas começam com a frequência de outras datas, mas depois desaparecem gradualmente na década de 1890 e se dissolvem completamente na década de 1930.



Às vezes, você pode encontrar o uso moderno da forma antiga de gravação, se ela for usada em um título com uma longa história, como a 3d Marine Division. Mas o uso residual desse registro se deve principalmente à existência de reimpressões de livros antigos e publicações de diários antigos.

Horário combinado


Se adicionarmos o estilo antigo ao novo, obteremos o gráfico a seguir. Daqui resulta que datas calculadas corretamente quase não são diferentes de todas as outras.



Por que agora acontece que as referências aos números 2 e 3 às vezes excedem os outros em frequência, permanece incompreensível para mim. Penso que, devido à menção frequente do 1º do mês, o 2º e o 3º do dia também devem ser mencionados com um pouco mais de frequência. Mas se você observar as ocorrências de 2 de janeiro ou 2 de janeiro no Google Livros, poderá encontrar algumas dessas passagens:



aparentemente, o Google Livros ignora vírgulas. Portanto, embora as datas do mês de 1 a 4 não sejam nada de especial, esses exemplos aqui podem afetar as estatísticas.

Raciocínio


Por que os escritores usavam essas abreviações de uma única letra antes? Talvez por causa do latim, onde a letra o serviu como um indicador do número de série. Idiomas românticos como espanhol, italiano e português ainda usam o ou a. Ainda usaríamos d se não fosse o 1º, o 4º etc., para os quais a última consoante não seja expressa em inglês com uma letra. Aconteceu que seguir o idioma inglês superava o desejo de imitar o latim.

Source: https://habr.com/ru/post/pt397869/


All Articles