¿Sabías que la letra más frecuente en español es la e? Cuando se pregunta a la gente, se suele responder que la más frecuente es la a, quizá porque ocupa un lugar predominante en el abecedario y por tanto los diccionarios, o porque es la primera vocal por el mismo motivo. Sin embargo, la a y la e no se llevan demasiada distancia. Si la e aparece en el 13,68 % de los caracteres, la a lo hace en el 12,53 % de ellos. Todas las vocales ocupan el 45 % del texto.

Sin embargo, no todos los volúmenes, textos o aplicaciones mantienen esta cadencia. Por ejemplo, en el juego Wordle, que usa palabras de cinco letras, la a es la letra más frecuente dentro de este conjunto, con un 15,3 % de apariciones, seguida de la o e un 10,6 % de los caracteres. La o ocupa la tercera posición (7,97 %) en textos más largos con todo tipo de palabras. Sigue siendo de las más frecuentes. Sabiendo esto, ¿qué otros idiomas se parecen al español en frecuencia de letras?

La letra e también es la más frecuente en inglés (12,7 %), francés (14,71 %), alemán (16,39 %), danés (15,45 %) y suizo (10,15 %), entre otros idiomas. La letra a, sin embargo, es más frecuente en portugués (14,63 %), esperanto (12,11 %), turco (11,92 %), polaco (8,91 %), neerlandés (18,91 %), islandés (10,11 %), finés (12,21 %) o checo (8,42 %). En italiano, las letras e y a están casi empatadas, con una frecuencia de 11,79 % y 11,74 %, respectivamente.

Llama mucho la atención cómo en algunos idiomas una letra se repite muchísimo más que ninguna otra. En árabe, el caracter ا ocupa el 12,5 % del texto, seguido de ل, que ocupa el 12,07 %. En chino, el caracter ocupa la primera posición con el 4,09 % del texto, seguido de (1,6 %). En ruso, О (11,18 %) es el caracter más frecuente seguido de Е (8,75 %). Ordenados por cómo de frecuente es la letra más frecuente, una pequeña lista de idiomas quedarían como siguen:

 

Idioma Letra más frecuente F1 [%] Segunda letra más frecuente F2 [%] Rel
Italiano e 11,79 a 11,74 1,00
Árabe ا 12,5 ل 12,07 1,04
Suizo e 10,15 a 9,38 1,08
Polaco a 8,91 i 8,21 1,09
Portugués a 14,63 e 12,57 1,16
Islandés a 10,11 r 8,58 1,18
Español e 13,68 a 11,51 1,19
Esperanto a 12,11 i 10,01 1,21
Ruso О 11,18 Е 8,75 1,28
Turco a 11,92 e 8,91 1,34
Inglés e 12,7 t 9,05 1,40
Alemán e 16,39 n 9,77 1,68
Danés e 15,45 r 8,95 1,73
Francés e 14,71 s 7,94 1,85
Neerlandés a 18,91 n 10,03 1,89
Chino 4,09 1,6 2,56

 

La columna F1 muestra la frecuencia más alta de cada idioma, mientras que F2 muestra la segunda frecuencia más alta. Las columnas que les preceden muestran el caracter al que representan. La última columna es fruto de la división F1/F2.Llama mucho la atención cómo en idiomas como el italiano o el árabe, la frecuencia de los dos primeros caracteres es similar, y cómo en el chino resulta una diferencia notable (especialmente teniendo en cuenta que hay más de 7000 aceptados.

Comentarios

comentarios