Première rédaction de cet article le 8 octobre 2019
En mars dernier est sortie la version 12 d'Unicode. Une description officielle des principaux changements est disponible mais voici ceux qui m'ont intéressé particulièrement. (Il n'y a pas de changement radical.)
Pour explorer plus facilement la grande base Unicode, j'utilise un programme qui la convertit en SQL et permet ensuite de faire des analyses variées. Faisons quelques requêtes SQL :
ucd=> SELECT count(*) AS Total FROM Characters; total -------- 137994
Combien de caractères sont arrivés avec la version 12 ?
ucd=> SELECT version,count(version) FROM Characters GROUP BY version ORDER BY version::float; ... 10.0 | 8518 11.0 | 684 12.0 | 554 12.1 | 1
554 nouveaux, cette version 12 est très modérée. Quels sont ces nouveaux caractères ?
ucd=> SELECT To_U(codepoint) AS Codepoint, name FROM Characters WHERE version='12.0'; codepoint | name -----------+---------------------------------------------------------------------------- ... U+1FA70 | BALLET SHOES ... U+2E4F | CORNISH VERSE DIVIDER ... U+A7C3 | LATIN SMALL LETTER ANGLICANA W ... U+10FE0 | ELYMAIC LETTER ALEPH U+10FE1 | ELYMAIC LETTER BETH U+10FE2 | ELYMAIC LETTER GIMEL ... U+1E100 | NYIAKENG PUACHUE HMONG LETTER MA U+1E101 | NYIAKENG PUACHUE HMONG LETTER TSA U+1E102 | NYIAKENG PUACHUE HMONG LETTER NTA ... U+1F6D5 | HINDU TEMPLE U+1F6FA | AUTO RICKSHAW ... U+1F97B | SARI ... U+1F9A7 | ORANGUTAN ... U+1F9BB | EAR WITH HEARING AID U+1F9BC | MOTORIZED WHEELCHAIR U+1F9BD | MANUAL WHEELCHAIR ... U+1FA30 | WHITE CHESS KNIGHT ROTATED TWO HUNDRED TWENTY-FIVE DEGREES U+1FA31 | BLACK CHESS KNIGHT ROTATED TWO HUNDRED TWENTY-FIVE DEGREES
Parmi les emojis de cette version, beaucoup concernent l'Inde, comme le sari ou le rickshaw. Beaucoup de caractères liés au handicap ont été créés, ainsi, mais c'est plus anecdotique, que beaucoup de caractères pour le jeu d'échecs. On trouve aussi des caractères étonnants comme U+2E4F, qui ne sert apparemment qu'à la poésie cornouaillaise. Et il y a bien sûr de nouvelles écritures comme l'élymaïque ou le nyiakeng puachue hmong. Même l'alphabet latin voit arriver de nouveaux caractères comme le U+A7C3.
Au fait, l'unique caractère de la version 12.1, c'était quoi ?
ucd=> SELECT To_U(codepoint) AS Codepoint, name FROM Characters WHERE version='12.1'; codepoint | name -----------+----------------------- U+32FF | SQUARE ERA NAME REIWA
Une version d'Unicode uniquement pour introduire un caractère japonais permettant de noter l'ère Reiwa… (Merci à John Shaft pour avoir repéré celui-là.)
Tiens, d'ailleurs, combien de caractères Unicode sont des symboles (il n'y a pas que les emojis parmi eux, mais Unicode n'a pas de catégorie « emoji ») :
ucd=> SELECT count(*) FROM Characters WHERE category IN ('Sm', 'Sc', 'Sk', 'So'); count ------- 7564
Ou, en plus détaillé, et avec les noms longs des catégories :
ucd=> SELECT description,count(category) FROM Characters,Categories WHERE Categories.name = Characters.category AND category IN ('Sm', 'Sc', 'Sk', 'So') GROUP BY category, description; description | count -----------------+------- Modifier_Symbol | 123 Other_Symbol | 6431 Math_Symbol | 948 Currency_Symbol | 62
Version PDF de cette page (mais vous pouvez aussi imprimer depuis votre navigateur, il y a une feuille de style prévue pour cela)
Source XML de cette page (cette page est distribuée sous les termes de la licence GFDL)