Voilà un touitte de l'ANRT qui annonce qu'Unicode a été complété des caractères nécessaires à 4 autres graphies qui n'y étaient pas encore, pour atteindre le total (fort honorable) de 150 graphies.

L'occasion de vous faire un petit fil pour parler typographie (et jouer les vieux cons).

Parlons donc d'Unicode.

Unicode, c'est un projet de fou. Une espèce de délire humaniste d'informaticiens typographes du 20e siècle. Un peu comme l'Encyclopédie, celle de Diderot et D’Alembert.

L'idée était d'avoir un schéma de codage des caractères qui permette de recouvrir tous les schémas connus auparavant, et idéalement, toutes les langues écrites de l'humanité.

Les règles qui ont été retenues sont, presque toujours, les plus exigeantes possibles, et accordant une place très importante aux questions techniques. Le but n'était pas de faire un annuaire de tous les caractères dont personne ne se serve. Il fallait que ça puisse devenir un standard industriel, universel. Alors il fallait absolument prendre en compte les contraintes techniques, pour que les industriels suivent.

C'est par exemple de là que vient la contrainte sur la bijection : pour tous les codages connus (genre, le big5, schéma de codage utilisé par l'industrie japonaise), il faut qu'on puisse convertir l'ancien schéma vers unicode, aller-retour, sans aucune perte.

Ça semble abstrait ? Si l'ancien schéma contient deux caractères X1 et X2, alors, on doit retrouver ces deux caractères à deux positions différentes dans Unicode, même si la logique disait que c'était le même.

Par exemple, si dans un codage on avait "a latin minuscule" et "a latin minuscule italique", alors il fallait qu'Unicode prévoit les deux. Ainsi, l'ancien fichier pouvait être transcodé vers Unicode, puis de nouveau vers le schéma d'origine, et le fichier retrouvé était absolument intact, à l'octet près.

Pourtant, Unicode, normalement, stocke des caractères, par des glyphes.

On retrouve donc, pour ce compromis technique important, quelques éléments un peu hérétiques dans Unicode. Des caractères qui n'ont rien à y faire, mais qui sont conservés, pour les vieux fichiers.

Il y avait aussi la volonté de représenter toutes les langues. Toutes. Vraiment. Y compris dans leurs formes rares.

C'est une des raisons pour lesquelles Unicode continue à évoluer. Lentement, par rapport à ses débuts, mais ça continue. Parce qu'il y a des langues qui sont tellement mal représentées dans les outils modernes qu'il n'existe aucun outil informatique. Mais qui sont parlées, hein.

J'ai souvenir de cette langue rare, d'Inde, qui pouvait se typographier au plomb, à la fin du 19e, et n'a pu être typographiée à l'ordinateur qu'au début du 21e siècle.

Et encore, uniquement parce que des doux dingues ont écrit le code nécessaire pour faire ça avec LaTeX. La langue en question est une langue minoritaire d'Inde. C'est-à-dire 50 millions de locuteurs. Mais voilà, ils ne sont pas occidentaux, et ne roulent pas en SUV. Pendant ~60 ans, ça a été une tannée pour voir leur langue écrite.

Voyez, dans ma tête, Unicode, c'est ça. Un projet humaniste, d'unification, pour que toutes les langues du monde accèdent au numérique.

Du coup, si les grands noms de l'informatique pouvaient consacrer des efforts à ça, par exemple en produisant des polices de caractères cohérentes qui couvrent *tout* Unicode, qui permettent d'écrire, avec tous les supports numériques, dans toutes les langues du monde, ça me semblerait... vertueux.

Mais, en général, quand on parle d'Unicode, c'est pour discuter le look de la dernière émoji...

Alors, sans vouloir manquer de respects aux amateurices d'émojis, franchement, savoir si avec une série de caractères combinants on peut représenter une émoji "Courgette aux curry qui fait du tambour avec un poireau bleu et un chapeau pointu", j'en comprend le côté amusant, mais c'est pas ça, le sens d'Unicode.

Et ça m'exaspère qu'on laisse toujours le côté fantastique de cet outil dans l'ombre, pour montrer son côté le plus complètement inutile.

Alors, voilà, il y a dans Unicode les positions pour coder 4 nouvelles graphies, de langues rares, qui jusqu'à présent devaient être, soit écrites dans des alphabets qui ne sont pas les leurs, soit inaccessibles aux ordinateurs, c'est-à-dire mortes.

Unicode, c'est l'arche de Noé pour que les langues de l'humanité ne s'éteignent pas à cause de ce satané ordinateur qui ne sait parler qu'anglais.

@bayartb J'ai un problème justement avec la partie « emoji » de l'unicode.

C'est remarquablement bien adapté pour décrire le monde des étatsuniens (🔫 étant le meilleur exemple...), même s'il manque des éléments évidents (qu'Apple ne voudrait pas voir, par exemple).

Cette vision positive me redonne espoir !

@vk D'une certaine manière, les émojis font partie des choses qui ont répandu l'usage d'Unicode, en ça, c'est plutôt positif.

Tout comme la position hyper-privilégiée des étazuniens dans les graphies. Unicode est *fait* pour qu'il n'y ait pas besoin de traduire le code ascii, et pour qu'un fichier ascii soit directement un fichier Unicode en utf8. Parce que de toutes les industries du monde, celle des USA aurait été la plus lourde à bouger.

Follow

@vk On peut trouver que c'est naze que ce soient toujours les mêmes qui soient privilégiés. Mais c'est pour ça que je parle d'un choix intelligent dans l'acceptation des contraintes industrielles : c'est ce choix technique qui fait qu'Unicode a connu un sort meilleur qu'IPv6. Ça ne changeait rien pour les ricains, et ça ne changeait pas trop de choses pour les pays riches.

Sign in to participate in the conversation
Mastodon

Generalistic and moderated instance. All opinions are welcome, but hate speeches are prohibited. Users who don't respect rules will be silenced or suspended, depending on the violation severity.