Différences

Ci-dessous, les différences entre deux révisions de la page.

--- 2_composition:langues:multilinguisme:codage [2021/02/10 18:58] – Suppression de ce qui ne concerne pas le codage. jejust
+++ 3_composition:langues:multilinguisme:codage [2021/11/21 18:21] (Version actuelle) – Remise en forme de la page. Suppression des restes de code LaTeX. jejust
@@ Ligne 9: / Ligne 9: @@
 Ce codage ne permet pas de représenter les caractères accentués utilisés
 dans la langue française.
-On a donc étendu le codage à 256 (sur 8 bits), et assigné les caractères
+On a donc étendu le codage à(nbsp)256 (sur 8(nbsp)bits), et assigné les caractères
 régionaux aux nombres de 128 à 256.
@@ Ligne 21: / Ligne 21: @@
 Pour les langues asiatiques qui n'utilisent pas un alphabet fini, mais des
-idéogrammes, ce codage sur 8 bits est très insuffisant. Seuls 256 caractères
+idéogrammes, ce codage sur 8(nbsp)bits est très insuffisant. Seuls 256(nbsp)caractères
-(glyphes) peuvent être codés. Ils ont donc codé leurs glyphes sur 2 octets, ce
+(glyphes) peuvent être codés. Ils ont donc codé leurs glyphes sur 2(nbsp)octets, ce
-qui permet de disposer de 65000 glyphes différents. Plusieurs codages
+qui permet de disposer de 65000(nbsp)glyphes différents. Plusieurs codages
 différents ont été utilisés pour la même langue, et sont utilisés
 concurremment (suivant les machines, les régions, les habitudes, les programmes
@@ Ligne 29: / Ligne 29: @@
 quand des programmes utilisent un codage propriétaire et ne sont plus maintenus.
 (voir déjà  le problème du codage des langues asiatiques sur ''MacWord''
-(version 2 de ''Word'') qui ne permet pas de récupérer
+(version(nbsp)2 de ''Word'') qui ne permet pas de récupérer
 les textes sur les nouveaux Macs avec la nouvelle version de ''Word''.)
-Le codage sur 8 bits ne permet que l'emploi de 2 langues dont l'anglais, sauf
+Le codage sur 8(nbsp)bits ne permet que l'emploi de deux langues dont l'anglais, sauf
 dans les cas de langues extrêmement proches comme l'allemand et le français.
 Il est possible de coder les caractères et accents particuliers de ces deux
-langues  sur les 128 nombres supplémentaires.
+langues sur les 128(nbsp)nombres supplémentaires.
 Pour pouvoir utiliser plusieurs langues très différentes simultanément, il faut
-utiliser l'unicode, qui permet de représenter
+utiliser l'unicode, qui permet de représenter toutes les langues.
-toutes les langues. Le codage se fait sur plusieurs octets, et avec des codages
+Le codage se fait sur plusieurs octets, et avec des codages différents (utf-8, utf-16, etc)
-différents (utf-8, utf-16 etc ...)
 Voir plus loin pour les détails.
-Les programmes de saisie de textes <<non utf-8>> doivent donc pouvoir distinguer
+Les programmes de saisie de textes «non utf-8» doivent donc pouvoir distinguer
 le passage d'une langue à l'autre.
-Ils utilisent pour cela soit le 8ème bit du nombre pour savoir si le caractère
+Ils utilisent pour cela soit le 8<sup>e</sup> bit du nombre pour savoir si le caractère
 est régional ou pas, ou utilisent un système de balises comme le fait <latex>\LaTeX</latex>.
-Encore faut-il que ce balisage, codage soit documenté pour la pérennité des
+Encore faut-il que ce balisage, codage soit documenté pour la pérennité des documents saisis.
-documents saisis.
 Les éditeurs utf-8 utilisent le codage utf-8 pour représenter les glyphes,
@@ Ligne 58: / Ligne 56: @@
 ===== Qu'est-ce que le codage des polices de caractères? =====
 $\Reponse$  Comme le codage des textes vu au-dessus, il a fallu représenter les
@@ Ligne 64: / Ligne 61: @@
 qu'avec des nombres).
-Il y a donc une correspondance (bijection ...) entre le codage d'un caractère
+Il y a donc une correspondance (bijection...) entre le codage d'un caractère
 de texte, et son codage dans la fonte.
@@ Ligne 73: / Ligne 70: @@
 Nous verrons plus loin comment expliquer à <latex>\LaTeX</latex> quel codage est utilisé
 pour le texte, et quel codage est utilisé pour la fonte.
@@ Ligne 83: / Ligne 78: @@
 Suivant le codage utilisé pour la saisie, il sera peut-être nécessaire de
 procéder à un transcodage du texte. Par exemple, ''Emacs'' utilise un
-codage propriétaire (mais documenté ! c'est un  logiciel GNU).
+codage propriétaire (mais documenté! c'est un [[wpfr>Projet_GNU|logiciel GNU]]).
 Il faudra configurer le codage de sauvegarde du texte pour qu'il soit
-utilisable par <latex>\LaTeX</latex>. Soit utf-8 pour traitement par \OMEGA ou
+utilisable par <latex>\LaTeX</latex>. Soit [[wpfr>UTF-8|utf-8]] pour traitement
-''UCS-LaTeX'', ou cjk pour traitement par ''CJK-LaTeX''.
+par [[1_generalites:histoire:developpement_du_moteur_tex#omega_et_aleph|Omega]] ou
+''UCS-LaTeX'', ou [[wpfr>Chinois,_japonais,_coréen_et_vietnamien|cjk]] pour traitement par ''CJK-LaTeX''.
-Le paquetage [[ctanpkg>babel|babel]] permet de préciser le codage des textes avec
+Le paquetage [[ctanpkg>babel]] permet de préciser le codage des textes avec
-l'option <<inputenc>>. Il faudra en plus expliciter le <<fontencoding>> pour
+l'option ''inputenc''. Il faudra en plus expliciter le «fontencoding» pour
 préciser le codage de la police utilisée. Ce paquetage permet de traiter de
-nombreux langages. Se reporter à la documentation de [[ctanpkg>babel|babel]] pour les
+nombreux langages. Se reporter à la documentation de [[ctanpkg>babel]] pour les
 langues disponibles.
-Voici quelques exemples d'utilisation de [[ctanpkg>babel|babel]], ''CJK-LaTeX'' etc ...
+Voici quelques exemples d'utilisation de [[ctanpkg>babel]], ''CJK-LaTeX'', etc:
+==== Un exemple avec “babel” ====
+Le texte a été saisi avec ''gvim'' en utilisant ma locale par défaut (FR), et le codage est donc ISO-8859-1.
-\begin{itemize}
-	\item{ Un exemple de [[ctanpkg>babel|babel]]:
-		Le texte a été saisi avec ''gvim'' en utilisant ma locale
-		par défaut (FR), et le codage est donc ISO-8859-1.
 <code latex>
-			\documentclass{article}
+\documentclass{article}
+  \usepackage[T1]{fontenc}
+  \usepackage[latin1]{inputenc}
+  \usepackage[frenchb]{babel}
+% Commentaire : fin du preambule
-			\usepackage[T1]{fontenc}
+\begin{document}
-			\usepackage[latin1]{inputenc}
-			\usepackage[frenchb]{babel}
-			% Commentaire : fin du preambule
+  \title{Titre de mon article}
+  \author{Le Monsieur \and La Madame}
+  \date{Le \today}
-			\begin{document}
+  \maketitle
-				\title{Titre de mon article}
+\begin{abstract}
-				\author{Le Monsieur \and La Madame}
+  Résumé de mon article, passionnant.
-				\date{Le \today}
+\end{abstract}
-				\maketitle
-				\begin{abstract}
+\tableofcontents
-					Résumé de mon article, passionnant.
-				\end{abstract}
-				\tableofcontents
+\section{Explications}
-				\section{Explications}
+\texttt{fontenc}, \texttt{inputenc}
+sont des packages permettant d'utiliser
+les accents.
+\texttt{babel} sert à franciser le
+document.
-					\texttt{fontenc}, \texttt{inputenc}
+\end{document}
-					sont des packages permettant d'utiliser
+</code>
-					les accents.
-					\texttt{babel} sert à franciser le
+==== Un exemple avec “CJK-LaTeX” ====
-					document.
-			\end{document}
-		</code>
-	}
+Cet exemple a été saisi avec ''Emacs'' en utilisant la
-	\item Un exemple de ''CJK-LaTeX'':
+version ''mule'' qui permet de saisir des textes en multiples
-		Cet exemple a été saisi avec ''Emacs'' en utilisant la
+langues. Le codage interne est spécifique à ''Emacs'', mais
-		version ---mule--- qui permet de saisir des textes en multiples
+il est possible de spécifier avec quel codage on veut que
-		langues. Le codage interne est spécifique à ''Emacs'', mais
+soit écrit le fichier sur le disque.
-		il est possible de spécifier avec quel codage on veut que
+Le texte ''chinese.tex'' a été reproduit tel quel (je ne
-		soit écrit le fichier sur le disque.
+comprends pas le chinois) et j'en ai seulement traduit la partie
-		Le texte <<chinese.tex>> a été reproduit tel quel (je ne
+en anglais.
-		comprends pas le chinois) et j'en ai seulement traduit la partie
-		en anglais.
-		Le texte a été traité par ''CJK-LaTeX'' et ''PDF-TeX''.
-		Il est difficile de montrer des exemples réels car cette FAQ
+Le texte a été traité par ''CJK-LaTeX'' et ''PDF-TeX''.
-		est en langage national, et ne gère pas l'utf-8. Dommage
-		\ldots !
+Il est difficile de montrer des exemples réels car cette FAQ
-		Une solution serait d'inclure des images (exemples d'écran de
+est en langage national, et ne gère pas l'utf-8. Dommage!...
-		travail), mais la taille de cette FAQ augmenterait d'une façon
+Une solution serait d'inclure des images (exemples d'écran de
-		déraisonnable.
+travail), mais la taille de cette FAQ augmenterait d'une façon
+déraisonnable.
-		Notez la première ligne du texte qui indique à ''Emacs'' la
-		nature de le codage du texte.
+Notez la première ligne du texte qui indique à ''Emacs'' la
+nature de le codage du texte.
 <code latex>
 %% -*- coding: emacs-mule -*-
 \documentclass[12pt]{article}
-\usepackage{times}
+  \usepackage{times}
-\renewcommand{\baselinestretch}{1.2}
+  \renewcommand{\baselinestretch}{1.2}
 \begin{document}
@@ Ligne 182: / Ligne 173: @@
 sur la partie gauche en chinois traditionnel, et
 à droite en chinois simplifié.
-''CJK-LaTeX'' s'interface parfaitement avec
+\texttt{CJK-LaTeX} s'interface parfaitement avec
-''Emacs-mule'' de telle façon qu'il
+\texttt{Emacs-mule} de telle façon qu'il
 est possible de saisir et d'afficher différents
 types de fontes (Big5 pour les caractères
@@ Ligne 194: / Ligne 185: @@
 Le fichier a été exporté en utilisant la fonction
 \verb|cjk-write-file| fournie par le paquetage
-''CJK-LaTeX'', et le résultat a été passé à
+\texttt{CJK-LaTeX}, et le résultat a été passé à
-''PDF-LaTeX''.
+\texttt{PDF-LaTeX}.
-Ici, signature en chinois \ldots
+Ici, signature en chinois\ldots
 \end{document}
@@ Ligne 203: / Ligne 194: @@
-	\item{Un exemple de ''IvriTeX'':
+==== Un exemple avec “IvriTeX” ====
-		Vous pourrez trouver des exemples dans la distribution de
-		''IvriTeX'' à l'URL suivante:
-		 \url{http://ivritex.sourceforge.net}.
-	}
-	\item{Un exemple de ''THAI-LaTeX'':
-		Vous pourrez trouver des exemples dans la distribution
-		''THAI-LaTeX'' à l'URL suivante:
-		\url{http://ichris.ws/latex} ou dans votre distribution
-		Linux adorée \ldots
-		Debian propose un paquetage <<thai-latex>>. Les exemples sont
-		dans la section documentation.
-	}
-	\item{Un exemple de ''UCS-LaTeX'':
+Vous pourrez trouver des exemples dans la distribution de
-		Le texte a été saisi avec ''gvim'' en mode utf-8.
+''IvriTeX'' à l'URL suivante: [[http://ivritex.sourceforge.net/]].
-<code latex>
-			\documentclass[french,8pts,a4paper]{article}
-			\usepackage[notipa]{ucs}
+==== Un exemple avec “THAI-LaTeX” ====
-			\usepackage[utf8]{inputenc}
-			\usepackage[T1]{fontenc}
-			\usepackage[T3,T2A,T1]{autofe}
-			\usepackage[greek,french,russian,english]{babel}
+Vous pourrez trouver des exemples dans la distribution
+''THAI-LaTeX'' à l'URL suivante: [[http://ichris.ws/latex]]
+ou dans votre distribution Linux adorée...
+Debian propose un paquetage ''thai-latex''. Les exemples sont
+dans la section documentation.
-			\title{Un titre}
+==== Un exemple avec “UCS-LaTeX” ====
-			\author{Auteur}
+Le texte a été saisi avec ''gvim'' en mode utf-8.
+<code latex>
+\documentclass[french,8pts,a4paper]{article}
-			% commande \frt pour écrire du texte français
+  \usepackage[notipa]{ucs}
-			\newcommand\frt[1]{\foreignlanguage{french}{#1}}
+  \usepackage[utf8]{inputenc}
+  \usepackage[T1]{fontenc}
+  \usepackage[T3,T2A,T1]{autofe}
+  \usepackage[greek,french,russian,english]{babel}
-			% commande \rut pour écrire en russe
-			\newcommand\rut[1]{\foreignlanguage{russian}{#1}}
-			% commande grt pour écrire du texte en grec
+\title{Un titre}
-			\newcommand\grt[1]{\foreignlanguage{greek}{#1}}
+\author{Auteur}
-			% commande \phot pour écrire du texte en alphabet
+% commande \frt pour écrire du texte français
-			%phonétique
+\newcommand\frt[1]{\foreignlanguage{french}{#1}}
-			\newcommand\phot[1]{\bgroup\fontencoding{T3}%
-			\selectfont\SetUnicodeOption{tipa}#1\egroup}
+% commande \rut pour écrire en russe
+\newcommand\rut[1]{\foreignlanguage{russian}{#1}}
-			\begin{document}
+% commande grt pour écrire du texte en grec
+\newcommand\grt[1]{\foreignlanguage{greek}{#1}}
-			\maketitle
+% commande \phot pour écrire du texte en alphabet
+% phonétique
+\newcommand\phot[1]{\bgroup\fontencoding{T3}%
+\selectfont\SetUnicodeOption{tipa}#1\egroup}
-			\tableofcontents
+\begin{document}
-			\section{Je suis auteur de textes multilingues et
+\maketitle
-			de dictionnaires: comment faire ?}
-			La composition de textes multilingues dans le cadre
+\tableofcontents
-			d'un traitement
-			par \LaTeX doit se faire en ''UTF8''. En effet,
-			c'est le seul moyen pour \ldots
-			\frt{Russe:}
+\section{Je suis auteur de textes multilingues et
+de dictionnaires: comment faire ?}
-			Ici suit le texte en Unicode (russe) ...
+La composition de textes multilingues dans le cadre
+d'un traitement
+par \LaTeX{} doit se faire en ''UTF8''. En effet,
+c'est le seul moyen pour\dots
-			\rut{ texte en russe	}
+\frt{Russe:}
+Ici suit le texte en Unicode (russe)\dots
-			\frt{Grec (en Polytonic)}:
+\rut{ texte en russe	}
-			Ici suit le texte en grec:
-			\grt{ texte en grec }
+\frt{Grec polytonique)}:
-			\end{document}
+Ici suit le texte en grec:
-		</code>
+\grt{ texte en grec }
-	}
-\end{itemize}
+\end{document}
+</code>