⛎ 🍥 😽 Comme Youtube et Instagram: internationaliser et localiser une application Python 🛳️ 👭 🕖

Python est au cœur d'applications de renommée mondiale telles que Youtube, Instagram et Pinterest. Pour avancer sur le marché mondial, une application a besoin de localisation, c'est-à-dire d'adaptation aux caractéristiques d'un pays particulier et d'internationalisation - traduction de contenu. Dans cet article, nous partagerons notre expérience sur la façon d'accélérer l'automatisation de la traduction et de résoudre certains problèmes typiques dans ce domaine.

Présentation

Ceci est un petit guide pour l'internationalisation (i18n) des applications python. Ce guide sera intéressant pour tous les programmeurs ayant une expérience de développement en python. La lecture d'un article prendra 10 à 15 minutes.

Nous utiliserons l'outil gettext bien testé inclus dans le langage python.

Pour commencer, nous comprendrons ce qu'est l'internationalisation:

L'internationalisation (I18N) est le processus d'adaptation d'une application aux langues de différents pays et régions autres que celle dans laquelle elle a été développée.

Mais il existe également un concept plus large:

La localisation (L10N) est le processus d'adaptation d'une application internationalisée à une région ou une langue spécifique en ajoutant des composants spécifiques à un environnement local donné et en traduisant du texte.

La localisation signifie la traduction:

format de date et d'heure;
format numérique;
fuseau horaire
un calendrier
représentations monétaires;
taxes / TVA;
température et autres mesures;
codes postaux, téléphones;
formatage d'adresse;
code du règlement.

La localisation va au-delà de la traduction de contenu dans une autre langue. Il existe des paramètres culturels et fonctionnels qui nécessitent également une attention particulière. Par exemple, le format de date en Amérique du Nord est MM / JJ / AAAA, mais dans la plupart des pays asiatiques, il est écrit JJ / MM / AAAA.

Un exemple bien connu d'une erreur de traduction d'application

Un autre exemple concerne l'affichage des noms dans les applications. Aux États-Unis, appeler une personne par son nom est acceptable et même préférable, le nom du client s'affiche dans l'en-tête dès que le client se connecte. Cependant, au Japon, le contraire est vrai: appeler quelqu'un par son nom est impoli ou même offensant. La localisation doit en tenir compte et éviter d'utiliser des noms pour un public japonais.

Dans cet article, nous ne considérerons que l'internationalisation, mais les mécanismes de localisation sont construits de manière similaire. Les bibliothèques mentionnées dans cet article prennent en charge la localisation des applications.

Types principaux

L'internationalisation est divisée en:

Traduction de données directement dans des scripts python.
Traduction des données dans les moteurs de modèles.
Traduction de données stockées dans une base de données.

1. Traduction des données de script python

Pour que notre internationalisation fonctionne, nous devons traiter avec la bibliothèque babel et la boîte à outils distutils pour gérer l'assemblage du projet à vendre et au-delà.

Préparation de la traduction

Pour commencer, nous devons créer une liste de traductions. Pour commencer, nous installons la bibliothèque Babel - c'est une bibliothèque python généralement reconnue pour localiser et convertir des dates, des devises, avec des ajouts pratiques pour construire le projet (discuté ci-dessous).

Python fournit une boîte à outils pour le multilinguisme - gettext. GNU gettext est en fait une solution de localisation universelle qui prend en charge d'autres langages de programmation dans les messages multilingues. Gettext est utilisé non seulement dans de nombreux langages de programmation, mais aussi dans la traduction de systèmes d'exploitation; c'est un logiciel bien testé et distribué gratuitement disponible sur github .

Pour que les traductions fonctionnent, vous devez importer le module gettext et passer les scripts avec les traductions à l'entrée. Tout d'abord, nous marquons toutes les chaînes traduites avec la fonction spéciale _ ('some_text'). L'appel à cette fonction dans le projet ressemblera à ceci:

import gettext import os localedir = os.path.join(os.path.abspath('/path/to/locales'), 'locales') translate = gettext.translation('domain_name', localedir, ['ru']) _ = translate.gettext print(_('some_text')) print(_('some_text_2'))

Dans un petit morceau de code, créez un objet d'internationalisation qui utilise le répertoire «locales» comme source de phrases traduites. Le répertoire 'locales' n'a pas encore été créé, mais c'est là que l'application recherchera les traductions lors de l'exécution.

Par souci de concision, la fonction translate.gettext sera désignée ci-dessous par _. Underscore est le nom commun de cette fonction, qui est reconnu par la communauté Python.

La fonction _ () marque les lignes à traduire. Le module gettext est accompagné de l'outil xgettext, qui analyse les marqueurs de chaîne _ () par code et forme un modèle d'objet portable (fichier-pot). Pour créer le fichier pot, revenons à la bibliothèque Babel installée, qui possède de nombreuses fonctionnalités pour prendre en charge l'internationalisation. Babel étend le script de construction setup.py, qui peut être écrit en utilisant la bibliothèque standard de distythils python ou le paquet setuptools tiers de votre choix. L'assemblage des modules Python dépasse le cadre de notre article; pour plus de détails, consultez la documentation . Il suffit de créer un fichier setup.py avec le contenu suivant:

 from babel.messages import frontend as babel from distutils.core import setup setup(name='foo', version='1.0', cmdclass = {'extract_messages': babel.extract_messages, 'init_catalog': babel.init_catalog, 'update_catalog': babel.update_catalog, 'compile_catalog': babel.compile_catalog,} )

Ainsi, nous avons créé des instructions pour la construction du projet et ajouté quatre équipes d'internationalisation de la bibliothèque babel. Considérez ces commandes plus en détail par ordre d'utilisation.

extract_messages

Cette commande est un wrapper sur l'outil GNU xgettext, qui analyse les balises traduisibles _ () dans un fichier pot. Pour exécuter, vous avez besoin de plusieurs paramètres pour l'assemblage. Pour ce faire, dans le répertoire racine, créez le fichier setup.cfg avec le contenu:

 [extract_messages] input_dirs = foobar output_file = foobar/locales/messages.pot

input_dirs - le nom du répertoire à partir duquel toutes les étiquettes du code _ () seront sélectionnées pour les traductions.
fichier_sortie - chemin du fichier .pot résultant

Pour exécuter la commande, exécutez dans la console:

 $ python setup.py extract_messages

 running extract_messages extracting messages from foobar/__init__.py extracting messages from foobar/core.py ... writing PO template file to foobar/locales/messages.pot

Dans le fichier pot, les lignes marquées sont collectées dans une liste à partir de laquelle les traducteurs peuvent ensuite créer des traductions pour chacune des langues souhaitées.

 # SOME DESCRIPTIVE TITLE. # Copyright (C) YEAR ORGANIZATION # FIRST AUTHOR <EMAIL@ADDRESS>, YEAR. # msgid "" msgstr "" "Project-Id-Version: PACKAGE VERSION\n" "POT-Creation-Date: 2018-01-28 16:47+0000\n" "PO-Revision-Date: YEAR-MO-DA HO:MI+ZONE\n" "Last-Translator: FULL NAME <EMAIL@ADDRESS>\n" "Language-Team: LANGUAGE <LL@li.org>\n" "MIME-Version: 1.0\n" "Content-Type: text/plain; charset=UTF-8\n" "Content-Transfer-Encoding: 8bit\n" "Generated-By: pygettext.py 1.5\n" #: src/main.py:5 msgid "some_text" msgstr "" #: src/main.py:6 msgid "some_text_2" msgstr ""

Ensuite, vous devez créer des traductions pour plusieurs langues. Pour ce faire, utilisez les commandes babel suivantes.

init_catalog

Cette commande est un wrapper sur l'outil GNU msginit, qui crée un nouveau répertoire de traduction basé sur le fichier pot.

 $ python setup.py init_catalog -l en -i foobar/locales/messages.pot \ -o foobar/locales/en/LC_MESSAGES/base.po

 running init_catalog creating catalog 'foobar/locales/en/LC_MESSAGES/messages.po' based on 'foobar/locales/messages.pot'

Important! Les fichiers de localisation sont stockés de manière spécifique, conformément à la convention:

locales // LC_MESSAGES / .po

- un répertoire avec des traductions dans une langue spécifique, dans notre cas c'est l'anglais (en). Il peut également y avoir un répertoire avec des traductions non seulement dans une langue spécifique, mais prenant également en compte des fonctionnalités supplémentaires. Par exemple, une traduction anglaise pour les États-Unis est en_US;

- domaine avec traductions. Si notre application se développe, les traductions seront divisées en domaines afin de ne pas surcharger un fichier.

update_catalog

Cette commande est un wrapper sur l'outil msgmerge GNU, qui met à jour les répertoires de traduction existants pour les fichiers * .po.

Lors de l'ajout de nouvelles traductions, nous exécutons simplement la commande:

 $ python setup.py update_catalog -l en -i foobar/locales/messages.pot \ -o foobar/locales/en/LC_MESSAGES/base.po

 running update_catalog updating catalog 'foobar/locales/en/LC_MESSAGES/base.po' based on 'foobar/locales/messages.pot'

Nous pouvons également spécifier la localisation en russe en spécifiant ru au lieu de en.

compile_catalog

La commande finale est un wrapper sur l'outil GNU msgfmt. Il prend les messages traduisibles des fichiers * .po et les compile en fichiers binaires * .mo pour optimiser les performances.

 $ python setup.py compile_catalog --directory foobar/locales --domain base

 running compile_catalog compiling catalog to foobar/locales/en/LC_MESSAGES/base.mo

--directory - chemin vers le répertoire avec localisation,
--domain - un indicateur pour spécifier un domaine de traduction, nous le spécifions conformément aux domaines d'application existants.

Les scripts Python ne fonctionnent qu'avec des traductions * .mo optimisées. Par conséquent, avec toute modification, afin qu'elle apparaisse dans l'application, vous devez recompiler les fichiers avec la localisation. Pour travailler avec des fichiers de traduction, vous pouvez utiliser l'application poedit - elle est disponible pour tous les systèmes d'exploitation et est un logiciel distribué gratuitement.

poedit - application de traduction

Chaque traduction est affichée sur une ligne distincte, ce qui est pratique. Une fois le travail de traduction terminé, lors de l'enregistrement des modifications, un fichier binaire * .mo avec toutes les modifications est automatiquement compilé.

Par conséquent, la structure des catalogues de traduction ressemblera à ceci:

 locales ├── en │ └── LC_MESSAGES │ ├── base.mo │ └── base.po ├── ru │ └── LC_MESSAGES │ ├── base.mo │ └── base.po └── messages.pot

Convention sur les noms de marqueurs de traduction

Les fichiers po contiennent des traductions de texte et sont logiquement combinés dans un fichier avec un nom commun. Ces groupes sont appelés domaines. Dans l'exemple ci-dessus, il n'y a qu'un seul domaine nommé base. Dans les grandes applications, il y aura plus de domaines et les listes de traduction doivent être écrites en tenant compte de la structure de l'application.

La cohérence des noms des marqueurs de traduction doit être maintenue pour éviter toute confusion supplémentaire dans les traductions. Par exemple, nous avons un formulaire avec la sauvegarde des données utilisateur sur la page de profil utilisateur:

profile.user_form.component.title: Données utilisateur
profile.user_form.component.save: Enregistrer
profile.user_form.field.username: Nom d'utilisateur
profile.user_form.field.password: mot de passe

Déploiement d'applications

Pour déployer et déployer l'application dans Docker, vous devez compiler les fichiers de traduction dans des fichiers binaires * .mo à l'aide de la commande suivante:

 $ python setup.py compile_catalog --domain <>

Nous vous recommandons d'exclure les fichiers * .mo et * .pot dans .gitignore:

# Traductions
* .mo
* .pot

2. Traduction des données dans les moteurs de modèles

Avec la localisation dans les modèles, tout est un peu plus facile. Considérez le moteur de modèle de python le plus populaire - jinja. Pour ce moteur de modèle, la prise en charge de la localisation de gettext via des modules complémentaires est déjà implémentée. Pour activer le module complémentaire, vous devez spécifier le chemin d'accès au module complémentaire dans le constructeur d'environnement. Pour les plateformes multilingues, vous devez télécharger les traductions une fois et ajouter des objets de traduction à l'objet Environnement lors de l'initialisation de l'application:

 translations = get_gettext_translations() env = Environment(extensions=['jinja2.ext.i18n']) env.install_gettext_translations(translations)

Ensuite, dans les modèles, nous utilisons simplement les constructions:

 {{ gettext('some_text') }} {{ gettext('Hello %(name)s!')|format(name='World') }}

3. Traduction des données stockées dans la base de données

Examinons les options pour travailler avec des traductions dans les bases de données relationnelles les plus courantes. Il convient de noter que la mise en œuvre des traductions et de la localisation pour les bases de données noSQL et newSQL est similaire.

Remarque: nous ne considérerons pas le cas lorsque la traduction de chaque langue est stockée dans une colonne distincte. Une telle implémentation implique des limitations de mise à l'échelle et d'autres risques avec un support d'application supplémentaire.

1) Lignes distinctes pour chaque langue

Avec cette approche, pour chaque langue, la traduction dans une langue spécifique dans les lignes est basée sur la valeur de la colonne, par exemple code_langue. Si la valeur en est dans cette colonne, toutes les valeurs traduites doivent se référer au pays et à la région donnés.

Pour le schéma décrit, les données du tableau doivent ressembler à ceci:

Avantages:

Implémentation simple et efficace.
Requêtes simples lors de l'utilisation d'un code de langue spécifique.

Inconvénient:

Manque de centralisation

Les traductions dans différentes langues peuvent être stockées dans différentes tables. Ainsi, vous ne savez pas combien de langues votre application est entièrement traduite.

Cette solution convient aux applications qui ne nécessitent pas initialement une internationalisation complète de toutes les données. Mais il est possible d'ajouter des traductions pour de nouvelles régions à mesure que l'entreprise se développe.

La demande de données sera la suivante:

 SELECT p.product_name, p.price, p.description FROM product p WHERE p.language_code = @language_code;

2) Tableaux séparés avec traductions

Dans cette approche, pour chaque table nécessitant une localisation, nous créons des tables avec des traductions.

Avantages:

Il n'est pas nécessaire de joindre des tables pour les données non traduites.
Les requêtes deviennent faciles car il existe des tables séparées pour la traduction.
Il n'y a aucun écart dans les données.
En plus des traductions, il est possible de localiser efficacement le reste des données dans la table des langues.

Inconvénient:

Dans les grandes applications, la table de traduction est gonflée et ralentit. Lors de l'optimisation de l'application, il sera nécessaire d'implémenter la migration des données sur des tables distinctes.

La demande de données sera la suivante:

 SELECT tp.text, p.price, tc.text, c.contact_name FROM order_line o, product p, customer c, translation tp, translation tc, language l WHERE o.product_id = p.id AND o.customer_id = c.id AND p.name_translation_id = tp.id AND c.name_translation_id = tc.id AND tp.language_id = l.id AND tc.language_id = l.id AND l.name = @language_code AND o.id = ***;

3) Création d'entités pour les champs traduits et non traduits

Dans cette solution, les tables d'entité qui contiennent un ou plusieurs champs traduits développent les données avec des champs non traduits.

Avantages:

Il n'est pas nécessaire de combiner des tables de traduction avec des tables contenant des données qui ne nécessitent pas de traduction. Par conséquent, l'échantillonnage de ces données aura de meilleures performances,
Il est facile d'écrire des requêtes ORM,
Une simple requête SQL pour obtenir le texte traduit,
Il est facile de prendre en charge la traduction de certaines données dans toutes les langues disponibles.

Inconvénient:

La relative complexité de la mise en œuvre.

Voici un exemple de requête qui récupérera le texte traduit:

 SELECT pt.product_name, pt.description, p.price FROM order_line o, product p, product_translation pt, language l WHERE o.product_id = p.id AND AND p.id = pt.product_non_trans_id AND pt.language_id = l.id AND l.name = @language_code;

Conclusions

Lors de la localisation et de l'internationalisation d'applications pour le marché international, différentes méthodes peuvent être utilisées, chacune ayant certaines caractéristiques et limitations.

Dans cet article, nous avons examiné les types d'internationalisation suivants:

dans le code: nous utilisons des traductions lors de la création d'un service ou d'une application avec gui;
dans les modèles: nous utilisons lors du développement d'une application web sans interface dynamique;
dans la base de données: à utiliser lors du stockage de données utilisateur ou générées dynamiquement.

Nous espérons que notre article vous aidera à choisir la méthode la plus adaptée à votre projet.

Comme Youtube et Instagram: internationaliser et localiser une application Python

Présentation

Types principaux

1. Traduction des données de script python

Préparation de la traduction

2. Traduction des données dans les moteurs de modèles

3. Traduction des données stockées dans la base de données

1) Lignes distinctes pour chaque langue

2) Tableaux séparés avec traductions

3) Création d'entités pour les champs traduits et non traduits

Conclusions

More articles: