Un collègue m'a demandé des conseils sur comment reconnaître un fichier de sous-titres chinois d'un fichier de sous-titres coréen, par exemple. J'ai pensé utiliser les stats de fréquence dans les différentes langues.
CHINOIS
Chinois mandarin. Les dix caractères les plus fréquents :
的, 一, 是, 不, 了, 人, 我, 在, 有, 他.
Note : ces caractères sont identiques que l’on écrive en simplifié ou en traditionnel. Ce qui est intéressant, c’est que les 11me et 14me caractères les plus fréquents, eux, sont écrits différemment :
• Chinois simplifié 这, 来
• Chinois traditionnel 這, 來
Je n’ai pas accès à la liste des caractères les plus courants en cantonais mais apparemment le caractère 嘅 est un des mots les plus fréquemment utilisés.
(Note : le cantonais s’écrit uniquement en caractères traditionnels)
CORÉEN
Les neuf syllabes les plus fréquentes :
이, 다, 는, 을, 가, 고, 에, 지, 어
JAPONAIS
Le japonais s’écrit avec un mélange de caractères chinois et de signes issus du syllabaire japonais. Mais j’ai trouvé la liste des mots les plus fréquents ; les dix mots les plus fréquents sont :
の, て, に, は, だ, た, を, が, と, 為る
RECONNAISSANCE DE LA LANGUE
J'ai pondu une sorte de pseudo-code :
1er test – y a-t-il une de ces syllabes 이, 다, 는
Oui : Coréen
Non : Continuons de chercher
2me test – y a-t-il un de ces mots の, て, に
Oui : Japonais
Non : Continuons de chercher
3me test – y a-t-il un de ces caractères 的, 一, 是, 不, 了
Oui : Chinois
Non : Ce n’est ni du chinois, ni du coréen, ni du japonais.
4me test – y a-t-il les caractères 这, 来
Oui : Chinois mandarin simplifié
Non : Continuons de chercher
5me test – y a-t-il les caractères 這, 來
Oui : Chinois traditionnel
Non : Ouvrir le fichier et regarder
6me test – y a-t-il le caractère 嘅
Oui : Cantonais
Non : Chinois mandarin traditionnel
TEST RÉEL
J'ai pris une dizaine de pages de sites CJK au hasard. Mes tests fonctionnent bien pour identifier les langues utilisées sur ces pages.
16 February 2016
09 February 2016
Koedo
Koedo (7, rue Rouget de Lisle à Issy-les-Moulineaux) est un restaurant spécialisé dans les bentō, les vrais, comme au Japon. Il est caché sous le pont de la voie ferrée du RER C, à côté du guichet SNCF mais est facile à repérer le midi en semaine : il y a une queue pas possible :-)
Koedo propose des bentō préparés tous les matins par une équipe de petites mains japonaises menées de main de maître(sse) par la sympathique gérante française et nippophone. Les prix varient de 12 à 15 € selon le contenu (végétarien, tōfu, saumon, poulet, bœuf...). Ma préférence va aux bentō végétariens et/ou au tōfu, plus inventifs.
C'est très bon, c'est très frais, c'est vraiment japonais et du coup ça change vraiment par rapport aux infâmes cochonneries servies dans les faux restaurants japonais.
Koedo propose des bentō préparés tous les matins par une équipe de petites mains japonaises menées de main de maître(sse) par la sympathique gérante française et nippophone. Les prix varient de 12 à 15 € selon le contenu (végétarien, tōfu, saumon, poulet, bœuf...). Ma préférence va aux bentō végétariens et/ou au tōfu, plus inventifs.
C'est très bon, c'est très frais, c'est vraiment japonais et du coup ça change vraiment par rapport aux infâmes cochonneries servies dans les faux restaurants japonais.
Subscribe to:
Posts (Atom)