16 February 2016

Reconnaissance de langue CJK

Un collègue m'a demandé des conseils sur comment reconnaître un fichier de sous-titres chinois d'un fichier de sous-titres coréen, par exemple. J'ai pensé utiliser les stats de fréquence dans les différentes langues.

CHINOIS
Chinois mandarin. Les dix caractères les plus fréquents :
的, 一, 是, 不, 了, 人, 我, 在, 有, 他.
Note : ces caractères sont identiques que l’on écrive en simplifié ou en traditionnel. Ce qui est intéressant, c’est que les 11me et 14me caractères les plus fréquents, eux, sont écrits différemment :
•    Chinois simplifié 这, 来
•    Chinois traditionnel 這, 來

Je n’ai pas accès à la liste des caractères les plus courants en cantonais mais apparemment le caractère 嘅 est un des mots les plus fréquemment utilisés.
(Note : le cantonais s’écrit uniquement en caractères traditionnels)

CORÉEN
Les neuf syllabes les plus fréquentes :
이, 다, 는, 을, 가, 고, 에, 지, 어

JAPONAIS
Le japonais s’écrit avec un mélange de caractères chinois et de signes issus du syllabaire japonais. Mais j’ai trouvé la liste des mots les plus fréquents ; les dix mots les plus fréquents sont :
の, て, に, は, だ, た, を, が, と, 為る

RECONNAISSANCE DE LA LANGUE
J'ai pondu une sorte de pseudo-code :

1er test – y a-t-il une de ces syllabes 이, 다, 는
Oui : Coréen
Non : Continuons de chercher

2me test – y a-t-il un de ces mots の, て, に
Oui : Japonais
Non : Continuons de chercher

3me test – y a-t-il un de ces caractères 的, 一, 是, 不, 了
Oui : Chinois
Non : Ce n’est ni du chinois, ni du coréen, ni du japonais.

4me test – y a-t-il les caractères 这, 来
Oui : Chinois mandarin simplifié
Non : Continuons de chercher

5me test – y a-t-il les caractères 這, 來
Oui : Chinois traditionnel
Non : Ouvrir le fichier et regarder

6me test – y a-t-il le caractère 嘅
Oui : Cantonais
Non : Chinois mandarin traditionnel

TEST RÉEL
J'ai pris une dizaine de pages de sites CJK au hasard. Mes tests fonctionnent bien pour identifier les langues utilisées sur ces pages.

No comments:

Post a Comment