Version anglaise (Hong Kong) de Google Actualités

J’ai travaillé sur une version anglaise de Toasty News, en la développant petit à petit. Tout a commencé par simplement traduire les articles, puis par regroupement avec certains sites de Hong Kong tels que Hong Kong Free Press et RTHK.

Après News Translation 2.0, je pensais être proche d’une version anglaise h de Google Actualités pour Hong Kong, qui n’existe pas réellement. Alors je suis devenu fou et j’ai commencé à collecter des informations auprès de sources du monde entier. C’était plus facile que je ne l’imaginais. Je ne suis pas Google, il n’est donc pas possible de gratter et d’analyser de nombreux sites. Heureusement, presque tous les principaux organes de presse fournissent des flux RSS. Le format est standard, avec des variations mineures dans la façon dont les champs sont utilisés. Cela m’a permis d’ajouter rapidement de nouveaux sites. Tout ce que j’ai à faire est de décider si un article concerne Hong Kong et de le stocker. Je suis donc en train de collecter des actualités à partir du flux RSS des sites suivants:

Hong Kong

Asie

États-Unis

Royaume-Uni

Europe

Australie

Le résultat final est une page en anglais avec des grappes détaillées de l’actualité de Hong Kong. Je pense que c’est déjà mieux que le sujet de Hong Kong sur Google Actualités.

News Translation 2.0 me donne suffisamment d’articles en anglais pour couvrir 50% des articles traduits. Les flux RSS internationaux portent la couverture à 75%. Cela signifie que chaque jour, seuls deux articles environ sont traduits automatiquement, les autres sont tous de vrais articles en anglais. À l’heure actuelle, la couverture est peut-être à un point culminant, car le monde entier est sous les projecteurs de Hong Kong. Je m’attends à ce que la couverture diminue une fois que les choses reviendront à la normale (si jamais).

Cependant, certaines mises en garde à propos du RSS sont que les informations importantes ne sont généralement pas généreuses en ce qui concerne la gratuité. La plupart des sites ne donnent qu’une description en une ligne des articles. Voici un exemple de CNN:

Les manifestants de Hong Kong forment une chaîne humaine à travers la ville

Les manifestants ont formé une chaîne humaine à Hong Kong vendredi soir pour montrer leur solidarité au mouvement de protestation pro-démocratie de la ville qui continue de gagner du terrain près de trois mois après son lancement.

L’algorithme fait un travail adéquat pour les attacher aux bons clusters, mais ceux-ci seraient souvent perdants au profit de sites qui donnent des descriptions plus longues en termes de pertinence. En conséquence, les principaux sites d’information sont souvent classés plus bas. Si cela devient vraiment un problème à l’avenir, je peux explorer ces articles.

Comme la version hongkongaise, j’ai une section qui met en évidence les articles restants les plus populaires sur Facebook. Le nombre de réactions à ces articles en anglais est souvent bien inférieur à celui des meilleurs articles hongkongais, qui dépasse généralement les 1000 réactions.

La prochaine étape serait de commencer à baliser ces clusters comme la version hongkongaise. De nombreux visiteurs accèdent au site en recherchant les balises hongkongaises sur Google, il devrait donc être utile de les avoir également en anglais. Le problème immédiat serait de savoir comment obtenir la traduction anglaise appropriée des entités nommées hongkongaises. Voici quelques approches auxquelles je peux penser:

Cela va nécessiter un graphe de connaissances pour stocker la relation entre les mots hongkongais et anglais. Peut-être que c’est quelque chose qui peut être contribué à Wikidata?