Rien de spécial | Le blog de Régis

jan/09

13

Moteur de recherche avec phonémisation

Au bureau, on cherche à écrire un moteur de recherche avec approximation phonétique. Pour cela, on cherche un algorithme de phonémisation approximatif.

Avez vous des références? j’ai déjà trouvé

  • qdicorime, un programme qui aide à trouver des rimes — les développeurs sont de grands poètes
  • un outil de synthèse vocale, comme FreeTTS ou Franfest
  • metaphoneme de Lawrence Philips publié en juin 2000 dans C/C++ Users Journal et double metaphoneme qui est une amélioration du premier
  • une implémentation PHP de Soundex 2. Celui-ci réduit les mots sur seulement 4 caractères, il a implique donc une recherche plus vague
  • une implémentation PHP de Phonex qui est une évolution de Soundex

Une implémentation java serait idéale, vu qu’on souhaitait étendre Apache Lucene.

RSS Feed

2 commentaires for Moteur de recherche avec phonémisation

Benoît | mar 13 jan 2009 at 23:27

Euh, dériver org.apache.commons.codec.language.Soundex ça serait pas le plus simple ? Il me semble que la francisation implique juste de changer les valeurs des lettres et des lettres muettes.

Il me semble d’ailleurs avoir vu sur les forums une implémentation de création d’index qui repose sur cette classe de soundex.

Author comment by Régis | mer 14 jan 2009 at 18:56

Finalement, on a implémenté en un peu plus d’un jour le Phonex en Java à partir d’un cours de Developpez.com

<<

>>

février 2010
L Ma Me J V S D
« jan «-»  
1234567
891011121314
15161718192021
22232425262728

Respect des standards

Valid XHTML 1.0 Transitional

CSS Valide !

Stop IE6

Je soutiens la campagne Stop IE6

Theme Design by devolux.org