Moteur de recherche avec phonémisation

Au bureau, on cherche à écrire un moteur de recherche avec approximation phonétique. Pour cela, on cherche un algorithme de phonémisation approximatif.

Avez vous des références? j’ai déjà trouvé

  • qdicorime, un programme qui aide à trouver des rimes — les développeurs sont de grands poètes
  • un outil de synthèse vocale, comme FreeTTS ou Franfest
  • metaphoneme de Lawrence Philips publié en juin 2000 dans C/C++ Users Journal et double metaphoneme qui est une amélioration du premier
  • une implémentation PHP de Soundex 2. Celui-ci réduit les mots sur seulement 4 caractères, il a implique donc une recherche plus vague
  • une implémentation PHP de Phonex qui est une évolution de Soundex

Une implémentation java serait idéale, vu qu’on souhaitait étendre Apache Lucene.

  • Benoît

    Euh, dériver org.apache.commons.codec.language.Soundex ça serait pas le plus simple ? Il me semble que la francisation implique juste de changer les valeurs des lettres et des lettres muettes.

    Il me semble d'ailleurs avoir vu sur les forums une implémentation de création d'index qui repose sur cette classe de soundex.

    partager sur...

     

  • http://regis.decamps.info/blog/ Régis

    Finalement, on a implémenté en un peu plus d'un jour le Phonex en Java à partir d'un cours de Developpez.com

    partager sur...