Description du projet

 

Webremix.info est un aggregateur de flux RSS et ATOM.

Principe de fonctionnement

Plusieurs fois par jours, un batch est lancé qui va récupérer via http des flux d'information au formats RSS et ATOM sur de nombreux sites web. La sélection de ces sites est manuelle et un ou plusieurs tags sont associés à chaque flux.

Le contenu de ces flux (les différents articles) sont stockés dans une base de données (MySQL) et indexé Full Text.  Les articles sont conservés pendant une année, puis purgés.

Les articles sont ensuite regroupés par tag et publiés de façon statique sur le site www.webremix.info

 

Un web-service REST permet également de faire des recherches par mot-clef (recherche Full Text).

Technologies utilisées

Le code est en Java, en utilisant les Framework Spring + Hibernate pour la persistance des données, et la librairie ROME pour la manipulation des format RSS et ATOM.  Les articles sont indexés Full Text grâce au Framework Compass, qui permet d'utiliser Lucene de façon transparente via Hibernate.

Les Données sont « nettoyées » grâce à l'utilisation de la librairie AntiSamy.

Architecture Technique

L'ensemble du système tourne maintenant depuis plusieurs années sur un simple MacMini.  Entre 3500 et 4000 flux référencés, plus de 7 Millions d'article en base, pour une volumétrie d'environ 17Go pour la base MySQL et 6Go d'indexe Lucene.