Vers la détection automatisée des contenus qui VOUS intéressent.
Par André, lundi 28 mars 2005 à 22:49 :: Général :: #6 :: rss
Trop d'information tue l'information : cela a déjà été dit bien des fois et les flux RSS sont précisément là pour vous aider à éviter de vous noyer dans l'océan d'informations qu'est devenu le Web. Mais ce n'est, d'une certaine manière, que reporter le problème un peu plus loin. Très vite on s'abonne des tas de flux RSS intéressants et l'on est submergé par des quantités d'articles dont l'intérêt va de "génial" à "passable" quand ce n'est pas "hors cible". Comment faire le ménage dans tous ces contenus ?
C'est avec cet objectif que l'on voit aujourd'hui apparaître des outils souvent expérimentaux qui visent à faire le tri pour vous dans les multiples nouvelles ainsi collectées. Thomas Bayes, pasteur et mathématicien anglais du XVIIIème siècle, vient en effet au secours des info-noyés avec sa théorie qui permet de calculer la probabilité qu'une nouvelle vous intéresse en se basant sur les termes de son contenu et sur des appréciations que vous avez données auparavant sur d'autres nouvelles. En fait, l'algorithme naïf de Bayes est aussi la technique utilisée aujourd'hui par la plupart des logiciels de détection des spams.
Le serveur de recommandation AmphetaRate, qui a vu le jour lors de la création, dans le cadre d'un projet open source, de l'agrégateur AmphetaDesk permet ainsi d'enregistrer vos cotations sur les articles présentés dans vos flux. Quelques autres agrégateurs tels que RSSOwl et wTicker permettent aussi d'envoyer des cotations au serveur et de charger le flux des articles sélectionnés pour vous par AmphetaRate. Bien évidemment la base de données est encore essentiellement anglophone.
D'autres projets proposent des librairies qui exploitent le même principe tels que j-rss-bayes en java ou le PHP Naïve Bayesian Filter.
On peut en tous cas imaginer facilement deux cas d'utilisations:
Le serveur de recommandation AmphetaRate, qui a vu le jour lors de la création, dans le cadre d'un projet open source, de l'agrégateur AmphetaDesk permet ainsi d'enregistrer vos cotations sur les articles présentés dans vos flux. Quelques autres agrégateurs tels que RSSOwl et wTicker permettent aussi d'envoyer des cotations au serveur et de charger le flux des articles sélectionnés pour vous par AmphetaRate. Bien évidemment la base de données est encore essentiellement anglophone.
D'autres projets proposent des librairies qui exploitent le même principe tels que j-rss-bayes en java ou le PHP Naïve Bayesian Filter.
On peut en tous cas imaginer facilement deux cas d'utilisations:
- Le premier, lié à un serveur centralisé comme AmphetaRate permet de filtrer une grande masse de flux dans la cadre d'un annuaire et de vous délivrer un flux ad hoc spécialement construit selon vos intérêts.
- Le second cas de figure consiste à intégrer l'algorithme dans l'agrégateur lui-même, et, à l'image d'un anti-spam, de pouvoir filtrer les flux auxquels vous êtes abonnés pour ne conserver que ce qui est le plus intéressant. Bref, d'en faire un agrégateur intelligent !
Commentaires
Aucun commentaire pour le moment.
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.