Saltar al contenido

« ver todos los blogs

Ese bello vocablo denominado ‘cluster’

15 Abril 2009 - 15:29 - Autor: admin

Hemos recibido un correo electrónico de un lector que, navegando por la portadilla de la provincia de Cádiz, ha detectado un error frecuente (ahora) en el portal. Nos cuenta que ha encontrado una noticia repetida varias veces que procedía de diferentes fuentes y, además, se ha sorprendido por leer un titular muy parecido en cada una de ellas: “Qué poco se curra la gente el procesar lo que le viene de las agencias por dios”, señala con más razón que un santo.

pa

Hoy hablaremos del clustering. No es el último grito en cirugía plástica (”He ganado la lotería. Me voy a hacer un clustering”), ni tampoco una nueva forma de acoso laboral; el clustering, como explicamos en nuestro segundo boletín, es un procedimiento algorítmico que permite la agrupación de noticias relacionadas en distintos paquetes de información o clusters.

Una vez que hemos extraído la información de los RSS de los 1.800 medios y blogs y ponderado sus noticias, éstas se agruparán de forma automática para, a continuación, seleccionar la mejor versión de la noticia desde el punto de vista informativo. Constituye una etapa importante en nuestro proceso de monitorización y es fundamental para intentar mostrar al lector las noticias más importantes sobre cada tema.

A veces, las noticias de agencia son editadas y publicadas en los medios de comunicación con apenas diferencia perceptible entre cada una de ellas. Es decir, sin valor añadido. Como mucho, se modifica el titular para distinguirlo del de la competencia o aportarle un punto de vista editorial. A veces, ni eso. Y es lo que ocurre con el titular que este lector ha tenido el detalle de capturarnos: “Spiderman recorre el puerto de Cádiz en su nueva aventura”. Las fuentes, distintas; el titular, idéntico. Lo peor de todo es que un periodista ha tenido que perder su tiempo y hacer ese trabajo.

Nosotros eso se lo dejamos a los robots. Y precisamente ahí reside una de nuestras fortalezas: dejar a las máquinas el trabajo de las máquinas y dedicarnos nosotros, los plumillas, a escribir historias. Pero en esta ocasión los robots no han hecho bien su trabajo, no han sido capaces de identificar las similitudes entre estas noticias de agencia y, por lo tanto, no ha procedido a su correcta clusterización y tampoco ha elegido la mejor versión de todas ellas. Pronto, lograremos domesticar los bots y ponerlos a vuestro servicio para que estéis informados como os merecéis.

TrackBack

URL del Trackback para esta entrada:
http://blogs.lainformacion.com/proyectoi/2009/04/ese-bello-vocablo-denominado-cluster/trackback/

2 Comentarios

Deja tu comentario

Puede seguir esta conversación suscribiéndose a la fuente de los comentarios de esta entrada.

El ‘clustering’ es todo un invento, y lainformacion.com una auténtica revolución. Por fin un proyecto que saca provecho de las nuevas tecnologías y devuelve al periodista a su lugar: a la calle, con la gente. Enhorabuena! Estoy segura de que va a ser un éxito. Es realmente inspirador encontrar gente ilusionada en este trabajo y que se atreve a ir un paso más allá. Un abrazo!

¿Y cómo se supone que un robot selecciona la mejor versión de una noticia desde el punto de vista informativo?

“Una vez que hemos extraído la información de los RSS de los 1.800 medios y blogs y ponderado sus noticias, éstas se agruparán de forma automática para, a continuación, seleccionar la mejor versión de la noticia desde el punto de vista informativo”

Deja tu comentario