Saltar al contenido

« ver todos los blogs

Cómo procesar 1.800 fuentes en tiempo real

14 Abril 2009 - 12:00 - Autor: proyectoi

Algunos de vosotros, como @nafuente, nos habéis hecho llegar quejas sobre la lentitud de lainformacion.com, aún en fase beta. Cuando presentamos a los robots, el primer vértice de nuestro triángulo, ya os contamos que las noticias que podéis ver ahora en nuestro medio se publican de forma automática, gracias a que las máquinas monitorizan en tiempo real los RSS de más de 1.800 fuentes en castellano. Al estar todavía en periodo de prueba, tenemos activados diversos mecanismos de detección de errores que ralentizan la carga de las páginas. Obviamente, cuando la versión definitiva esté en el aire quitaremos esos procesos y, esperamos, la carga será muy rápida.

Aún así, queremos aprovechar este post para contaros de nuevo el proceso que siguen nuestros robots.

Todas las noticias que podéis ver se reciben a través de tres tipos de fuentes distintas: el Feed Fetcher (que extrae cientos de medios y blogs), las noticias realizadas por las  principales agencias de noticias y las de nuestros editores (controlados por nuestros periodistas); más de 25.000 objetos informativos cada día (textos, fotos y vídeos), procesados en tiempo real y aún sin clasificar.

El análisis de cada elemento se produce a través de dos maneras:

  1. Análisis semántico de las noticias. Mediante técnicas de procesamiento de lenguaje natural se extraen los elementos relevantes de cada noticia, sin necesidad de almacenarlas en servidores. Esto permite que nuestras máquinas conozcan al segundo de qué tratan los objetos informativos y los clasifique según los diferentes tesauros dentro del IPTC estándar. A medida que los ‘bots’ vayan recibiendo más objetos, irá aumentando su capacidad de procesamiento y el margen de error será menor.
  2. El Inforank. Es uno de los complementos establecidos por nuestros periodistas. Permite dar prioridad automáticamente a ciertos objetos por encima de otros, dependiendo de su posicionamiento (en caso de noticias locales, primarán los medios regionales) o tipo de categoría en la que se ubique (en información económica tendrán prioridad los diarios económicos).

TrackBack

URL del Trackback para esta entrada:
http://blogs.lainformacion.com/proyectoi/2009/04/como-procesar-mas-de-1500-fuentes-en-tiempo-real/trackback/

1 Comentario

Deja tu comentario

Puede seguir esta conversación suscribiéndose a la fuente de los comentarios de esta entrada.

Para el lector normal: Lo de arriba es una explicación alambicada sobre cómo obtienen las informaciones, las clasifican y dan prioridad a una sobre otras con la ayuda de programas automáticos centrados en la identificación semática de la noticia u “objeto informativo”. Y la lentitud de la que se queja an@afuente se debe a que esos programas necesitan aún más rodaje, porque acaban de arrancar y su eficiencia se basa en la disminución de los errores, a través del aprendizaje.

Deja tu comentario