Asi funciona el buscador de Google: recapta, indexa y elimina spam

image

El buscador dio a conocer en una página interactiva todos los procesos que debe realizar para otorgarle a los usuarios resultados óptimos a sus búsquedas.

 

Para explicar el proceso que el buscador lleva a cabo desde que el usuario escribe su búsqueda hasta que obtiene los resultados, Google ha distinguido varias fases en su proceso interno de rastreo: el 'crawling' (recaptar) y la indexación, los algoritmos, y la lucha contra el Spam.

Durante la primera fase, el proceso de búsqueda de Google realiza un rastreo de las más de 30 billones de páginas existentes en Internet, una cifra en continuo crecimiento. En este proceso, Google busca en ínfimas fracciones de segundo los enlaces página a página.

Google también recoge información acerca del 'mundo real' como la recogida por el sistema de 'StreetView' o el contenido de millones de textos procedentes de gran cantidad de libros almacenados.

Luego el buscador clasifica las páginas según su contenido y otros factores manteniendo una monitorización de todas las páginas que se encuentran indexadas, las cuales constituyen cerca de más de 100 millones de GB de contenido.

La valiosa ayuda de los algoritmos

Para la segunda fase del proceso de búsqueda, Google pone en marcha sus programas y fórmulas para ofrecer el mejor resultado posible: a través de algoritmos, la compañía intenta "entender mejor" lo que el usuario pretende buscar.

Estos algoritmos realizan distintas tareas, como por ejemplo: deletrear la búsqueda, autocompletarla, buscar sinónimos, buscar y entender las preguntas realizadas.

Basándose en las pistas proporcionadas, el buscador extrae los documentos relevantes de aquellos indexados, ordenando los resultados según un baremo de hasta 200 factores.

Los algoritmos se encuentran en continuo cambio a través del equipo del Laboratorio de Búsqueda que pretende mejorar los sistemas de búsqueda mediante la aplicación de nuevos algoritmos evaluados por los ingenieros de la compañía.

De este Laboratorio surgieron elementos de búsqueda como el sistema SafeSearch, Universal Search, el sistema de traducción o el Site&Page Quality.

En las páginas de resultados también se encuentran herramientas como las búsquedas por voz, las búsquedas avanzadas o las mejoras diseñadas para los dispositivos móviles.

La guerra contra el Spam

Durante la tercera fase, Google lucha contra el contenido que no interesa o se considera basura. Aunque la mayor parte se elimina automáticamente, el equipo de Google también examina otros documentos susceptibles de formar parte de este fenómeno a mano.

Así, en el momento en el que detectan una página de cualquier tipo de 'spammer' es eliminada de forma manual. En el momento en el que se toma la acción, se notifica la decisión a los propietarios del sitio para darles la oportunidad de arreglar el fallo detectado y notificarlo al equipo de Mountain View.

Desde que en diciembre de 2011 se amplió el concepto de 'spam' a todas sus categorías, se experimentó un aumento en la detección de este tipo de páginas llegando a detectarse en junio de 2012 hasta 655.274 webs fraudulentas.

Los últimos datos publicados, corresponden al pasado mes de septiembre donde se notificaron fallos a 398.473 webs.