• Morris Hohen

¿Qué son los "Webcrawlers"?


Google y todos los demás motores de búsqueda constan esencialmente de los siguientes cuatro componentes:


1. rastreador web

2. programador

3. índice

4. máscara de búsqueda


Google busca continuamente en Internet con sus programas informáticos. Estos webcrawlers (también llamados spiders o searchbots) son técnicamente similares a los navegadores web. Las webcrawlers navegan por Internet de sitio en sitio y descargan contenidos. Sin embargo, sólo pueden descargar datos de los sitios web si pueden acceder a ellos. Si, por ejemplo, se requiere el registro antes de poder llamar a la página, el webcrawler normalmente no puede hacer nada con esta página. Como resultado, estas páginas no aparecen en el índice de Google.


Los webcrawlers pasan una lista de los enlaces disponibles en el sitio web al programador. El programador recoge y gestiona las URL de las páginas web. Coteja las URL existentes con las nuevas y coordina el envío de nuevos rastreadores web.


Cuando se introduce un término de búsqueda en la máscara de búsqueda de Google, éste no busca en todas las páginas web relevantes de Internet, ya que eso llevaría demasiado tiempo. En cambio, Google busca en su propio índice en cuestión de segundos.


Es esencial que el índice se mantenga siempre actualizado. Para poder ofrecer siempre un índice lo más actualizado posible, existe un tipo especial de webcrawlers, los freshbots. Visitan específicamente las nuevas páginas y se aseguran de que éstas aparezcan rápidamente en el índice. Los freshbots vuelven al poco tiempo de su primera visita para comprobar si el contenido de la página ha cambiado de nuevo. Si observan que el contenido cambia con frecuencia, vuelven a intervalos cortos. Si el contenido rara vez o nunca cambia, visitan el sitio web a intervalos más largos. De este modo, los webcrawlers pueden garantizar que el índice de Google, que crece rápidamente, se mantenga siempre actualizado.

Entradas relacionadas

Ver todo