• 2025-04-02

Definición de Web Spidering y Web Crawlers

Нормы-принципы, -правила поведения, -дефиниции. ТГП ZNY100

Нормы-принципы, -правила поведения, -дефиниции. ТГП ZNY100

Tabla de contenido:

Anonim

Las arañas son programas (o scripts automatizados) que se "rastrean" a través de la Web en busca de datos. Las arañas viajan a través de las URL de los sitios web y pueden extraer datos de páginas web como direcciones de correo electrónico. Las arañas también se utilizan para alimentar la información que se encuentra en los sitios web de los motores de búsqueda.

Las arañas, que también se conocen como "rastreadores web", buscan en la web y no todas son amigables en sus intenciones.

Spammers Spider sitios web para recopilar información

Google, Yahoo! y otros motores de búsqueda no son los únicos interesados ​​en rastrear sitios web, al igual que los estafadores y los spammers.

Los spammers utilizan arañas y otras herramientas automatizadas para encontrar direcciones de correo electrónico (en Internet, esta práctica a menudo se denomina 'recolección') en sitios web y luego las utilizan para crear listas de spam.

Las arañas también son una herramienta utilizada por los motores de búsqueda para obtener más información acerca de su sitio web, pero si se deja sin marcar, un sitio web sin instrucciones (o "permisos") sobre cómo rastrear su sitio puede presentar importantes riesgos de seguridad de la información. Las arañas viajan siguiendo los enlaces, y son muy adeptas a encontrar enlaces a bases de datos, archivos de programas y otra información a la que no desee que tengan acceso.

Los webmasters pueden ver los registros para ver qué arañas y otros robots han visitado sus sitios. Esta información ayuda a los webmasters a saber quién está indexando su sitio y con qué frecuencia.

Esta información es útil porque permite a los webmasters ajustar su SEO y actualizar los archivos robot.txt para prohibir que ciertos robots rastreen su sitio en el futuro.

Consejos para proteger su sitio web de rastreadores de robots no deseados

Existe una forma bastante sencilla de mantener a los rastreadores no deseados fuera de su sitio web. Incluso si no le preocupan las arañas malintencionadas que rastrean su sitio (la confusión de la dirección de correo electrónico no lo protegerá de la mayoría de los rastreadores), aún debe proporcionar instrucciones importantes a los motores de búsqueda.

Todos los sitios web deben tener un archivo ubicado en el directorio raíz llamado archivo robots.txt. Este archivo le permite indicar a los rastreadores web dónde desea que busquen páginas de índice (a menos que se indique lo contrario en los metadatos de una página específica para que no estén indexados) si se trata de un motor de búsqueda.

Así como puede decirle a los rastreadores deseados dónde quiere que naveguen, también puede decirles dónde pueden no ir e incluso bloquear rastreadores específicos de su sitio web completo.

Es importante tener en cuenta que un archivo robots.txt bien organizado tendrá un valor tremendo para los motores de búsqueda e incluso podría ser un elemento clave para mejorar el rendimiento de su sitio web, pero algunos rastreadores de robots seguirán ignorando sus instrucciones. Por este motivo, es importante mantener todo el software, los complementos y las aplicaciones actualizados en todo momento.

Artículos relacionados e información

Debido a la prevalencia de la recopilación de información utilizada con fines nefarios (spam), en 2003 se aprobó una legislación para declarar ilegales ciertas prácticas. Estas leyes de protección al consumidor se enmarcan en la Ley CAN-SPAM de 2003.

Es importante que se tome el tiempo para leer sobre la Ley CAN-SPAM si su empresa se involucra en cualquier envío masivo o recolección de información.

Puede encontrar más información sobre las leyes contra el correo no deseado y cómo tratar con los spammers, y lo que usted como propietario de un negocio no puede hacer, leyendo los siguientes artículos:

  • Ley CAN-SPAM 2003
  • Reglas de la Ley CAN-SPAM para organizaciones sin fines de lucro
  • 5 reglas CAN-SPAM que los propietarios de pequeñas empresas deben entender

Articulos interesantes

Foco profesional: Representante de ventas del servicio de alimentos

Foco profesional: Representante de ventas del servicio de alimentos

¿Dónde consiguen todos los restaurantes y resorts la comida que preparan para sus huéspedes? Lo compran de una empresa de servicios de comida.

Representante de ventas independiente Visión general de la carrera

Representante de ventas independiente Visión general de la carrera

Una carrera de Representante de Ventas Independiente puede ser gratificante y rentable para aquellos con auto-manejo para tomar control de su bienestar financiero.

Ocupaciones con más vacantes de trabajo

Ocupaciones con más vacantes de trabajo

Aquí hay 10 carreras que están contratando en este momento. La Oficina de Estadísticas Laborales de EE. UU. Dice que continuarán teniendo la mayor cantidad de vacantes de empleo hasta 2022.

Carreras para personas con buena memoria

Carreras para personas con buena memoria

La capacidad de memorizar información puede ayudarlo a tener éxito en muchas ocupaciones. Descubre carreras que requieren tener una buena memoria.

Carreras para personas que aman a los animales

Carreras para personas que aman a los animales

Aprende sobre las carreras que trabajan con animales. Comparar responsabilidades, requisitos de educación y formación y ganancias.

15 opciones de carrera para trabajar con caballos

15 opciones de carrera para trabajar con caballos

Hay muchas trayectorias profesionales interesantes en la industria equina. He aquí un vistazo a quince opciones de carrera si quieres trabajar con caballos.