• 2024-11-21

Definición de Web Spidering y Web Crawlers

Нормы-принципы, -правила поведения, -дефиниции. ТГП ZNY100

Нормы-принципы, -правила поведения, -дефиниции. ТГП ZNY100

Tabla de contenido:

Anonim

Las arañas son programas (o scripts automatizados) que se "rastrean" a través de la Web en busca de datos. Las arañas viajan a través de las URL de los sitios web y pueden extraer datos de páginas web como direcciones de correo electrónico. Las arañas también se utilizan para alimentar la información que se encuentra en los sitios web de los motores de búsqueda.

Las arañas, que también se conocen como "rastreadores web", buscan en la web y no todas son amigables en sus intenciones.

Spammers Spider sitios web para recopilar información

Google, Yahoo! y otros motores de búsqueda no son los únicos interesados ​​en rastrear sitios web, al igual que los estafadores y los spammers.

Los spammers utilizan arañas y otras herramientas automatizadas para encontrar direcciones de correo electrónico (en Internet, esta práctica a menudo se denomina 'recolección') en sitios web y luego las utilizan para crear listas de spam.

Las arañas también son una herramienta utilizada por los motores de búsqueda para obtener más información acerca de su sitio web, pero si se deja sin marcar, un sitio web sin instrucciones (o "permisos") sobre cómo rastrear su sitio puede presentar importantes riesgos de seguridad de la información. Las arañas viajan siguiendo los enlaces, y son muy adeptas a encontrar enlaces a bases de datos, archivos de programas y otra información a la que no desee que tengan acceso.

Los webmasters pueden ver los registros para ver qué arañas y otros robots han visitado sus sitios. Esta información ayuda a los webmasters a saber quién está indexando su sitio y con qué frecuencia.

Esta información es útil porque permite a los webmasters ajustar su SEO y actualizar los archivos robot.txt para prohibir que ciertos robots rastreen su sitio en el futuro.

Consejos para proteger su sitio web de rastreadores de robots no deseados

Existe una forma bastante sencilla de mantener a los rastreadores no deseados fuera de su sitio web. Incluso si no le preocupan las arañas malintencionadas que rastrean su sitio (la confusión de la dirección de correo electrónico no lo protegerá de la mayoría de los rastreadores), aún debe proporcionar instrucciones importantes a los motores de búsqueda.

Todos los sitios web deben tener un archivo ubicado en el directorio raíz llamado archivo robots.txt. Este archivo le permite indicar a los rastreadores web dónde desea que busquen páginas de índice (a menos que se indique lo contrario en los metadatos de una página específica para que no estén indexados) si se trata de un motor de búsqueda.

Así como puede decirle a los rastreadores deseados dónde quiere que naveguen, también puede decirles dónde pueden no ir e incluso bloquear rastreadores específicos de su sitio web completo.

Es importante tener en cuenta que un archivo robots.txt bien organizado tendrá un valor tremendo para los motores de búsqueda e incluso podría ser un elemento clave para mejorar el rendimiento de su sitio web, pero algunos rastreadores de robots seguirán ignorando sus instrucciones. Por este motivo, es importante mantener todo el software, los complementos y las aplicaciones actualizados en todo momento.

Artículos relacionados e información

Debido a la prevalencia de la recopilación de información utilizada con fines nefarios (spam), en 2003 se aprobó una legislación para declarar ilegales ciertas prácticas. Estas leyes de protección al consumidor se enmarcan en la Ley CAN-SPAM de 2003.

Es importante que se tome el tiempo para leer sobre la Ley CAN-SPAM si su empresa se involucra en cualquier envío masivo o recolección de información.

Puede encontrar más información sobre las leyes contra el correo no deseado y cómo tratar con los spammers, y lo que usted como propietario de un negocio no puede hacer, leyendo los siguientes artículos:

  • Ley CAN-SPAM 2003
  • Reglas de la Ley CAN-SPAM para organizaciones sin fines de lucro
  • 5 reglas CAN-SPAM que los propietarios de pequeñas empresas deben entender

Articulos interesantes

1C3X1 - Puesto de mando - Descripciones de trabajo de la Fuerza Aérea

1C3X1 - Puesto de mando - Descripciones de trabajo de la Fuerza Aérea

El puesto de comando administra y realiza actividades dentro de (CP), operaciones, centros, coordinación de rescate y centros de comando.

Formulario AETC 341 - Restricciones escolares técnicas de la Fuerza Aérea

Formulario AETC 341 - Restricciones escolares técnicas de la Fuerza Aérea

Aprenderá todo sobre el formulario AETC 341 en el entrenamiento militar básico de la Fuerza Aérea. Este es el método principal que utiliza el Comando de Educación y Capacitación Aérea.

Todo lo que necesitas saber sobre el seguro de vida

Todo lo que necesitas saber sobre el seguro de vida

Todo lo que necesita saber sobre la compra de un seguro de vida, desde cuánto necesita, hasta qué tipo de seguro de vida debe comprar para usted y su familia.

Mantener su arma limpia: aceite de pistola militar

Mantener su arma limpia: aceite de pistola militar

Esta es una técnica de limpieza de armas muy fácil y eficiente para mantener su arma limpia y feliz en la arena usando aceite para armas militares.

El seguro de vida agrega valor a los beneficios provistos por el empleador

El seguro de vida agrega valor a los beneficios provistos por el empleador

El seguro de vida es un componente de un paquete integral de beneficios para empleados. Asegura que la familia de un empleado tenga ingresos si el empleado fallece. Aprende más.

La vida a bordo de un cortador de la guardia costera

La vida a bordo de un cortador de la guardia costera

El cortador Life on a Coast Guard es una fusión de marineros jóvenes y viejos, aquellos con años de mar y con días justos. Juntos forman una tripulación y un equipo.