• 2024-09-28

Definición de Web Spidering y Web Crawlers

Нормы-принципы, -правила поведения, -дефиниции. ТГП ZNY100

Нормы-принципы, -правила поведения, -дефиниции. ТГП ZNY100

Tabla de contenido:

Anonim

Las arañas son programas (o scripts automatizados) que se "rastrean" a través de la Web en busca de datos. Las arañas viajan a través de las URL de los sitios web y pueden extraer datos de páginas web como direcciones de correo electrónico. Las arañas también se utilizan para alimentar la información que se encuentra en los sitios web de los motores de búsqueda.

Las arañas, que también se conocen como "rastreadores web", buscan en la web y no todas son amigables en sus intenciones.

Spammers Spider sitios web para recopilar información

Google, Yahoo! y otros motores de búsqueda no son los únicos interesados ​​en rastrear sitios web, al igual que los estafadores y los spammers.

Los spammers utilizan arañas y otras herramientas automatizadas para encontrar direcciones de correo electrónico (en Internet, esta práctica a menudo se denomina 'recolección') en sitios web y luego las utilizan para crear listas de spam.

Las arañas también son una herramienta utilizada por los motores de búsqueda para obtener más información acerca de su sitio web, pero si se deja sin marcar, un sitio web sin instrucciones (o "permisos") sobre cómo rastrear su sitio puede presentar importantes riesgos de seguridad de la información. Las arañas viajan siguiendo los enlaces, y son muy adeptas a encontrar enlaces a bases de datos, archivos de programas y otra información a la que no desee que tengan acceso.

Los webmasters pueden ver los registros para ver qué arañas y otros robots han visitado sus sitios. Esta información ayuda a los webmasters a saber quién está indexando su sitio y con qué frecuencia.

Esta información es útil porque permite a los webmasters ajustar su SEO y actualizar los archivos robot.txt para prohibir que ciertos robots rastreen su sitio en el futuro.

Consejos para proteger su sitio web de rastreadores de robots no deseados

Existe una forma bastante sencilla de mantener a los rastreadores no deseados fuera de su sitio web. Incluso si no le preocupan las arañas malintencionadas que rastrean su sitio (la confusión de la dirección de correo electrónico no lo protegerá de la mayoría de los rastreadores), aún debe proporcionar instrucciones importantes a los motores de búsqueda.

Todos los sitios web deben tener un archivo ubicado en el directorio raíz llamado archivo robots.txt. Este archivo le permite indicar a los rastreadores web dónde desea que busquen páginas de índice (a menos que se indique lo contrario en los metadatos de una página específica para que no estén indexados) si se trata de un motor de búsqueda.

Así como puede decirle a los rastreadores deseados dónde quiere que naveguen, también puede decirles dónde pueden no ir e incluso bloquear rastreadores específicos de su sitio web completo.

Es importante tener en cuenta que un archivo robots.txt bien organizado tendrá un valor tremendo para los motores de búsqueda e incluso podría ser un elemento clave para mejorar el rendimiento de su sitio web, pero algunos rastreadores de robots seguirán ignorando sus instrucciones. Por este motivo, es importante mantener todo el software, los complementos y las aplicaciones actualizados en todo momento.

Artículos relacionados e información

Debido a la prevalencia de la recopilación de información utilizada con fines nefarios (spam), en 2003 se aprobó una legislación para declarar ilegales ciertas prácticas. Estas leyes de protección al consumidor se enmarcan en la Ley CAN-SPAM de 2003.

Es importante que se tome el tiempo para leer sobre la Ley CAN-SPAM si su empresa se involucra en cualquier envío masivo o recolección de información.

Puede encontrar más información sobre las leyes contra el correo no deseado y cómo tratar con los spammers, y lo que usted como propietario de un negocio no puede hacer, leyendo los siguientes artículos:

  • Ley CAN-SPAM 2003
  • Reglas de la Ley CAN-SPAM para organizaciones sin fines de lucro
  • 5 reglas CAN-SPAM que los propietarios de pequeñas empresas deben entender

Articulos interesantes

Salario mínimo para los trabajadores que reciben propinas

Salario mínimo para los trabajadores que reciben propinas

Una guía sobre el salario mínimo para los trabajadores que reciben propinas, incluidos los créditos de propinas, el cálculo de las ganancias de las propinas y las normas y tarifas de salarios mínimos federales y estatales.

Ejemplo de correo electrónico de disculpa a un empleador por perder una entrevista

Ejemplo de correo electrónico de disculpa a un empleador por perder una entrevista

Obtenga ideas de este correo electrónico de muestra que se disculpa por perderse una entrevista de trabajo y pide otra oportunidad, además de consejos sobre cómo y cuándo pedir disculpas.

Mini plantilla y ejemplos del curriculum vitae

Mini plantilla y ejemplos del curriculum vitae

Un mini currículum contiene un breve resumen de los puntos destacados y las calificaciones de su carrera. Aquí hay una mini plantilla de currículum, además de ejemplos de mini-curriculums.

Misión es lo que haces en tu lugar de trabajo

Misión es lo que haces en tu lugar de trabajo

¿Sabes cómo describir lo que hace tu organización? Si es así, probablemente conozcas y comprendas la misión. Obtenga más información sobre la misión de la organización.

Perfil del Museo de Arte de Mississippi en Jackson

Perfil del Museo de Arte de Mississippi en Jackson

El Museo de Arte de Mississippi en Jackson, Mississippi es una colección permanente que se inauguró en 1979. Conozca las oportunidades de empleo.

Ubicaciones de prueba de Missouri CDL

Ubicaciones de prueba de Missouri CDL

Las licencias de conducir comerciales pueden abrir nuevas oportunidades de carrera. Encuentre una lista completa de ubicaciones de prueba y números de teléfono de Misuri CDL.