Definición de Web Spidering y Web Crawlers
Нормы-принципы, -правила поведения, -дефиниции. ТГП ZNY100
Tabla de contenido:
- Spammers Spider sitios web para recopilar información
- Consejos para proteger su sitio web de rastreadores de robots no deseados
- Artículos relacionados e información
Las arañas son programas (o scripts automatizados) que se "rastrean" a través de la Web en busca de datos. Las arañas viajan a través de las URL de los sitios web y pueden extraer datos de páginas web como direcciones de correo electrónico. Las arañas también se utilizan para alimentar la información que se encuentra en los sitios web de los motores de búsqueda.
Las arañas, que también se conocen como "rastreadores web", buscan en la web y no todas son amigables en sus intenciones.
Spammers Spider sitios web para recopilar información
Google, Yahoo! y otros motores de búsqueda no son los únicos interesados en rastrear sitios web, al igual que los estafadores y los spammers.
Los spammers utilizan arañas y otras herramientas automatizadas para encontrar direcciones de correo electrónico (en Internet, esta práctica a menudo se denomina 'recolección') en sitios web y luego las utilizan para crear listas de spam.
Las arañas también son una herramienta utilizada por los motores de búsqueda para obtener más información acerca de su sitio web, pero si se deja sin marcar, un sitio web sin instrucciones (o "permisos") sobre cómo rastrear su sitio puede presentar importantes riesgos de seguridad de la información. Las arañas viajan siguiendo los enlaces, y son muy adeptas a encontrar enlaces a bases de datos, archivos de programas y otra información a la que no desee que tengan acceso.
Los webmasters pueden ver los registros para ver qué arañas y otros robots han visitado sus sitios. Esta información ayuda a los webmasters a saber quién está indexando su sitio y con qué frecuencia.
Esta información es útil porque permite a los webmasters ajustar su SEO y actualizar los archivos robot.txt para prohibir que ciertos robots rastreen su sitio en el futuro.
Consejos para proteger su sitio web de rastreadores de robots no deseados
Existe una forma bastante sencilla de mantener a los rastreadores no deseados fuera de su sitio web. Incluso si no le preocupan las arañas malintencionadas que rastrean su sitio (la confusión de la dirección de correo electrónico no lo protegerá de la mayoría de los rastreadores), aún debe proporcionar instrucciones importantes a los motores de búsqueda.
Todos los sitios web deben tener un archivo ubicado en el directorio raíz llamado archivo robots.txt. Este archivo le permite indicar a los rastreadores web dónde desea que busquen páginas de índice (a menos que se indique lo contrario en los metadatos de una página específica para que no estén indexados) si se trata de un motor de búsqueda.
Así como puede decirle a los rastreadores deseados dónde quiere que naveguen, también puede decirles dónde pueden no ir e incluso bloquear rastreadores específicos de su sitio web completo.
Es importante tener en cuenta que un archivo robots.txt bien organizado tendrá un valor tremendo para los motores de búsqueda e incluso podría ser un elemento clave para mejorar el rendimiento de su sitio web, pero algunos rastreadores de robots seguirán ignorando sus instrucciones. Por este motivo, es importante mantener todo el software, los complementos y las aplicaciones actualizados en todo momento.
Artículos relacionados e información
Debido a la prevalencia de la recopilación de información utilizada con fines nefarios (spam), en 2003 se aprobó una legislación para declarar ilegales ciertas prácticas. Estas leyes de protección al consumidor se enmarcan en la Ley CAN-SPAM de 2003.
Es importante que se tome el tiempo para leer sobre la Ley CAN-SPAM si su empresa se involucra en cualquier envío masivo o recolección de información.
Puede encontrar más información sobre las leyes contra el correo no deseado y cómo tratar con los spammers, y lo que usted como propietario de un negocio no puede hacer, leyendo los siguientes artículos:
- Ley CAN-SPAM 2003
- Reglas de la Ley CAN-SPAM para organizaciones sin fines de lucro
- 5 reglas CAN-SPAM que los propietarios de pequeñas empresas deben entender
Participación de los empleados: definición y ejemplos
¿Necesita comprender lo que implica la participación de los empleados como una estrategia y filosofía organizacional? La mayoría de las organizaciones se equivocan. Averigua porque.
Género Ficción: Definición para Escritores Creativos
¿Qué es la escritura de género y cuál es la diferencia entre género y género literario? La ficción de género tiende a ser escrita y leída principalmente para entretenimiento.
Una definición de y compilación de álbumes de compilación
Debido a que las etiquetas de registro pueden compilar casi cualquier cosa, hay una amplia gama de ejemplos de Álbumes de compilación.