Un bloque de araña eficaz para WordPress
Si no fuera por las arañas, no podríamos buscar en Google para localizar contenido web. Las arañas son robots que rastrean la Web e indexan todo lo que encuentran para que cuando quiera buscar artículos en WordPress, sepa dónde están esos artículos y pueda dirigirlos a ellos. Sin embargo, no tiene que dejar que WordPress indexe una araña, y existe una manera fácil de crear un bloqueo de araña efectivo para WordPress que bloquea las arañas de compañías de renombre. Un bloqueo de araña aún más efectivo incluye alguna configuración y un proceso para identificar y bloquear arañas malas que ignoran sus instrucciones e indexar el contenido web que ha designado como prohibido para las arañas.
Robots.txt
Cuando una araña visita su sitio de WordPress, lo primero que debe hacer es leer el archivo "robots.txt". Este archivo contiene reglas que especifican los archivos y directorios que pueden o no pueden ser indexados por todas las arañas o arañas con nombres individuales. Una araña encuentra su código único de "agente de usuario" en el archivo o un comodín que indica "todas las arañas". Luego lee la lista de archivos y directorios que están permitidos o no permitidos. A continuación, comienza a indexar solo las partes del sitio que tiene permitido indexar.
Arañas bloqueadoras
Puede crear un bloque de araña efectivo para WordPress creando un archivo "robots.txt" en su directorio raíz de WordPress y especificando una regla que no permita la indexación del directorio raíz del sitio. Esto desactiva automáticamente la indexación de cualquier subdirectorio de la raíz. En el archivo, también debe especificar que esta regla se aplique a todos los códigos de spider user-agent. Cada araña que visite su sitio debe leer el archivo y dejar sin indexar ninguna parte de su sitio. Por ejemplo, el archivo "robots.txt" debería verse así:
Usuario-agente: * No permitir: /
Arañas buenas y malas
Hay buenas arañas y hay malas arañas. Las buenas arañas son de compañías reputadas como Google, Yahoo o Microsoft y obedecen las reglas en su archivo "robots.txt". Las arañas malas provienen de individuos o compañías que ignoran intencionalmente el archivo "robots.txt" y potencialmente indexan todo el contenido de su sitio, independientemente de lo que permita o rechace. Estos robots a veces buscan información específica, como direcciones de correo electrónico, para vender a los spammers, o información personal sobre los usuarios, para vender a otras compañías. Las arañas recorren todo el sitio en busca de información o contenido que no haya ocultado o protegido adecuadamente. Diferentes webmasters tienen diferentes maneras de tratar con arañas rebeldes. Algunos simplemente intentan identificar quiénes son y bloquearlos para que no indexen el contenido del sitio. Otros intentan infligir daño al envenenar la base de datos de la araña con información falsa o engañando a la araña en un bucle sin fin que lo hace abandonar o abortar.
Tarro de miel
Un honeypot o tarpit es una técnica utilizada por algunos webmasters para identificar arañas rebeldes para que puedan ser bloqueadas. Puede crear un honeypot simplemente agregando un directorio que contenga contenido falso, como direcciones de correo electrónico, y específicamente rechazando ese directorio en el archivo "robots.txt". Los registros del servidor le indicarán qué arañas accedieron al directorio, y podrá registrar su cadena de usuario-agente y su dirección IP. Con esa información, puede crear reglas en el archivo "htaccess" de WordPress que niegan el acceso a estas arañas deshonestas. El honeypot debe verificarse regularmente de forma continua para evitar que los nuevos robots deshonestos accedan a su sitio.