Una web que viene con un problema de hackeo, un riesgo que toca revisar por dentro y ver
que puede tener y como han podido entrar en su sistema. Empiezas a pensar en el hosting,
en la web, algún ordenador de los trabajadores que tienen algún tipo de troyano y por ahí
tenemos el posible problema.
Empezamos con la parte de revisión. Mi compañero Edu, un gran profesional que hace
terrenal cualquier explicación que sea necesaria sobre programación, y en este caso fue
fundamental no solo por la parte de explicación, sino también porque a la hora de buscar
como decía de dónde podían venir los problemas ayudó dando las primeras pinceladas para
poder quitar posibilidades que un principio parecían infinitas.
Google Search console la primera y más importante
herramienta
Entramos en Google Search Consoles, ahí es donde me manejo cómodamente, y buscando
dentro de las URLs que aparecían que se estaban indexando y con ello las referencias des
esas URLs. ¡Eureka!, un patrón, no hay nada mejor que los patrones, es por eso que si me
conocéis, veréis que busco patrones en casi todo, pero no eso de código de Fibonacci y
demás si no esos códigos que me pueden ayudar haciendo un regex, o como en este caso
buscar una solución bastante “rápida” y buena para comenzar, y eran los enlaces entrantes,
estos enlaces que tenían eran todos de un mismo lugar, Tokio. Si bien es cierto no tenían un
patrón con las URLs pero si tenemos ese patrón de donde vienen los enlaces.
Dicho y hecho, nos ponemos a sacar estas URLs y sus enlaces entrantes primero sacando
los enlaces con Screaming Frog (SF) usando la API de GSC y luego sacar los dominios de
los cuales entraban estos enlaces.
Filtrando de las URLs extrañas, de ahí sacar los referidos que nos aparecían de Tokio y
viendo los que seguramente no nos sirvieran de mucho fuimos haciendo los disavow.
Hoja de txt para subir en bulk y tenemos ahí el primer paso de quitar al menos esos enlaces,
esto sabemos que nos ayudará a que no aparezcan las URLs que están apareciendo por
esos enlaces y además quitará los enlaces tóxicos que tiene la web entrantes.
Creación de la API
En este momento necesitamos desindexar también URLs de manera masiva y a mano o
como decíamos antes no teníamos un patrón en los dominios, con lo que me puse a ello.
Este código lo podéis encontrar en mi repositorio de github y nos ayudó a poder desindexar
esas urls que se habían creado.
La API nos deja quitar en este caso 200 URLs por tirada con 20.000 peticiones al día, así que
tenemos trabajo por delante.
Bloqueo por WAF
Otra de las tareas que nos han hecho falta hacer para prevenir a futuros, ha sido a través de
WAF de Cloud bloquear los enlaces entrantes de Asia, es un poco tirar a matar moscas con
cañones, pero es cierto que por la tipología de la web, su target de ahí que no evitamos el
acceso pero si el crawleo procedentes de estas IPs.