hice progresos con esta wea, la mano no es intentar evadir a cloudflare, si no mantenerse debajo del tráfico usual dentro de un periodo de tiempo, cosa de que el sistema no piense que le estoy haciendo un ddos de algún tipo.
Pude spamear procesos con xargs y php, queda bien rápida la cosa, el cpu dual core virtually 4 cores, no sube de 50% en todos los cores, así que no debería cagarme tanto al intel xeon de aws.
Desechando wget, pude conseguir velocidades de 20~32 MB/s, (mega bytes no mega bits ni megas, en megas son aprox 160~250).
Para que se note que está bien encaminado el web scraping, de 6500 urls consultadas con las velocidades de arriba, solo 15 veces me paró cloudflare y entre medio hubieron algunos 404. Casi 9 GB por debajo del radar del sistema.
Demás puedo hacerme el retail completo en unas 10 horas.
Penita por python, pero es muy lento, cada ejecución actual de php demora aprox 0,3s, y eso incluye hacer el request y volcar los casi 2 MB por request en el ssd sata. Lo único que me jode es tener que espamear los procesos una y otra vez, tendría que irme a C a mirar por algún pool o habilitar alguna clase de soporte rancio para threads en php.