shell码表爬虫
GaoSheng Lv4

先说思路,将码表中的单字提出来,作为参数传给wget下载

1.整理码表,首先剔除原码所有的词,只留下单字
186353896817003
vim的批量删除行 :8008,$d

$是文末的意思,d是删除,这里的意思是删除从8008到文末的所有行

剪切第一个值 cut -f1 smzmuke.txt > 1

用 -f 来设置我要提取的第一个域,然后重定向的1这个文件

83906692880250
输出第一行 sed -n ‘1p’ 1
131896428931846
-n选项经常和 p 配合使用,其含义就是,输出那些匹配的行,输出“1”文件中的第一行

到这里前期工作就已经完成了,接下来写爬虫吧
2.爬虫源码

1
2
3
4
5
6
7
8
9
10
11
12
13
#!/bin/bash
temp=1
for ((i=1;i<=8007;i++))
do
url=http://asset.jsxiaoshi.com/src/images/smzm/`sed -n "${temp}p" 1`.png
#拼接我们要爬取的目标url
echo $url
let temp=$temp+1
sleep 0.3
#因为我们没有用ip代理池,避免过于频繁的访问,加点延时
wget -P ./img $url
#用wget 下载到本地 -P指定下载到的目录
done

406995421566892
看来正常的跑起来了

本站由 提供部署服务