shell码表爬虫

先说思路，将码表中的单字提出来，作为参数传给wget下载

1.整理码表,首先剔除原码所有的词，只留下单字
186353896817003
vim的批量删除行 :8008,$d

$是文末的意思，d是删除，这里的意思是删除从8008到文末的所有行

剪切第一个值 cut -f1 smzmuke.txt > 1

用 -f 来设置我要提取的第一个域,然后重定向的1这个文件

83906692880250
输出第一行 sed -n ‘1p’ 1
131896428931846
-n选项经常和 p 配合使用，其含义就是，输出那些匹配的行,输出“1”文件中的第一行

到这里前期工作就已经完成了，接下来写爬虫吧
2.爬虫源码

#!/bin/bash
temp=1
for ((i=1;i<=8007;i++))
do
url=http://asset.jsxiaoshi.com/src/images/smzm/`sed -n "${temp}p" 1`.png
#拼接我们要爬取的目标url
echo $url
let temp=$temp+1
sleep 0.3
#因为我们没有用ip代理池，避免过于频繁的访问，加点延时
wget -P ./img $url
#用wget 下载到本地 -P指定下载到的目录
done

406995421566892
看来正常的跑起来了