个人工作知识笔记
主页
Linux运维
Thinkphp相关
功能开发代码
常用工具
低频方案
常用软件
日记流水
账号体系
思考规划
添加内容
记日记
本网站
>
常用功能代码
TP安装及常用命令
TP控制器相关使用
linux常用命令
SQL常用代码
Ajax传输样例
TP6操作手册
TP3.2操作手册
coscmd配置
Ngix配置
WX错误代码
SLL配置
curl命令详解
功能
跳转至前台
数据备份
退出登录
标题
类别
Linux运维
Thinkphp相关
功能开发代码
常用工具
低频方案
是否隐藏
内容详情
<p><b>一、下载</b></p><p> 官网:http://gnuwin32.sourceforge.net/packages/wget.htm</p><p> 下载地址:http://downloads.sourceforge.net/gnuwin32/wget-1.11.4-1-setup.exe</p><p> http://118.25.124.92/soft/wget.rar</p><p><b>二、安装与系统环境变量配置</b></p><p>2.1 安装</p><p> 双击一步步安装即可</p><p>2.2 配置系统环境变量</p><p> 新建变量“GNU_HOME”:GNU_HOME=C:\Program Files (x86)\GnuWin32</p><p> 在“Path”变量中添加:;%GNU_HOME%\bin</p><p>--------------------- </p><p>wget -r -i bb.txt</p><p>下载列表含目录</p><p><br></p><p><br></p><p><span>需要下载某个目录下面的所有文件。命令如下</span></p><p>wget -c -r -np -k -L -p<span> </span><a href="http://www.xxx.org/pub/path/" rel="nofollow" data-token="0b564716c8f823bf9df0841c497864d0">www.xxx.org/pub/path/</a></p><p>在下载时。有用到外部域名的图片或连接。如果需要同时下载就要用-H参数。</p><p>wget -np -nH -r --span-hosts<span> </span><a href="http://www.xxx.org/pub/path/" rel="nofollow" data-token="0b564716c8f823bf9df0841c497864d0">www.xxx.org/pub/path/</a></p><p>-c 断点续传<br>-r 递归下载,下载指定网页某一目录下(包括子目录)的所有文件<br>-nd 递归下载时不创建一层一层的目录,把所有的文件下载到当前目录<br>-np 递归下载时不搜索上层目录,如wget -c -r<span> </span><a href="http://www.xxx.org/pub/path/" rel="nofollow" data-token="0b564716c8f823bf9df0841c497864d0">www.xxx.org/pub/path/</a><br>没有加参数-np,就会同时下载path的上一级目录pub下的其它文件<br>-k 将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数<br>-L 递归时不进入其它主机,如wget -c -r<span> </span><a href="http://www.xxx.org/" rel="nofollow" data-token="0446413830158024fa0bdd1863940a13">www.xxx.org/</a><span> </span><br>如果网站内有一个这样的链接:<span> </span><br><a href="http://www.yyy.org/" rel="nofollow" data-token="29da62a0cbcfcf3e62005d7f85b8df13">www.yyy.org</a>,不加参数-L,就会像大火烧山一样,会递归下载<a href="http://www.yyy.org/" rel="nofollow" data-token="29da62a0cbcfcf3e62005d7f85b8df13">www.yyy.org</a>网站<br>-p 下载网页所需的所有文件,如图片等<br>-A 指定要下载的文件样式列表,多个样式用逗号分隔<br>-i 后面跟一个文件,文件内指明要下载的URL</p><p>还有其他的用法,我从网上搜索的,也一并写上来,方便以后自己使用。</p><p>wget的常见用法</p><p>wget的使用格式<br>Usage: wget [OPTION]… [URL]…</p><p>* 用wget做站点镜像:<br>wget -r -p -np -k<span> </span><a href="http://dsec.pku.edu.cn/~usr_name/" rel="nofollow" data-token="25c2b0aceb4687391583f0c9077598de">http://dsec.pku.edu.cn/~usr_name/</a><br># 或者<br>wget -m<span> </span><a href="http://www.tldp.org/LDP/abs/html/" rel="nofollow" data-token="d1fae57a30e55c1c6675bd0be988f009">http://www.tldp.org/LDP/abs/html/</a></p><p>* 在不稳定的网络上下载一个部分下载的文件,以及在空闲时段下载<br>wget -t 0 -w 31 -c<span> </span><a href="http://dsec.pku.edu.cn/BBC.avi" rel="nofollow" data-token="6588c096a00c3d4fe1b59a2717cbaa88">http://dsec.pku.edu.cn/BBC.avi</a><span> </span>-o down.log &<br># 或者从filelist读入要下载的文件列表<br>wget -t 0 -w 31 -c -B<span> </span><a href="ftp://dsec.pku.edu.cn/linuxsoft" rel="nofollow" data-token="1bf810940cee2b66a435430ac99489b0">ftp://dsec.pku.edu.cn/linuxsoft</a><span> </span>-i filelist.txt -o<span> </span><br>down.log &</p><p>上面的代码还可以用来在网络比较空闲的时段进行下载。我的用法是:在mozilla中将不方便当时下载的URL链接拷贝到内存中然后粘贴到文件filelist.txt中,在晚上要出去系统前执行上面代码的第二条。</p><p>* 使用代理下载<br>wget -Y on -p -k<span> </span><a href="https://sourceforge.net/projects/wvware/" rel="nofollow" data-token="ea834808be87308364abddbdac75451b">https://sourceforge.net/projects/wvware/</a></p><p>代理可以在环境变量或wgetrc文件中设定</p><p># 在环境变量中设定代理<br>export PROXY=<a href="http://211.90.168.94:8080/" rel="nofollow" data-token="8bda34d4e322d49babd8b167b802a094">http://211.90.168.94:8080/</a><br># 在~/.wgetrc中设定代理<br>http_proxy =<span> </span><a href="http://proxy.yoyodyne.com:18023/" rel="nofollow" data-token="29ddc413bcba0577bff374472199a8a6">http://proxy.yoyodyne.com:18023/</a><br>ftp_proxy =<span> </span><a href="http://proxy.yoyodyne.com:18023/" rel="nofollow" data-token="29ddc413bcba0577bff374472199a8a6">http://proxy.yoyodyne.com:18023/</a></p><p>wget各种选项分类列表</p><p>* 启动</p><p>-V, –version 显示wget的版本后退出<br>-h, –help 打印语法帮助<br>-b, –background 启动后转入后台执行<br>-e, –execute=COMMAND<span> </span><br>执行`.wgetrc'格式的命令,wgetrc格式参见/etc/wgetrc或~/.wgetrc</p><p>* 记录和输入文件</p><p>-o, –output-file=FILE 把记录写到FILE文件中<br>-a, –append-output=FILE 把记录追加到FILE文件中<br>-d, –debug 打印调试输出<br>-q, –quiet 安静模式(没有输出)<br>-v, –verbose 冗长模式(这是缺省设置)<br>-nv, –non-verbose 关掉冗长模式,但不是安静模式<br>-i, –input-file=FILE 下载在FILE文件中出现的URLs<br>-F, –force-html 把输入文件当作HTML格式文件对待<br>-B, –base=URL 将URL作为在-F -i参数指定的文件中出现的相对链接的前缀<br>–sslcertfile=FILE 可选客户端证书<br>–sslcertkey=KEYFILE 可选客户端证书的KEYFILE<br>–egd-file=FILE 指定EGD socket的文件名</p><p>* 下载</p><p>–bind-address=ADDRESS<span> </span><br>指定本地使用地址(主机名或IP,当本地有多个IP或名字时使用)<br>-t, –tries=NUMBER 设定最大尝试链接次数(0 表示无限制).<br>-O –output-document=FILE 把文档写到FILE文件中<br>-nc, –no-clobber 不要覆盖存在的文件或使用.#前缀<br>-c, –continue 接着下载没下载完的文件<br>–progress=TYPE 设定进程条标记<br>-N, –timestamping 不要重新下载文件除非比本地文件新<br>-S, –server-response 打印服务器的回应<br>–spider 不下载任何东西<br>-T, –timeout=SECONDS 设定响应超时的秒数<br>-w, –wait=SECONDS 两次尝试之间间隔SECONDS秒<br>–waitretry=SECONDS 在重新链接之间等待1…SECONDS秒<br>–random-wait 在下载之间等待0…2*WAIT秒<br>-Y, –proxy=on/off 打开或关闭代理<br>-Q, –quota=NUMBER 设置下载的容量限制<br>–limit-rate=RATE 限定下载输率</p><p>* 目录</p><p>-nd –no-directories 不创建目录<br>-x, –force-directories 强制创建目录<br>-nH, –no-host-directories 不创建主机目录<br>-P, –directory-prefix=PREFIX 将文件保存到目录 PREFIX/…<br>–cut-dirs=NUMBER 忽略 NUMBER层远程目录</p><p>* HTTP 选项</p><p>–http-user=USER 设定HTTP用户名为 USER.<br>–http-passwd=PASS 设定http密码为 PASS.<br>-C, –cache=on/off 允许/不允许服务器端的数据缓存 (一般情况下允许).<br>-E, –html-extension 将所有text/html文档以.html扩展名保存<br>–ignore-length 忽略 `Content-Length'头域<br>–header=STRING 在headers中插入字符串 STRING<br>–proxy-user=USER 设定代理的用户名为 USER<br>–proxy-passwd=PASS 设定代理的密码为 PASS<br>–referer=URL 在HTTP请求中包含 `Referer: URL'头<br>-s, –save-headers 保存HTTP头到文件<br>-U, –user-agent=AGENT 设定代理的名称为 AGENT而不是 Wget/VERSION.<br>–no-http-keep-alive 关闭 HTTP活动链接 (永远链接).<br>–cookies=off 不使用 cookies.<br>–load-cookies=FILE 在开始会话前从文件 FILE中加载cookie<br>–save-cookies=FILE 在会话结束后将 cookies保存到 FILE文件中</p><p>* FTP 选项</p><p>-nr, –dont-remove-listing 不移走 `.listing'文件<br>-g, –glob=on/off 打开或关闭文件名的 globbing机制<br>–passive-ftp 使用被动传输模式 (缺省值).<br>–active-ftp 使用主动传输模式<br>–retr-symlinks 在递归的时候,将链接指向文件(而不是目录)</p><p>* 递归下载</p><p>-r, –recursive 递归下载--慎用!<br>-l, –level=NUMBER 最大递归深度 (inf 或 0 代表无穷).<br>–delete-after 在现在完毕后局部删除文件<br>-k, –convert-links 转换非相对链接为相对链接<br>-K, –backup-converted 在转换文件X之前,将之备份为 X.orig<br>-m, –mirror 等价于 -r -N -l inf -nr.<br>-p, –page-requisites 下载显示HTML文件的所有图片</p><p>* 递归下载中的包含和不包含(accept/reject)</p><p>-A, –accept=LIST 分号分隔的被接受扩展名的列表<br>-R, –reject=LIST 分号分隔的不被接受的扩展名的列表<br>-D, –domains=LIST 分号分隔的被接受域的列表<br>–exclude-domains=LIST 分号分隔的不被接受的域的列表<br>–follow-ftp 跟踪HTML文档中的FTP链接<br>–follow-tags=LIST 分号分隔的被跟踪的HTML标签的列表<br>-G, –ignore-tags=LIST 分号分隔的被忽略的HTML标签的列表<br>-H, –span-hosts 当递归时转到外部主机<br>-L, –relative 仅仅跟踪相对链接<br>-I, –include-directories=LIST 允许目录的列表<br>-X, –exclude-directories=LIST 不被包含目录的列表<br>-np, –no-parent 不要追溯到父目录</p><p><br></p><p><br></p><div>4、下载:</div><div><span>常用下载指令:</span></div><div><span> wget 网址</span></div><div><p> 而要让档案自动储存到指令的目录下,则需要借用-P这个参数,可以使用以下的指令</p><p> wget -P 目录 网址</p><p> 举例来说,如果你要放到/root底下,你可以打下列的指令:</p><p> wget -P /root 网址</p><p> wget -P D:\xxx.zip http://www.xdown.com/xxx.zip</p><p> wget -O "D:\xxx.zip" http://www.xdown.com/xxx.zip</p></div><div> </div><div><span>下载整站:</span></div><div>用wget下载东西,的确很方便,它会自动重连并断点续传。让人很放心。</div><div>经常要下载一个网站或网站的某个目录。</div><div>下载一个目录,例如下载网站www.example.com/目录mydir下的所有内容</div><div> </div><div>命令如下:</div><div>wget -r -p -k -np -nc -e robots=off http://www.example.com/mydir/</div><div>如果要想下载整个网站,最好去除-np参数。 </div><div>wget -r -p -k -nc -e robots=off http://www.example.com/mydir/</div><div> </div><div>-r 递归;对于HTTP主机,wget首先下载URL指定的文件,然后(如果该文件是一个HTML文档的话)递归下载该文件所引用(超级连接)的所有文件(递 归深度由参数-l指定)。对FTP主机,该参数意味着要下载URL指定的目录中的所有文件,递归方法与HTTP主机类似。 </div><div>-c 指定断点续传功能。实际上,wget默认具有断点续传功能,只有当你使用别的ftp工具下载了某一文件的一部分,并希望wget接着完成此工作的时候,才 需要指定此参数。</div><div> </div><div>-nc 不下载已经存在的文件</div><div>-np 表示不追溯至父目录,不跟随链接,只下载指定目录及子目录里的东西;</div><div>-p 下载页面显示所需的所有文件。比如页面中包含了图片,但是图片并不在/yourdir目录中,而在/images目录下,有此参数,图片依然会被正常下 载。<br> </div><div>-k 修复下载文件中的绝对连接为相对连接,这样方便本地阅读。</div><div>-o down.log 记录日记到down.log</div><div>-e robots=off 忽略robots.txt</div>
立即提交