赶紧先马一下!牛!
由于皮下电脑配置不够好,目前最多只能下载到15年9月之后的(约3w3k个tag),现放出我使用的下载方法,如有人电脑配置足够好的话可以试试帮忙下载,皮下非专业,如有更好办法欢迎告知~
工具:好的电脑、速度快的浏览器(Chrome内核或Firefox)、数小时的时间、稳定的网络、任意具有正则表达式查找替换功能的文本编辑软件(皮下使用软件为EmEditor)、任意下载工具(皮下使用软件为Flashget 1.73)
步骤:
电脑端,TAG页面小图模式,一直往下按“pagedown”按键,或让鼠标滚轮自行向下滚动,或下载一个自动滚动软件,等待数小时,让网页拖到底。
全选,右键“审查元素”/“检查”,复制元素(此时皮下浏览器因内存不足崩溃,最好一次试到15年9月,或许可以试试一部分一部分复制)
如果看不懂下面,只要能帮忙把前两步做完,把源代码文件传给皮下就非常感谢!!之后的下载皮下可以操作
如成功,将复制下来的代码粘贴到文本编辑软件中(以EmEditor为例),使用查找替换进行替换:
替换规则如下:使用“转义符”模式(:后是内容)
1)
查找:\n
替换:
2)
查找:</div></div>
替换:</p>\n
这一步替换会非常卡,可以用:ReplaceAll 这个软件进行替换,将“\n”写成 换行 就行
======文的部分=====
使用查找模式,查找:<div class="archiveitm m-post m-post-txt">,点击查找框中的“书签全部行”,选择菜单中:编辑→书签→该文档→选取已添加书签的文件行到新文件
此时出现的新文件就是所有文的链接,保存为:(你想定义的名字).html(后缀需为html)
在新文件中操作,进行查找替换:使用“正则表达式”模式(:后是内容)
1)
查找:<div class="fullnk f-cb" onclick="loft.m.tagarchive.g.showPostLayer\(this,'(.*)',event\);"> <span class="txt"> <span class="desc">([^/]*).*<a target="_blank" class="name" href="(.*)">(.*)</a>
替换:<a href="\3/post/\1">\2 - \4</a>
2)
查找:<div class="fullnk f-cb" onclick="loft.m.tagarchive.g.showPostLayer\(this,'(.*)',event\);"> <span class="txt"> <strong class="title">(.*)</strong> <span class="desc">.*<a target="_blank" class="name" href="(.*)">(.*)</a>
替换:<a href="\3/post/\1">\2 - \4</a>
此时出现的代码应为:
在浏览器打开这个新文件,全选,拖到下载工具中下载(以Flashget 1.73为例)
此时浏览器应显示为:
下载成功后,在下载软件中全选→右键重命名→注释作为文件名
文就全部下载成功了,主要存在的问题是:1.如果作者在文章内放链接,文内链接是不能下载到的,2.如果作者没有在lof的文章上写标题,标题有一定可能提取不出来
下载结果为:
======图的部分=====
菜单中:编辑→书签→该文档→清除所有书签
查找:<div class="archiveitm m-post m-post-img">,点击查找框中的“书签全部行”,选择菜单中:编辑→书签→该文档→选取已添加书签的文件行到新文件
此时出现的新文件就是所有图的链接,保存为:(你想定义的名字).html(后缀需为html)
在新文件中操作,进行查找替换:使用“正则表达式”模式(:后是内容)
查找:<a class="fullnk f-cb" href="#" onclick="loft.m.tagarchive.g.showPostLayer\(this,'(.*)',event\);"> <span class="pic"><img src="(.*)\?imageView&thumbnail=300y300.*<a target="_blank" class="name" href="(.*)">(.*)</a> </p>
替换:<a href="\3/post/\1">\1 - \4</a> - <a href="\2">\1图 - \4</a>
在浏览器打开这个新文件,全选,拖到下载工具中下载(以Flashget 1.73为例),注意需将“引用”写为:https://www.lofter.com,否则无法下载成功
下载成功后,在下载软件中全选→右键重命名→注释作为文件名
图就全部下载成功了,主要存在的问题是:如果作者一次发了多个图,只能下载到第一张
下载结果:
=================
补充一个同作者下所有文章批量下载方法
原理是一样的
1.打开“归档”页面,全选,右键点“审查元素”“元素”,复制元素,保存在文本编辑器里(如EmEditor),后缀名需为:html
2.进行如下替换:(转义符模式)
查找:</li>
替换:</li>\n
查找:<a href="
替换:<a href="https://(该太太的lof网址前缀).lofter.com/,以皮下为例,为:<a href="https://stuckybookmarks.lofter.com/
查找:<h3>
替换:
换为:正则表达式模式
查找:</h3>.*
替换:</a></li>
3.浏览器打开这个文件,批量下载,之后重命名操作同前
浏览器效果如下: