造了个轮子 XML 2 JSON

如何让命令行提高我们的工作效率?如何快速的用命令行解析出xml文档中需要的字段?

事出有因

周末折腾无人问津的博客,发现Google几乎每篇文章都收录了,然而百度只收录了首页。。为啥只收录了首页呢?网上搜了搜发现用Github Page的很多都存在这个问题,猜测是因为N年前的百度JS DDOS Github… 虽然平时百度用的也少,但重在折腾嘛。在百度站长后台提交索引其实也没什么卵用,因为百度🕷️抓托管在Github Page的站点很大几率会被403… 折腾起来就是这样,本来托管在GitHub Page很省事儿,这下又搞了个CDN,也算是加速下吧。https://xu42.github.io/blog/ 转到了 https://blog.xu42.cn/

之后,想要在百度站长后台提交站点地图,总不能一个链接一个链接的打开复制粘贴吧,用的是Hexo,有个自动生成RSS订阅用的atom.xml文件,里面包含了所有的文章列表,当然也包括了url,怎么提取这部分url呢?这就是这个轮子的来因了。

造轮子

Github: https://github.com/xu42/xml2json

轮子造好了就提取个试试吧,一并在推给百度站长后台。

curl https://blog.xu42.cn/atom.xml |  xml2json | jq -r '.entry[].id' > urls.txt
curl -H 'Content-Type:text/plain' --data-binary @urls.txt "http://data.zz.baidu.com/urls?site=https://blog.xu42.cn&token=YOURTOKEN"

ok,完事~

怎么高效就怎么来