百度风云榜榜单获取

发布于 / 技术分享 / 1 条评论

百度真好玩,刚刚是历史上的今天,又搞出个风云榜
这是网址:http://top.baidu.com/buzz?b=1
这是结果:https://apa.me/mz/fengyunbang.php

首先获取数据

看看网页源码,发现榜单都是这个格式的,所以直接正则匹配


<a class="list-title" target="_blank" href="http://www.baidu.com/baidu?cl=3&tn=SE_baiduhomet8_jmjb7mjw&rsv_dl=fyb_top&fr=top1000&wd=

匹配到</a>

直接写了


$reg = '/<a class="list-title" target="_blank" href="http:\/\/www.baidu.com\/baidu\?cl=3&tn=SE_baiduhomet8_jmjb7mjw&rsv_dl=fyb_top&fr=top1000&wd=(.*)<\/a>/';
//正则匹配
preg_match_all($reg , $data , $matches);

这里转义太坑,找了半天,才发现这个?也要转义
去除多余数据时候,参考了substr函数


substr($matches['1'][$x],strrpos($matches['1'][$x],'>')+1);//去除多余

循环赋值数组,然后print
缺点:没有utf-8编码,使用gb2312 都怪百度
又坑了百度一波haha

转载原创文章请注明,转载自: 小航博客 » 百度风云榜榜单获取
没有评论权限