博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
采集数据
阅读量:2455 次
发布时间:2019-05-10

本文共 2177 字,大约阅读时间需要 7 分钟。

LOCAL_DB_HOST.':3306', 'user' => LOCAL_DB_USER, 'password' => LOCAL_DB_PWD, 'db' => LOCAL_DB_NAME,);$is_debug = true;// 命令行参数一为日志的开关$log = new CommonLog(array('log_level' => $_SERVER["argv"][1],));// 连接数据库实例$db = new DBConfig($config);$today = date('Ymd');$type_list = array( // 'game' => "http://top.baidu.com/buzz/game.html", 'webgame' => "http://top.baidu.com/buzz/mmogame.html", 'rpg' => "http://top.baidu.com/buzz/magic_rpg.html",);foreach ($type_list as $type => $url){ // 采集游戏排行榜 $max_date = null; $max_date = $db->query_single("select max(data_date) from web_baidu_gametop50 where type = '$type'"); if (! $max_date || $max_date < $today) { $log->debug("start at page: " . $url); // 读取网页内容,在读取失败时,可连续尝试9次。 $cn = 0; while ($cn < 9 && ($page = @file_get_contents($url)) === FALSE) $cn++; // 编码转换,phpquery无法再gb2312的情况下处理特殊字符 $page = preg_replace('/gb2312/i', 'utf-8', $page); // 转换编码, 并解析 $doc = phpQuery::newDocumentHTML( mb_convert_encoding($page, 'utf-8', 'gb2312') ); // 解析文档 foreach ($doc->find("div.list > table > tbody > tr")->not(".th") as $tr) { $tr = pq($tr); $data = array(); $data['index_id'] = $tr->find('> th:nth-child(1)')->text(); $data['key_name'] = $tr->find('> td:nth-child(2)')->text(); // 今日搜索 $data['search_num'] = $tr->find('> td:nth-child(5)')->text(); // 最近七日 $data['count_num'] = $tr->find('> td:nth-child(6)')->text(); // $data['online_day'] = $tr->find('> td:nth-child(5)')->text(); // $data['avg_num'] = $tr->find('> td:nth-child(6)')->text(); $data['online_day'] = 0; $data['avg_num'] = 0; $data['data_date'] = $today; $data['type'] = $type; $db->insert_array("web_baidu_gametop50", $data); } } else { $log->debug("page: (" . $url . ")has gathered before"); }}?>

 dd

 

 

 

转载地址:http://rbdhb.baihongyu.com/

你可能感兴趣的文章
电子邮件传输的内容_电子邮件标题中有什么内容,为什么要关注?
查看>>
微软hackathon_武汉Hackathon的黑客之路–开发人员如何抗击COVID-19
查看>>
服务器云ide_语言服务器协议如何影响IDE的未来
查看>>
华为技术面试编码题_最佳技术编码面试准备书
查看>>
全栈Python Flask教程-建立社交网络
查看>>
react 对象克隆_如何使用React&GraphQL(Dune World Edition)创建全栈Yelp克隆
查看>>
完成平方公式:如何用二次方程完成平方
查看>>
完整的React Router初学者指南(包括Router Hooks)
查看>>
村上春树 开始写作_如何克服对写作的恐惧并找到开始的动力
查看>>
gatsby_如何使用Gatsby和Leaflet创建夏季公路旅行地图绘制应用程序
查看>>
phaser.min.js_如何使用Phaser 3,Express和Socket.IO构建多人纸牌游戏
查看>>
p值 统计学意义_什么是统计意义? P值定义以及如何计算
查看>>
23岁一无所有怎么办_我搬到国外去创业,然后一无所有。
查看>>
gdb -iex_如何使用IEX Cloud,Matplotlib和AWS在Python中创建自动更新数据可视化
查看>>
craigslist_Craigslist,Wikipedia和丰富经济
查看>>
sql子查询示例_SQL更新查询示例说明
查看>>
100个c#初学者编程实例_C#编程:初学者入门
查看>>
c语言中的if语句_If ... C中的其他语句解释
查看>>
lxc lxd_如何在LXC和LXD中使用Linux容器
查看>>
如何构建顶部导航条_如何构建导航栏
查看>>