您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

PHP实现简单爬虫的方法,php实现爬虫_PHP教程

2025/4/20 10:04:14发布19次查看
php实现简单爬虫的方法,php实现爬虫本文实例讲述了php实现简单爬虫的方法。分享给大家供大家参考。具体如下:
/'; $result = preg_match_all($reg_tag_a, $web_content, $match_result); if ($result) { return $match_result[1]; } } /** * 修正相对路径 * * @param string $base_url * @param array $url_list * @return array */function _reviseurl($base_url, $url_list) { $url_info = parse_url($base_url); $base_url = $url_info[scheme] . '://'; if ($url_info[user] && $url_info[pass]) { $base_url .= $url_info[user] . : . $url_info[pass] . @; } $base_url .= $url_info[host]; if ($url_info[port]) { $base_url .= : . $url_info[port]; } $base_url .= $url_info[path]; print_r($base_url); if (is_array($url_list)) { foreach ($url_list as $url_item) { if (preg_match('/^http/', $url_item)) { // 已经是完整的url $result[] = $url_item; } else { // 不完整的url $real_url = $base_url . '/' . $url_item; $result[] = $real_url; } } return $result; } else { return; } } /** * 爬虫 * * @param string $url * @return array */function crawler($url) { $content = _geturlcontent($url); if ($content) { $url_list = _reviseurl($url, _filterurl($content)); if ($url_list) { return $url_list; } else { return ; } } else { return ; } } /** * 测试用主程序 */function main() { $current_url = http://hao123.com/; //初始url $fp_puts = fopen(url.txt, ab); //记录url列表 $fp_gets = fopen(url.txt, r); //保存url列表 do { $result_url_arr = crawler($current_url); if ($result_url_arr) { foreach ($result_url_arr as $url) { fputs($fp_puts, $url . \r\n); } } } while ($current_url = fgets($fp_gets, 1024)); //不断获得url} main();?>
希望本文所述对大家的php程序设计有所帮助。
http://www.bkjia.com/phpjc/1039190.htmlwww.bkjia.comtruehttp://www.bkjia.com/phpjc/1039190.htmltecharticlephp实现简单爬虫的方法,php实现爬虫 本文实例讲述了php实现简单爬虫的方法。分享给大家供大家参考。具体如下: php/** * 爬虫程序 -- 原型...
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product