网络小爬虫(启示)

网络小爬虫(启示)

使用PHP 的内置函数下载文件:

PHP 有两个简单的内置函数,——fopen()和fgets(),用于从网络上下载文件。fopen()函数做两件事情:首先,它创建一个网络套接字,代表网络机器人和待检索的网络资源之间的一条连接,其次,它实现了HTTP 协议,这个协议定义了数据是如何传输的。这两个任务完成之后,fgets()利用计算机操作系统的网络能力从互联网上提取文件。

用fopen()和fgets()从网上下载文件:

Shell 中运行:

浏览器中运行的结果:

浏览器缓存是另一个在浏览器上运行网络机器人时会遇到的麻烦。在浏览网页的时候缓存是有用的,因为它让浏览器有能力等到收集到足够多的网页数据时才开始渲染并展示。然而,浏览器缓存对网络机器人来说是个麻烦,因为它通常会导致花更多的时间——比下载一个典型的网页要长得多。在延长的网络机器人的运行时间里,它所写的状态消息在浏览器进行缓存的时候可能不会显示出来。

用file()函数下载文件

fopen()和fgets()之外的另一个选择是file()函数,这个函数下载格式化的文件,并将内容放入一个数组。它与fopen()的差异包含两个重要方面:一个方面是,与fopen()不同,它不要求创建文件句柄,因为它做了所有的网络准备工作。另一个方面是,它以一个数组作为下载结果返回,下载文件中的每一行都是数组的一个元素。

使用LIB_http

LIB_http库提供了一个包装函数集,来简化复杂的PHP/CURL接口,其中的每一个接口都调用一个公共函数http(),此函数根据包装接口传递给它的值执行具体的任务,LIB_http中的所有函数都有一个共同的格式:传入一个目标URL 和一个上链URL ,返回一个数组,里面包含目标文件的内容、传输状态和错误信息

执行后输出,以包含网页标头、错误信息和状态信息的数组形式。

返回在$array[‘STATUS ’]里的信息对于了解抓取过程是如何进行的特别有用。包含在这个数组里的信息有下载速度、访问时间和文件大小,这对于编写诊断型的网络机器人来监控网站的性能都具有价值。

当一个内容类型行出现在HTTP 标头里面的时候,它定义了MIME ,也就是要从服务器上传输的文件内容的类型。该MIME 类型告诉网络代理如何处理这个文件。

from:Aaron

date:2014/4/17

To be continued


相关文章

  • 网络爬虫的设计
  • 网络爬虫的设计与实现 王 娟,吴金鹏 ()贵州民族学院计算机与信息工程学院,贵州贵阳550025 摘 要:搜索引擎技术随着互联网的日益壮大而飞速发展.作为搜索引擎不可或缺的组成部分,网络爬虫的作用显 它的性能直接决定了在庞大的互联网上进行网页信息采集的质量.设计并实现了通用爬虫和限定爬得尤为重要,虫 ...

  • 网络爬虫论文
  • 网络爬虫 摘 要 随着互联网的日益壮大,搜索引擎技术飞速发展.搜索引擎已成为人们在浩瀚的网络世界中获取信息必不可少的工具,利用何种策略有效访问网络资源成为专业搜索引擎中网络爬虫研究的主要问题.文章介绍了搜索引擎的分类及其工作原理.阐述了网络爬虫技术的搜索策略,对新一代搜索引擎的发展趋势进行了展望. ...

  • 网络爬虫基本原理(一)
  • 网络爬虫基本原理(一) 网络爬虫是捜索引擎抓取系统的重要组成部分.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份.这篇博客主要对爬虫以及抓取系统进行一个简单的概述. 一.网络爬虫的基本结构及工作流程 一个通用的网络爬虫的框架如图所示: 网络爬虫的基本工作流程如下: 1.首先选 ...

  • 基于数据挖掘的校园社交网络用户行为分析
  • 1 绪论 1.1 选题背景 社交网络,简称SNS (social network service ),在Web 2.0浪潮中已发展为社会化媒体中一个主要平台.据最新的中国互联网络信息中心(CNNIC)2013年1月15 日发布的第31次<中国互联网络发展状况统计报告>,截至2012年12 ...

  • 2大数据平台的建设
  • 大数据平台建设 大数据平台建设硬件环境 服务器环境 一.数据采集系统运行环境 大数据平台需要接入政务数据.社会数据.以及其他数据.其接入方式主要包含系统对接与爬虫采集两种方式.系统对接方式运行需要依赖数据抽取前置机与中心接口服务器:爬虫采集方式需要部署分步式爬虫专用服务器. 1. 采集前置机: 解决 ...

  • 软件工程毕业论文
  • JIANGXINORMALUNIVERSITY 学士学位论文 THESISOFBACHELOR (2010-2014年) 比赛信息集成系统 --后台网络爬虫与信息处理 Platform game information integration system --The network and inf ...

  • 勤智 创新创业大数据平台解决方案
  • 勤智 创新创业大数据平台 解决方案 成都勤智数码科技股份有限公司 2015年6月 目录 1 2 3 建设大数据平台的目的 . ....................................................................................... ...

  • 课程设计(创意之星)
  • 课程设计 (基于"创意之星"的四足爬虫壁障机器人) 一.课程设计目的: 1 了解一个机器人的基本组成部分及结构 2 了解并掌握舵机的调整方法 3 通过编程使机器人具有基本的智能 二.课程设计内容 Ⅰ.系统简介 ⑴ 创意之星简介: 图一:创意之星 博创科技推出的最新UP-InnoS ...

  • 搜索引擎调查报告探测大众心中的秘密隐私
  • 二月初,珍妮·杰克逊(janet jackson)因为走光事件上升为yahoo搜索的人气冠军,其搜索请求达到总数的20%,创下了yahoo搜索关键词的历史最高记录。这一数字是艳星paris hilton曾经所创记录的60倍,是歌星小甜甜布莱妮的80倍。   互联网上的搜索引擎已经成为反映大众趣味和关 ...

© 2024 范文中心 | 联系我们 webmaster# onjobs.com.cn