网页抓取工具MetaSeeker V4.1.1
作者:gooseeker 来源:绿盟投稿 发布时间:2009-11-29 16:13:42
作者:gooseeker 来源:绿盟投稿 发布时间:2009-11-29 16:13:42
MetaSeeker应用领域
网页抓取工具软件包MetaSeeker V4.1.1(企业版和在线版)正式发布,在线版免费下载和使用,源代码可阅读。自推出以来,深受喜爱,主要应用领域:
垂直搜索(Vertical Search):也称为专业搜索,高速、海量和精确抓取是定题网络爬虫DataScraper的强项,每天24小时每周7天无人值守自主调度的周期性批量抓取网页内容,加上断点续传和软件看门狗(Watch Dog),确保您高枕无忧
移动互联网:手机搜索、手机混搭(mashup)、移动社交网络、移动电子商务都离不开结构化的数据内容,DataScraper实时高效地抓取网页内容,输出富含语义元数据的XML格式的抓取结果文件,确保自动化的数据集成和加工,跨越小尺寸屏幕展现和高精准信息检索的障碍。手机互联网不是Web的子集而是全部,由MetaSeeker架设桥梁
商业情报采集/数据挖掘:俗称商业智能(Business Intelligence),噪音信息滤除、结构化转换,确保数据的准确性和时效性,独有的广域分布式架构,赋予DataScraper无与伦比的情报采集渗透能力,AJAX/Javascript动态页面、服务器动态网页、静态页面、各种鉴权认证机制,一视同仁。
MetaSeeker重大特色
MetaStudio是网页抓取规则编辑器,免编程,只需要在图形界面上的点选和标注,规则自动生成
MetaStudio是网页抓取规则管理器,语义结构和抓取规则是个知识库,规则生成不再是单程票,可以持续修改,适应业务发展需求
DataScraper是定题网络爬虫,单批量、周期性、无人值守多种运行模式,基于软件看门狗的故障保护
DataScraper是网页内容格式化工具,输出富含语义元数据的结构化数据抓取结果(XML文件),二维表和树形内容结构同时支持,确保强大的语义表述能力
DataScraper是高渗透力信息采集器,AJAX/javascript、动态内容、鉴权认证都不是障碍(不总是)
MetaSeeker是高协同开源商业情报采集网络,跨地域分布式、动态IP地址、用户接入线带宽,与部署在中心机房的使用固定IP的解决方案相比,运营成本大大降低。
MetaSeeker产品组成
MetaStudio:网页内容语义标注和网站抓取规则生成工具,也是协同性网页内容语义结构管理工具
DataScraper:定题/聚焦网络爬虫、网页内容抓取和格式化工具,可组成跨地域分布式协同性信息采集网络
MetaCamp:(仅限企业版)互联网内容的语义结构知识库,MetaSeeker用户权限管理和协同管理服务器
DataStore:(仅限企业版)网页抓取规则数据库 <-- 投稿结束 -->
<-- 标记 --><-- 图片标记 -->
![]() |
MetaSeeker工具包V4.0.0已经发布,同V3.x版本相比,重点改进了产品界面的友好性、程序运行的鲁棒性、网络爬虫的效率、信息提取规则的适应性,并实现了定时器驱动的周期性信息提取,MetaSeeker V4.0.0兼容V3.x版本,以前版本定义的信息结构和信息提取规则仍然有效,详细版本特性参见MetaSeekerV4.0.0版本说明
MetaSeeker工具包在线版是免费软件,而且所有I/O操作代码是可阅读的脚本,无任何恶意代码,确保绝对安全。下载说明如下:
再次提示:请不要使用上述帐号尝试登录GooSeeker,我们当前不支持一站式认证。
文章来自绿盟(xDowns.com)转载请注明来路。
上一篇文章:Mp3tag:音乐发烧友必备工具 []