Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长。随着互联网应用的发展,网上的在线数据库大量涌现,Deep Web数据集成成为当前信息领域的一个研究热点。为了方便用户查询数据,对Deep Web技术的应用进行了研究,提出了Deep Web技 术在科学数据共享平台中的架构,并阐述了具体的实现。
科学数据;科学数据共享平台;Deep Web
科学数据库共享平台是将科学数据资源集成并共享,提供科学数据、科技文献、专利、标准等科技资源信息的查询、检索、交流,为广大科技工作者服务、为科技创新服务的平台。该平台使科学数据得到 更大泛围的共享、应用和交流,科学数据发挥更大的价值。
科学数据共享平台的科技文献检索、专利检索、标准检索等功能的实现,应用了Deep Web技术。
Web信息按照“深度”划分,可以被划分为Surface Web和Deep Web。其中,Surface Web是指能被传统搜索引擎检索到的页面,如静态的HTML; 而Deep Web则是传统搜索引擎小能检索到的一些内容,主要是指需要用户填写提交一个HTML的Form表单后才能搜索到的内容。
搜索Deep Web的过程如下(如图l):(a)从网页上获取表单; (b)对表单进行关键字抽取并集成;(c)填充表单并提交;(d)分析返回的结果。
科学数据共享平台,主要实现了科学数据、科技文献、专利、标准等科技资源 信息的查询、检索、交流,其中科技文献检索、专利检索、标准检索等功能的实现,应用了Deep Web技术。
科技文献是重要的信息资源,包括学术论文、期刊、会议、成果、法规等 各类电子资源。应用Deep Web技术,可以便捷、快速地获取科技文献,为科技文献有需求者,尤其是一些科研工作者提供帮助与便利。
科技文献模块主要包括科技文献检索和科技文献后台管理两个部分:
(1)科技文献检索:科技文献查询服务方式有两种:统一查询和高级查询。统一查询主要是按照关键字统一跨库查询;而高级查询可以按照文献的标题、作者、摘要、关键词进行查询。
(2)科技文献后台管理:科技文献后台管理主要是平台管理员对科技文献数据源 参数的设置。数据源参数的设置,主要是对Deep Web数据源站点的参数配置,如站点的新增,修改,删除,禁用,开启等功能。
专利检索模块主要分为专利检索、专利检索站点管理。
(1)专利检索:使用Deep Web技术进行检索是把用户在统一接口中输入 的查询转发到多个选定的数据源接口表单上以形成目标查询。用户的查询提交后,再获取所有的结果页面,并对结果页面进行信息抽取,然后对所有数据源的检索结果记录进行合并和筛选。最终将满足用户查询条件 的结果以统一的格式呈现给用户。
(2)专利检索站点管理:专利检索站点管理提供了对可进行Deep Web搜索的数据源 站点列表的管理功能,由管理员选择是否发布,供用户搜索。
标准检索模块分为标准检索和标准检索站点管理两部分。
(1)标准检索
标准检索的方式分为两类:统一检索和高级检索。
统一检索:用户输入单个关键字,选择关键字的类别,然后勾选所要搜索 的数据源站点进行检索。关键字可选择的类别包括名称、标准号等。
高级检索:用户填写一个以上的关键字,勾选所要搜索的网站进行查询。在标准检索的高级查询中,可输入字段包括:标准号、中文标题、英文标题、发布单位、起草单位、中标分类号、国际分类号等。
(2)标准检索站点管理
标准检索站点管理提供了对可进行Deep Web搜索的数据源站点列表的管理,由管理员选择是否发布,供用户搜索。
Deep Web的框架可以分为三个主要的模块:查询接口集成模块、查询处理模块和查询结果处理模块。
(1)查询接口集成模块:为用户提供统一的查询接口,可以同时向多个查询接口 提交查询。这一模块主要解决Web数据库的发现、查询接口模式的抽取、Web数据库的分类,查询接口集成等问题。
(2)查询处理模块:将用户在集成的查询接口上填写的查询转化到对各个Web数据库 本地查询接口的查询。这一部分处理Web数据库选择、查询转换和查询提交。
(3)查询结果处理模块:将各个Web数据库返回的结果抽取并合并到一个统一的结构化的模式。
科学数据共享平台中的Deep Web查询模块是基于配置文件的集成系统,它的主要思想是:用统一的集成程序,利用针对每一个网站的配置文件,对Deep Web的数据进行集成。集成程序是统一的,而针对网站只需要写配置文件。所使用的框架如图2所示。
首先,管理员对站点进行配置,程序根据管理员的输入生成该站点的查询接口 配置文件、结果页面配置文件,以及集成接口配置文件。然后,用户在前台页面 输入查询信息,选取需要查询的站点,提交查询,则系统读取相应的配置文件 进行处理,然后返回各个站点的查询结果。
为了简化问题,数据源的发现和选择,采用人工查找的方式,避免使用网络爬虫 花费大量时问爬取网页。管理员只需要提供查询接口的地址,程序就能够自动生成 查询接口配置文件和集成接口配置文件。
网页表单是使用
评论列表 ( 0 )