版权说明 操作指南
首页 > 成果 > 详情

一种网络学习资源聚合查询的方法和系统

认领
导出
Link by 万方专利
反馈
分享
QQ微信 微博
成果类型:
专利
发明/设计人:
唐四薪,林睦纲,唐琼
申请/专利权人:
衡阳师范学院
专利类型:
发明专利
语种:
中文
申请时间:
2017-3-15
申请/专利号:
CN201710152062.8
公开时间:
2017-7-7
公开号:
CN106934036A
主申请人地址:
421002 湖南省衡阳市珠晖区衡花路16号
申请地区:
湖南
机构署名:
本校为其他完成单位
主权项:
一种网络学习资源聚合查询的方法和系统,其特征在于包括以下步骤:第一步:将所有要查询的目标网站的网址、编码、HTTP请求方式等信息保存在数据库的一个表(设表名为sites,sites表中的字段有id, name, url, charset, pregmatch, valid, postdata, imgsrcp, asrcp, sort, descp)中,如果要新增查询的网站,只需将新网站的信息作为一条记录插入到sites表中;第二步:本系统在网页上提供一个表单供用户输入搜索关键词;第三步:获取所述搜索关键词,根据sites表中charset字段记录的目标网站的编码类型,将关键词进行URL编码,使关键词转换后的字符编码与所述目标网站的字符编码相同;第四步:使用CURL多线程函数将编码后的关键词同时发送到各个目标网站的搜索处理页(sites表中的url字段保存了所述搜索处理页的网址),如果sites表中postdata字段值不为空,则以POST方式将关键词嵌入到postdata字段值中再发送给目标网站,如果postdata字段值为空,则以GET方式发送关键词数据给目标网站;第五步:定义一个数组,接收各个所述目标网站返回的搜索结果页面的HTML代码;第六步:对返回的所有所述HTML代码进行统一编码;第七步:提取搜索结果列表区域:首先采用人工方法找到搜索结果列表区域的起始代码,然后再根据首尾代码人工写出匹配整个区域的正则表达式代码,将其保存在sites表的pregmatch字段中,最后使用正则表达式匹配函数(如preg_match)提取所述HTML代码中的搜索结果内容部分;第八步:修正所述HTML代码中图像和超链接中的相对URL地址:首先使用DOM(Document Object Model,文档对象模型)操作类(例如simple html dom)找到返回所述HTML代码中的所有a元素和img元素,然后在其src属性值前添加原网站的域名和路径前缀字符串(sites表中的asrc字段和imgsrcp字段保存了所述前缀字符串);第九步:在本系统中载入修正后的搜索结果列表区域代码,分别将每段修正后的代码载入到一个HTML容器元素中;第十步:为搜索结果列表添加样式代码,对所有所述HTML容器元素进行样式布局和美化并输出到本系统的搜索结果页中。
摘要:
本发明提供了一种网络学习资源聚合查询的方法和系统,目的是克服需要目标网站提供技术支持,以及需要将采集的数据进行结构化处理的缺点,且不引起版权纠纷,满足个性化搜索的需要。技术方案是采用CURL多线程函数同时向若干个目标网站发送查询请求和查询关键字,使用正则表达式提取所述目标网站返回代码中的搜索结果列表区域,再对所述返回代码中的URL进行修正,最后将这些所述返回代码载入到本系统的搜索结果页中。本发明的优点在于:不需要将从目标网站获取的非结构化数据转换为结构化数据;不需要在本系统的服务器端存储从目标网站获取得到的数据,从而不会产生版权纠纷;不需要目标网站提供...

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com