|
由于学校图书馆文献、各部门发布信息乃至教师、学生电脑的部分信息都送到网上共享,要从中搜索浏览我们需要的资料是件很难的事情。为了使网络共享功能实用化,采用服务器加瘦客户端的模式,服务器端必须有灵活高效的信息检索能力,我们采用数据挖掘技术和倒排索引技术来实现这一要求。
结合校园网构成的实际情况,数据挖掘过程各步骤的内容如下:
(1) 确定业务对象
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。作为校园网,学生是最大的服务对象,网络必须有效得为其提供业务服务,虽然挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,应针对校园网的特点设计挖掘结构。
(2) 数据准备与倒排索引结构的建立
数据准备包括数据选择、数据预处理和数据转换三部分。首先,搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。校园网的搜索的信息大部分将来自客户端发送的资源地址列表。资源的地址列表包括各条资源的名称、数据类型和大小、所在地的网内IP地址和资源的存储路径。第二步,数据预处理研究数据的质量,为进一步的分析做准备.并确定将要进行的挖掘操作的类型。最后是数据转换,将数据转换成符合分析模型需要的格式,这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键,我们利用倒排文件的检索技术对服务器收到的大量资源地址列表进行多层次的分类,提高检索效率。首先,根据第一步得来的资源总表建立多级检索目录。对图书馆的电子文献往往有已知多级分类目录,在第一级分为文、理两类,再在理科下属第二级分计算机、电子信息工程、数学等分支,然后在计算机分之建立第三级目录,包括离散数学、C语言、算法、网络等,到第四级(如网格类文章)即是索引树的树叶一级的结点了,用来对应存储具体资料名称和存储路径。对于教师和学生宿舍电脑,先根据楼栋号和学生所属院系分IP地址段建立多级索引目录,然后针对最后一级结点内容结合用户经常搜索的关键词映射到主多级目录的次关键字建立倒排索引,列出相关资源(如网格)的存储路径。若有人共享一份有关网格的技术文章,它的存储路径将被整理分类到理科——计算机——网络对应的倒排索引列表中。
(3) 结合倒排索引的数据挖掘
对所得到的经过转换的数据进行挖掘。除了完善选择合适的挖掘算法外,其余一切工作都能自动地完成。 若有人搜索有关网格技术的文章,索引算法将会确定这种资料来自计算机的网络类资源,于是进入其对应的倒排文件列
undefined
undefined
表中搜索有关资料反馈给搜索者。
(4) 结果分析
解释并评估结果,其使用的分析方法视数据挖掘操作而定,通常会用到可视化技术。
(5) 知识的同化
将分析所得到的知识集成到业务信息系统的组织结构中去。
4.2 网格校园网的存储传输与安全
网格校园网中的存储、传输与安全的问题,是关系到校园网能否高效、可靠运行的关键问题,我们将通过瘦客户端软件对个人电脑或其他信息存储仓库的共享存储资源进行管理,对可能出现的网络流量控制问题采用改进的基于队列的模糊拥塞控制算法进行解决,提出了一种网格校园网安全的解决方案。
4.2.1 网格校园网的存储
(1) 存储方式
把分散的节点的共享资源映射成一个统一入网的虚拟机器,服务器得到的是各节点的资源的路径,将所有的路径以数据库的形式汇总到服务器,便于搜索。
当客户端向服务器请求资源时,客户会很快的得到所要的资源,但他并不关心资源来自何处,服务器是将被请求资源的地址返回了客户端,客户端根据地址建立 |