韩希先 作品数:46 被引量:80 H指数:4 供职机构: 哈尔滨工业大学 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 教育部“新世纪优秀人才支持计划” 更多>> 相关领域: 自动化与计算机技术 经济管理 文化科学 更多>>
DBCC-Join:一种新的高速缓存敏感的磁盘连接算法 随着CPU和内存的性能差距越来越大,系统设计者在CPU寄存器和内存之间插入高速缓存来弥补这个差距.高速缓存的数据存取速度远高于内存,所以数据库操作要获得更好的性能就必须考虑充分利用高速缓存.基于磁盘的连接操作是一种常用并... 韩希先 杨东华 李建中文献传递 一种海量数据频繁项集挖掘方法 本发明提供一种海量数据频繁项集挖掘方法,包括:采用频繁项集挖掘算法对原始事务数据集T<Sub>O</Sub>进行挖掘,获得原始事务数据集T<Sub>O</Sub>对应的所有的局部频繁项集;扫描原始事务数据集T<Sub>O... 韩希先 陈剑 赖国骏文献传递 一种有效的海量数据Top-k Dominating查询算法 被引量:4 2013年 在多准则决策支持等多个应用中,top-k dominating查询是一种十分实用的查询,它在潜在的巨大的数据空间中返回k个支配分数最大的元组.现有算法,要么需要为特定的属性组合构建索引,要么需要较大的I/O费用或内存费用,从而无法有效处理海量数据上top-k dominating查询.文中提出一种新的查询算法TDEP,该算法利用以较小代价为每个属性构建的有序列表来有效返回海量数据上的top-k dominating查询结果.文中将TDEP算法的执行明确地分为两个阶段:增长阶段和收缩阶段.在每个阶段,TDEP算法以round-robin方式读取涉及到的有序列表并维护候选元组,直到满足结束条件.文中分析了两个阶段的执行行为,提出一种新的不需要重新读取有序列表的支配分数计算方法.同时,文中还提出有效的早剪切操作,可以有效减少TDEP算法需要维护的候选元组数量.实验结果表明:和现有算法相比,TDEP算法具有较大的性能优势. 韩希先 李建中 高宏关键词:海量数据 TOP-K 海量数据上的近似连接聚集操作 被引量:3 2010年 连接聚集操作是一种常用并且非常耗时的数据库操作.相对于准确查询,满足用户给定置信区间的近似结果由于其快得多的响应时间,更受用户的欢迎.作者分析发现现有的工作无法以既高效又满足给定的任意置信区间方式来处理近似连接聚集,因此提出了一种新的算法——(p,ε)-近似连接聚集查询(pε-AJA)来有效地返回满足任意置信区间的近似连接聚集结果.文章提出且预计算两个数据结构:连接随机样本(JRS)和连接位置索引对表(JPIPT).利用JRS,pε-AJA向用户返回近似结果的快速响应.如果利用JRS得到的近似结果没有满足给定的置信区间,pε-AJA利用JPIPT获得更多的随机连接元组.文中提出一种采样算法来获得JPIPT给定数量的样本,并且利用获得的JPIPT样本,该文提出的算法可通过对连接表的一遍顺序扫描获得连接元组.该文还提供了JPIPT和JRS有效的构建和维护算法.实验结果表明:pε-AJA可以获得相对于准确查询1~5个数量级的加速,并且可以有效地完成JPIPT和JRS的构建和维护操作. 韩希先 杨东华 李建中关键词:海量数据 大规模数据中非支配的频繁-效用项集的高效挖掘方法 本发明提供了一种大规模数据中非支配的频繁‑效用项集的高效挖掘方法,包括:根据前缀对数据集进行划分和网格存储;根据网格中存储的项的属性值,初始化多层索引链表结构,并按反对角线序读取网格;对于每个网格,将多层索引链表中存储的... 万晓珑 何京璇 韩希先 王金宝海量数据中基于后缀划分的高效用高占用比项集挖掘算法 本发明公开了海量数据中基于后缀划分的高效用高占用比项集挖掘算法,包括预处理阶段、项集挖掘阶段。预处理阶段包括后缀划分及垂直存储;项集挖掘阶段,依次将每个分区从磁盘读入内存,首先对1‑项集和2‑项集进行计算,判断其是否为高... 何京璇 韩希先 王金宝海量数据离群点检测中相关子空间搜索方法 本发明属于数据处理技术领域,具体涉及一种海量数据离群点检测中相关子空间搜索方法。该方法主要包括:步骤1,对原始数据进行预处理,构建有序列表集合和哈希分片集合;依次利用预处理得到的所有哈希分片进行自适应相关属性判断,保留无... 万晓珑 徐千惠 韩希先 王金宝基于分类树的P2P电子商务平台搜索机制的研究 随着Internet技术的飞速发展和电子支付手段的日益完善,电子商务已蓬勃发展起来。而基于C/S结构的B2C等电子商务模式的缺点也越来越明显,并已逐步成为电子商务快速发展的制约。网络中海量的商品信息的无组织化使得商品的搜... 韩希先关键词:分类树 搜索机制 查询效率 文献传递 TKEP:海量数据上一种有效的Top-K查询处理算法 在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象。不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的... 韩希先 杨东华 李建中关键词:海量数据 文献传递 TMS:一种新的海量数据多维选择Top-k查询算法 被引量:4 2017年 在许多应用中,Top-k是一种十分重要的查询类型,它在潜在的巨大数据空间中返回用户感兴趣的少量数据.Top-k查询通常具有指定的多维选择条件.分析发现:现有算法无法有效处理海量数据的多维选择Top-k查询.提出了一个基于有序列表的TMS(top-k with multi-dimensional selection)算法,有效计算海量数据上的具有多维选择的Top-k结果.TMS算法利用层次化结构的选择属性网格对原数据表执行水平划分,每一个分片的元组以面向列的模式存储,并且度量属性的列表根据其属性值降序排列.给定多维选择条件,TMS算法利用选择属性网格确定相关网格单元,有效减少需要读取的元组数量,提出双排序方法执行多维选择的渐进评价,并提出有效剪切操作来剪切不满足多维选择条件和分数要求的候选元组.实验结果表明:TMS算法性能优于现有算法. 韩希先 刘显敏 李建中 高宏