您的位置: 专家智库 > >

高军

作品数:41 被引量:741H指数:16
供职机构:北京大学信息科学技术学院更多>>
发文基金:国家高技术研究发展计划国家重点基础研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术文化科学理学机械工程更多>>

文献类型

  • 29篇期刊文章
  • 12篇会议论文

领域

  • 36篇自动化与计算...
  • 2篇文化科学
  • 1篇机械工程
  • 1篇理学

主题

  • 14篇查询
  • 6篇数据库
  • 6篇XPATH
  • 5篇XML数据
  • 4篇索引
  • 4篇网页
  • 4篇聚类
  • 4篇可扩展
  • 4篇半结构化
  • 4篇XML
  • 3篇信息提取
  • 3篇数据集
  • 3篇数据集成
  • 3篇数据流
  • 3篇网页信息
  • 3篇路径查询
  • 3篇XML数据流
  • 3篇MAPRED...
  • 3篇查询重写
  • 2篇页面

机构

  • 39篇北京大学
  • 4篇教育部
  • 2篇国家互联网应...
  • 1篇北京青年政治...
  • 1篇电子科技大学
  • 1篇南京航空航天...
  • 1篇北京航空航天...
  • 1篇上海理工大学
  • 1篇中国人民解放...
  • 1篇成都市公安局

作者

  • 41篇高军
  • 30篇王腾蛟
  • 29篇杨冬青
  • 20篇唐世渭
  • 3篇汪建伟
  • 3篇马帅
  • 3篇孔令波
  • 3篇许世峰
  • 2篇刘云峰
  • 2篇孙勇义
  • 2篇夏冰
  • 1篇赵海燕
  • 1篇陈林
  • 1篇付艳
  • 1篇张铭
  • 1篇周家帅
  • 1篇王海洋
  • 1篇童咏昕
  • 1篇许建秋
  • 1篇宋国杰

传媒

  • 10篇软件学报
  • 7篇计算机研究与...
  • 2篇北京大学学报...
  • 2篇计算机科学
  • 2篇NDBC20...
  • 1篇计算机学报
  • 1篇计算机工程
  • 1篇光子学报
  • 1篇中文信息学报
  • 1篇理工高教研究
  • 1篇计算机教育
  • 1篇中国科学:信...
  • 1篇科研信息化技...
  • 1篇2007年全...
  • 1篇第18届全国...
  • 1篇第二十五届中...
  • 1篇第30届中国...
  • 1篇第26届中国...
  • 1篇全国网络与信...

年份

  • 1篇2019
  • 3篇2015
  • 3篇2013
  • 4篇2010
  • 6篇2009
  • 4篇2008
  • 4篇2007
  • 6篇2005
  • 3篇2004
  • 2篇2003
  • 2篇2002
  • 3篇2001
41 条 记 录,以下是 1-10
排序方式:
一种基于动态划分的MapReduce负载均衡方法被引量:11
2013年
MapReduce作为一种分布式计算框架,在大规模数据处理中已经被广泛应用.负载均衡是影响分布式计算性能的关键因素.当前的MapReduce实现在给集群分发任务时,多采用Hash的随机划分方式,无法根据数据的分布情况来调整集群的负载,容易出现负载不均衡的问题.为解决这一问题,对当前的MapReduce框架进行拓展,根据对Map端中间结果的采样来动态确定Reduce任务数目以及划分函数,保证Reduce任务的负载均衡.具体地,对Map的结果进行采样,并将其发送给Job Tracker.Job Tracker根据采样数据的分布情况动态确定划分函数,以保证每个Reduce任务处理的记录数目均衡.更重要的是,在Hadoop框架内实现了负载均衡方法,测试结果证明方法具有良好的有效性、兼容性和可用性.
周家帅王琦高军
关键词:MAPREDUCE负载均衡采样
基于内容Web查询中半结构化语义缓存的贪心重写
随着XML成为Web上信息交换和表示的标准,XML文档的查询成为研究的热点问题。XML查询的返回结果是用户可用的信息,而不只是简单的URL,所以上述查询也称为基于内容的查询。在XML查询中,同样存在着传统的基于关键字的W...
高军唐世渭杨冬青
关键词:OEM
一种基于显示属性的网页信息提取方法
在目前的 Web 信息提取技术中,很多都是基于 HTML 结构的,由于 HTML 结构的经常变化, 使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于显示属性的 Web 信息提取方法,通过将网页文...
汪建伟高军王腾蛟杨冬青
关键词:网页信息提取DOM包装器
一种更新友好的基于分数的XML编码方法
由于XML已经成为网络环境中数据表示和交换的标准,如何实现高效的XML查询处理就尤为重要.目前XML区间编码是一种重要的编码方式,但是区间编码不适合XML数据频繁的更新.针对这一问题,基于XML树的结构,提出了一种利用分...
孙勇义高军王腾蛟杨冬青
关键词:可扩展标记语言XML更新
面向话题的新闻评论的情感特征选取被引量:16
2010年
情感特征的提取是进行文本情感分析的一个非常重要的步骤,也是影响其结果好坏的主要因素。在该文中,作者提出一种新的特征提取方法来解决新闻评论的情感分析问题。在该方法中,首先根据评论和新闻的对比分析获得候选情感特征,然后经过相关的扩充和验证操作得到通用的情感特征,并将其用于新闻评论的情感分析。对新闻进行话题划分后进行更细粒度的情感分析:根据新闻话题信息,设计相应的话题相关的特征对比和验证过程,选取出面向话题的情感特征,最后用面向话题的情感特征对相应话题进行情感分析。实验证明,这种情感特征提取方法,对于新闻评论这种语句短、评论对象相对分散的评论,情感分析效果有较大的改进。
陶富民高军王腾蛟周凯
关键词:计算机应用中文信息处理情感分析特征选取
基于可扩展计算平台的大图数据管理
2013年
随着数据采集和存储技术的发展,社交网络、生物信息科学、交通导航等领域中出现了规模庞大、内部结构复杂、查询需求多样的大图数据。传统基于单机内存的图处理方法无法满足大图数据管理需求。可扩展计算平台的发展为大图数据管理提供了可行的技术方案。本文首先分析了大图数据之上的不同类型查询,重点探讨了基于关系数据库、基于MapReduce计算框架、基于BSP(Bulk Synchronous Parallel)计算模型和基于第三方外包服务器的大图数据管理方法,并分析了未来可能的研究路线。
高军杨冬青
关键词:关系数据库MAPREDUCEBSP外包
基于内容Web查询中半结构化语义缓存的贪心重写
在响应时间要求和很高的环境中,必须得到一个多项式时间近似算法,本文基于传统的方法和半结构化查询自身的特点,提出了半结构化语义缓存的查询贪心重写方法,满足了XML查询引擎的需要.
高军北京大学视觉与听觉信息处理国家重点实验室(北京)唐世渭杨冬青
关键词:WEB查询语义缓存半结构化
新型数据管理系统研究进展与趋势被引量:34
2019年
随着各类新型计算技术和新兴应用领域的浮现,传统数据库技术面临新的挑战,正在从适用常规应用的单一处理方法逐步转为面向各类特殊应用的多种数据处理方式.分析并展望了新型数据管理系统的研究进展和趋势,涵盖分布式数据库、图数据库、流数据库、时空数据库和众包数据库等多个领域.具体而言:分布式数据管理技术是支持可扩展的海量数据处理的关键技术;以社交网络为代表的大规模图结构数据的处理需求带来了图数据库技术的发展;流数据管理技术用来应对数据动态变化的管理需求;时空数据库主要用于支持移动对象管理;对多源、异构而且劣质数据源的集成需求催生出新型的众包数据库技术.最后讨论了新型数据库管理系统的未来发展趋势.
崔斌高军童咏昕许建秋张东祥邹磊
关键词:分布式数据库时空数据库
XML数据索引技术被引量:96
2005年
对XML数据建立有效的索引,是左右XML数据处理性能的重要因素.深入地讨论了目前XML索引技术的研究现状,将XML索引技术分为两大类:节点记录类索引(本身还可以分为3个小的类型)和结构摘要类索引.根据XML数据查询处理效率以及XML数据修改对XML索引的要求,讨论了相关XML索引方法的优点和不足,并归结出XML索引后续研究的3个方向:XML结构信息的获取,路径信息的多维处理,数据修改合法性的有效支持,以及涉及能够同时有效满足XML查询和信息获取的索引.
孔令波唐世渭杨冬青王腾蛟高军
关键词:XML索引
面向XPath执行的XML数据流压缩方法被引量:25
2005年
由于XML(extensible markup language)本身是自描述的,所以XML数据流中存在大量冗余的结构信息.如何压缩XML数据流,使得在减少网络传输代价的同时有效支持压缩数据流上的查询处理,成为一个新的研究领域.目前已有的XML数据压缩技术,都需要扫描数据多遍,或者不支持数据流之上的实时查询处理.提出了一种XML数据流的压缩技术XSC(XML stream compression),实时完成XML数据流的压缩和解压缩,XSC动态构建XML元素事件序列字典并输出相关索引,能够根据XML数据流所遵从的DTD,产生XML元素事件序列图,在压缩扫描之前,产生更加合理的结构序列编码.压缩的XML数据流能够直接解压缩用于XPath的执行.实验表明,在XML数据流环境中,XSC在数据压缩率和压缩时间上要优于传统算法.同时,在压缩数据之上查询的执行代价是可以接受的.
王腾蛟高军杨冬青唐世渭刘云峰
关键词:XML数据流DTDXPATH
共5页<12345>
聚类工具0