简介

大数据机器学习分析系统(自动化机器学习、大数据多维分析)、知识图谱与语义计算(知识图谱构建、问答系统、用户画像)、大数据智能分析应用(医疗、法律、教育等)。

团队成员

  • 叶丹(博士、研究员)
  • 刘杰(博士、副研究员)
  • 虞海江(副研究员)
  • 杨燕(副研究员)
  • 马志柔(副研究员)
  • 白琳(博士、副研究员)
  • 王帅(博士、助理研究员)
  • 吴怀林(助理研究员)
  • 李松领(助理研究员)
  • 王宗成(助理工程师)
  • 刘帅(助理工程师)

在读学生

      博士生:亢良伊、杨光、周志阳、李硕

      19级硕士生:吴雨浩、徐可钦、李蕴辉、毛凤华、秦政

      18级硕士生:全威、任晋宇、马新宇、张衡、曲慕子

主要研究方向

  • 面向大数据与机器学习的分布式系统

    (1)云原生大数据与机器学习开发计算环境, 研发支持云环境进行大数据处理与机器学习模型开发的WebIDE,包括支持Python开发、Spark任务开发、深度学习开发、可视化工作开发等。

    (2)机器学习算法共享与服务系统AlgorithmaShare,研究跨语言跨框架的机器学习算法与模型的统一表示,研究算法的发布与管理,研究算法可扩展的服务接口。

    (3)无服务器架构机器学习编程模型与系统框架,研究无服务器架构机器学习模型训练与推理的新型编程模型与运行时。

    (4)面向领域的大数据处理与机器学习算法库, 面向领域设计提供简洁的函数编程接口,自动翻译为分布式任务高效处理。

  • 涉及领域

    1、医疗大数据与人工智能应用

    医疗大数据除了具有大数据的通用特点,还具有本身特有的特点,多态性:包含数据、信号、图像、文本、视屏等,数据具有主观性、不标准;隐私性:患者信息需要保护,不宜随意传播;冗余性:大量重复无关紧要的冗余数据;不完整性:人工记录时出现缺失偏差。根据医疗大数据的特点,我们提供了大数据分析和处理平台为用户医疗大数据进行共享和分析,。相关成果与脑防委卒中数据中心、军事医学科学院、中医科学院等单位开展项目合作。

    2、法律大数据与人工智能应用

    研究自然语言处理、机器学习和知识图谱技术,高效的从法律文书中提取法律术语特征、构建法律知识图谱,探索法律检索、文件审阅、案件预测、咨询服务等模型,提供智能化的法律服务。相关成果与无讼科技、华宇信息等企业开展项目合作应用。

    3、教育大数据挖掘分析

    针对在线教育个性化学习需求展开教育大数据深度挖掘分析,构建智能分析平台,实现多策略融合的教育大数据查询优化,支持学习行为分析与建模,构建基于规则的学习积极度度量模型、基于回归的停滞生预测/激活模型、基于自然语言理解的智能咨询问答模型、基于图表示学习的教培推荐模型等,支持10余种典型业务分析场景。

已毕业学生

博士生

伍海江:面向大规模知识库的可扩展推理关键技术研究(2017)

朱锋:面向SQL-on-Hadoop系统的存储优化关键技术研究(2016)

孙耀:基于Spark的流程化机器学习分析系统的设计与实现(2015)

刘杰:面向数据集成的数据清理关键技术研究(2010)

马建刚:面向大规模数据分发的发布订阅系统关键技术研究(2009)

刘强:关系数据库语义集成关键技术研究(2008)

硕士生

  • 2020届

    邸凡祎:智能家居技能知识谱图构建技术与实现

    秦伟:云环境机器学习算法共享平台的设计与实现

    张晨昕:云环境深度学习模型训练与压缩系统的设计与实现

  • 2019届

    曲瑛琪:面向多源领域知识的问答技术及应用

    杨诏:面向遥感影像语义分割的自动化机器学习系统的设计与实现

    蔡承烨:个性化在线教育资源推荐系统的设计与实现

    付煜文:基于问答匹配的智能客服系统的设计与实现

  • 2018届

    王建飞:基于 Spark 的机器学习自动化调参系统的设计与实现

  • 2017届

    倪嘉志:基于深度学习的病人相似性度量工具的设计与实现

    崔光范:Spark SQL分布式全文检索框架的设计与实现

  • 2016届

    李世强:基于相似度的健康数据检索系统的设计与实现

    张磊:基于Spark 的交互式大数据预处理系统的设计与实现

    赵玲玲:基于Spark的流程化机器学习分析系统的设计与实现

  • 2015届

    陈昊:一种高性能分布式XMPP服务器的设计与实现

    柯叶青:基于知识库的语义搜索系统的设计与实现

    陈茜:大数据分析组件开发与管理工具的设计与实现

  • 2014届

    赵薇:基于Hadoop的大数据分析应用开发平台的设计与实现

    吕瀛:云端文件高效传输与存储机制的设计与实现

  • 2013届

    张晓杰:云端文件同步与共享服务平台CloudShare设计与实现

    肖彦:一种数据交换服务器集群系统的设计与实现

  • 2012届

    李奇原:面向 Hadoop 平台的数据密集型工作流系统的设计与实现

    晏敏敏:面向物流企业的异构表单交换平台的设计与实现

    刘姗姗:面向中小企业的云制造服务选择技术研究与实现

  • 2011届

    罗后启:基于HDFS的数据交换共享平台的设计与实现

    易小华:基于MapReduce的数据处理框架设计与实现

  • 2010届

    宁静:分布式数据集成监视系统的设计与实现

    周伟:数据集成中的数据流程处理框架的设计与实现

  • 2009届

    黄飞:面向ETL过程的数据质量控制系统的设计与实现

    张巍巍:OnceDI中数据传输子系统的设计与实现

  • 2008届

    陈忞:一种支持协作的轻量级模板语言的设计与实现