演讲嘉宾 大会日程 合作伙伴 联系我们 我要报名 返回顶部
距离开幕
百场演讲,蓄势待发!
演讲嘉宾
演讲主题:大数据基础技术发展的两大方向和最新研发成果
简介:Hadoop技术经过最近10年发展,已经开始深入各行业和各类应用。但从市场的反馈来看,Hadoop还没有被大面积普遍采用,主要制约因素来自两个方面:1. SQL on Hadoop的技术进展制约了企业原有应用的迁移以及新应用的开发;2. 企业在建设大数据平台或者Data Lake时,往往有多租户资源管控和弹性计算的需求,这些需求现有的YARN或者虚拟化技术没有满足。 本次演讲将介绍星环科技在这两方面的最新突破,首先介绍星环科技在对SQL2003和PL/SQL支持上的多种优化技术,可帮助企业快速完成应用迁移和部署;其次介绍星环科技的最新产品,结合Hadoop和Docker技术,如何实现细粒度的资源管理和调度。
演讲嘉宾:孙元浩 星环科技CTO
著名大数据专家,中国Hadoop技术应用及产品化的领军人物。曾任英特尔亚太研发有限公司数据中心软件部亚太区CTO。2013年离开英特尔创办星环科技,致力于Hadoop之上的高效计算引擎和数据分析算法的研发。
演讲主题:谈Pcie ssd在数据库优化中的作用II之颠覆性创新(存储篇)
简介:随着闪存在数据库优化中的普遍使用,利用闪存的某些特性甚至可以颠覆我们对传统存储的通常认识。究竟哪些是对传统存储的颠覆性创新?究竟能给数据库优化带来什么作用?那就让我们来聊聊闪存特性如何让DBA们如虎添翼!
演讲嘉宾:吕智超 上海宝存信息科技有限公司 高级系统工程师
演讲主题:Write optimization in external-memory data structures
简介:After a long reign as the dominant on-disk data structure for databases and filesystems, B-trees are slowly being replaced by write-optimized data structures, to handle ever-growing volumes of data. Some write optimization techniques, like LSM-trees, give up some of the query performance of B-trees in order to achieve this. A Fractal Tree is a write-optimized data structure that matches the insertion performance of an LSM-tree while maintaining the optimal query performance of a B-tree. It's inspired by many data structures (Buffered Repository Trees, B^? trees, ...) but the real definition is just what we've implemented at Tokutek. I'll provide background on B-trees and LSM-trees, an overview of how Fractal Trees work, where they differ from B-trees and LSM-trees, and how we use their performance advantages in some obvious and some surprising ways to power new MySQL and MongoDB features in TokuDB and TokuMX.
演讲嘉宾:Leif Walsh TokuDB首席工程师
Leif Walsh is a senior engineer and distributed systems expert at Tokutek, working on the Fractal Tree indexing library and on TokuMX. At Microsoft he did performance monitoring and evaluation for embedded networking applications. Before that, he worked on the early implementation of RethinkDB. He also spent two internships at Google building internal and external web applications with BigTable. Leif holds bachelor's degrees in Math and Computer Science from Stony Brook University, where he also did filesystems and cryptography research.
演讲主题:阿里数据库架构变迁与展望
简介:阿里巴巴集团业务压力之大,场景之复杂,在中国乃至全世界都屈指可数,集团整个数据库体系可以说是一直被业务追着跑步前进,一刻也没有停歇。 无论是IOE架构的Oracle时代,还是AliSQL的分布式时代,以及轰轰烈烈充满各种争议的去IOE行为, 阿里巴巴数据库团队一次又一次引领并推动了中国数据库产业的变革和发展。 历史发展到今天,阿里巴巴的数据库体系走向何方,如何支撑集团业务未来5到10年的快速发展, 单元化架构和OceanBase是我们给出的答案,借2015 DTCC数据库大会的机会,我将为大家阐述阿里巴巴数据库团队是如何思考的。
演讲嘉宾:李圣淘 阿里集团数据库专家兼淘宝DBA团队主管
花名刘昆,10年数据库经历,2009年加入阿里巴巴集团数据库团队,历经淘宝6年双十一大促保障。 目前主要负责支持集团电商业务板块,牵头数据库体系单元化,云化改造项目。
演讲主题:58同城数据库设计实践
简介:58同城数据库设计上的经验分享,包括几个方面: 一、58同城数据库设计常见问题及解决方案1、数据量太大,怎么办? 2、数据可用性如何保证? 3、不同读写比的业务,数据库如何设计? 4、数据库字段如何无缝扩充,数据库导表如何无缝迁移? 二、58同城各类业务场景数据库拆库解决方案:1、用户库-单key场景如何拆库? 2、帖子库-双key场景如何拆库? 3、好友库-"关注"与"粉丝"场景如何拆库? 4、 订单库-三key场景如何拆库? 三、58同城拆库后出现的问题及解决方案 1、分库后,in查询如何实现? 2、分库后,非key查询如何实现? 3 、分库后,夸库分页如何实现? 4、分库后,order by + offset + limit如何实现? 四、58同城数据库中间件初探。
演讲嘉宾:沈剑 58同城高级架构师,技术委员会主席
曾任百度高级工程师,参与过多个百度HI重大项目的研发,后加盟58同城,任58同城高级系统架构师,技术委员会主席,产品技术学院优秀讲师。负责过58同城即时通讯,支付系统重构,摊销系统重构,数据库中间件,58同城推荐系统,58同城商户平台App等多个系统与项目的设计与实现。曾多次代表58同城作为嘉宾参与系统架构师大会、velocity、top100summit等技术会议,分享58同城的架构技术。
演讲主题:运营商去O浅析
简介: 1、去O的背景; 2、去O的驱动分析; 3、运营商去O的技术难点以及应对策略分析; 4、运营商去O的一些经验和建议;
演讲嘉宾:王晓征 浙江移动信息技术部总经理助理
Oracle 9I OCM(2003年),现任中国移动通信集团浙江有限公司信息技术部总经理助理,中国移动集团业务支撑高级技术专家,高级工程师职称,1997年中国足球乙级联赛注册球员。
演讲主题:去哪儿Inception自动审核系统设计与实现
简介:1、列举当前各个公司普遍采用的MySQL审核方法,分别提出它们的优点及缺点; 2、介绍Inception审核系统的实现必要性,架构及实现方式,说明Inception的优点; 3、介绍Inception审核系统的使用方法,提供的接口、审核结果返回方式等; 4、介绍Inception审核系统在内部实现的执行流程,介绍具体是如何实现的; 5、介绍Inception审核系统的一个核心功能——备份回滚; 6、介绍Inception的问题改进及功能的展望。
演讲嘉宾:王竹峰 去哪儿网DBA
毕业于华中科技大学数据库研究所,资深MySQL数据库专家,不仅擅长数据库的开发,还擅长数据库的管理和维护,一直致力于MySQL数据库源码的研究与探索,对数据库原理及实现具有深刻的理解。先后就职于上海达梦数据库、人人网,现任去哪儿高级DBA,负责MySQL数据库运维及相关开发工作。
演讲主题:TDSQL在微众银行核心交易系统中的实践
简介: 1、基于MySQL为金融场景定制的分布式数据库TDSQL架构分享; 2、TDSQL在微众银行核心交易系统的应用实践。
演讲嘉宾:雷海林 腾讯公司高级软件工程师
主要负责部门实时计费系统的数据层整体解决方案的架构设计和开发;超过10年的Linux后台开发经验,在Linux内核,高性能Server开发,分布式Cache,MySQL数据库内核开发等方面有丰富经验;
演讲主题:MariaDB新特性剖析
简介:主要介绍MariaDB的历史以及MariaDB的主要新特性,并且对 MariaDB线程池、binlog group commit技术以及多源复制等新特性 从原理到实现进行深入地剖析。
演讲嘉宾:张金鹏 京东云MySQL数据库技术专家
图灵新书《MariaDB原理和实现》作者。专注于MySQL内核研究以及Linux内核等其他系统技术的研究。
演讲主题:PostgreSQL高可用的一种新方案
简介:目前PostgreSQL数据库的高可用性方案选择面比较多,有商业的,也有非商业的,能支持7*24*365关键应用的方案不多。这个演讲将展示我们设计/实现的一种新的高可用方案,用于支持PostgreSQL数据库在RTO/RPO要求都非常高的环境下,支持像金融/银行/电信等要求7*24*365不停机的关键应用/业务,达到高可用和容灾的目的。
演讲嘉宾:朱贤文 文武信息技术创始人
在IT领域有超过16年工作经验,熟悉数据库(Oracle/PostgreSQL),集群(CRS/VCS ...),存储,文件系统,容灾与备份。曾在Symantec的存储部门/SAMG,Oracle的集群与并行存储部门/RAC,IBM,SoftBay从事开发和测试工作。
演讲主题:高性能原创数据库引擎Coolhash分享
简介:Coolhash是一个java实现的k/v数据库引擎,采用并行计算引擎设计,单server能达到百万吞吐量tps,同时改进了传统hash算法,能够支持千万规模数据的秒级范围查询和任意模糊查询,Coolhash实现高性能的同时提供的是持久化存储,可以超出内存大小限制,同时Coolhash的key指针提供1对1,1对多,多对多的关联join查询的新思路,Coolhash是一个nosql数据库,但是提供了大部分sql的函数功能,还包括简单的事务处理(ACID)。CoolHash整体只有200k大小,不到1万行java代码,没有任何依赖,高度产品化和易用性强,采用apache2.0开源协议,同时支持windows和linux(unix-like),非常适合您做新型数据引擎技术的研究参考和应用。 本课题会分享数据库存储引擎技术的业界发展趋势,从裸设备存储到SSD结合内存、从缓存到持久化存储的靠近,从aerospike到Couchbase的分析,Coolhash的树型key设计思想和架构,Coolhash跟redis、leveldb的详细比较,应用场景和技术探讨等。
演讲嘉宾:彭渊 华为企业中间件首席架构师
华为企业中间件首席架构师,主要负责中间件和大数据;前淘宝高级专家(花名:千峰),先后在淘宝交易、淘宝中间件、集团核心系统、阿里金融等部门工作;曾任金蝶总体架构部SOA架构师,负责设计ESB;曾艰苦创业,编写和销售财务软件。 在Java技术领域从业十多年,撰写过多款开源软件,其中,淘宝分布式技术框架Fourinone为代表作。拥有软件著作权的代表作有:BS系列软件(包括财务进销存、OA产品、CRM等)、FMS视频会议、Flash网站生成软件(华军可下载), 数据库核心领域:CoolHash数据库引擎。 出版书籍:《大规模分布式系统架构与设计实战》。
演讲主题:HBase在阿里搜索的应用与扩展
简介:阿里集团搜索系统后台的Hadoop/HBase混合集群已经达到1000+的规模,计算+存储一体化的解决方案支撑了淘宝、天猫、B2B、Etao、云搜索等阿里全部搜索业务线。本次主题除了介绍HBase在阿里搜索技术领域的应用、优化和运维经验以外,还将介绍我们基于HBase自主研发的HQueue(消息队列)和HTunnel(HBase增量订阅服务),以及基于它们的实时计算解决方案。
演讲嘉宾:徐斌 一淘及搜索事业部离线系统团队 搜索研发专家
花名雨田,2009年毕业于华中科技大学,毕业后随即加入阿里巴巴集团,先后在阿里云和淘宝从事搜索爬虫以及分布式存储技术研究,目前负责引领阿里搜索HBase相关存储技术的研发工作,具备丰富的HBase研发、运维和应用经验。
演讲主题:深入解读JIMDB—京东分布式缓存与高速NoSQL服务
简介:主要涉及Jimdb从无到有, 从1.0到3.0,基于规模驱动和痛点驱动的研发历程包含:监控和报警,故障检测和自动切换, 迁移和扩容, 基于内存和磁盘的2级存储,基于ssd的新一代NoSQL数据库等各方面的内容。
演讲嘉宾:袁航 京东高级架构师
负责京东分布式缓存与高速NoSQL存储 - Jimdb。
演讲主题:Bada-构建主从/去中心混合架构的NoSQL
简介:在分布式NoSQL遍地开花的今天,我们为何要自主研发?如何选择从开源软件过渡到自主研发的时机?在设计时,我们参考中心化和去中心架构的特点,根据自身业务场景进行了融合,从延迟、一致性、集群伸缩方面做了权衡;面对新的混合架构,我们遇到了一些前所未有的挑战,又是如何一一解决和优化的?历经三个月的研发,一年多的线上改进,成功解决了当时面对的问题且得到了广泛认可,架构的优劣和可借鉴性由各位思考。
演讲嘉宾:王超 360基础架构团队负责人、360技术委员会委员
2011年加入360,带领团队先后打造MySQL中间件Atlas、分布式消息队列QBus、配置系统QConf、分布式NoSQL Bada以及PHPTrace 等基础系统,覆盖公司全业务线并成为服务器架构中的标准组件,包含搜索、安全、云盘、智能硬件、游戏等核心产品。
演讲主题:移动大数据管理平台实践
简介: 1、移动大数据的特点; 2、移动大数据管理平台的技术挑战; 3、TalkingData移动大数据管理平台的演进和新版大数据管理平台(π系统)的技术架构。
演讲嘉宾:阎志涛 腾云天下科技研发副总裁
领导研发了公司的数据管理平台(DMP)、数据观象台等产品,并且负责公司大数据计算平台的研发。目前专注于构建一个融合多种计算模型,支持机器学习和数据挖掘的大数据计算平台。关注Spark、Hadoop、HBase、MongoDB等技术。超过15年的IT领域从业经验,一直从事大规模分布式计算系统、中间件、BI等相关工作。 本科毕业于北京大学大气物理专业,硕士毕业于华北计算技术研究所,研究方向为分布式计算系统。在加入TalkingData之前,历任IBM CDL资深架构师,Oracle亚太区首席中间件技术顾问,BEA亚太区首席中间件技术顾问等职务。参与一系列跨国以及大型的国内的中间件、BI等项目。
演讲主题:大数据小数据,一天实现可视化分析
简介: 介绍如何通过敏捷BI的方式帮助各行业的企业进行数据分析,帮助企业解决数据分析的问题难点,将从互联网行业、金融行业、电信行业等多个行业以客户的真实需求、实际案例与解决方案作为素材进行分享。
演讲嘉宾:何春涛 永洪科技CEO
何春涛拥有近20年的商业智能和企业应用从业经验,是大数据和商业智能领域的顶级专家,对大数据、商业智能领域的发展趋势、产品技术演进有着高度的前瞻性和丰富的实践经验。 在加入永洪BI以前,何春涛曾担任知名跨国商业智能公司的研发副总裁。他领导研发团队连续10年推出了超越竞争对手的软件产品。超过一半的世界500强企业都是这些软件产品的忠实客户,其中包括麦考瑞银行、AT&T、中美人寿、IBM、通用电气等知名企业和世界卫生组织、美国国防部等知名机构。 这些软件产品也曾多次获得国际大奖,包括软件业的“奥斯卡”Jolt奖、Java One大奖和JDJ大奖。 除了大数据、商业智能等软件产品的研发之外,何春涛还在金融、电信、能源等行业拥有丰富的企业服务经验。
演讲主题:电子政务领域的大数据解决思路
简介: 新技术变迁及政府信息化飞速发展带来全新的挑战和机会,结合异构数据整合、结构化与非结构化数据融合、数据剧增后业务系统性能瓶颈等问题探讨政府领域的数据承载、交换、管理、共享、分析等经验。
演讲嘉宾:云平台软件事业部副总经理、总设计师
担任达梦公司云平台软件事业部副总经理、数据平台产品总设计师,自2006年开始承担众多政府领域数据中心项目总架构师、技术顾问,在政府领域数据中心建设方面拥有丰富的实践经验。
演讲主题:宜信大数据金融云平台实践
简介:2014年全球最大的P2P公司,宜信提出建设开放的金融云生态系统。基于宜信9年来对普惠金融和财富管理的深刻理解,并借助大数据和云计算能力,提高金融数据的开放性和流动性,为客户提供个性化的金融服务,同时也使生态系统中的合作伙伴共享互联网金融带来的红利。这次分享会主要介绍宜信大数据金融云平台的第一个实践 -商通贷,作为一款低门槛,纯线上的电商贷款产品,推出以来受到了客户和合作伙伴的高度评价。这款产品中,我们借助大数据进行精准获客,借助创新的技术手段进行征信,借助大数据搜索引擎进行风控和反欺诈,借助我们的实时授信平台进行实时授信,并利用大数据进行贷后监管等,集中展示了宜信大数据金融云平台的能力和一些核心技术。
演讲嘉宾:郑华 宜信大数据创新中心研发总监
2007年毕业于清华大学电子工程系,获得学士,硕士学位。毕业后加入美国著名视频平台Hulu工作,是Hulu最早的员工之一。离开Hulu之前是Hulu算法和数据平台团队的负责人,带领团队从头搭建并全面负责Hulu的视频推荐系统,广告精准投放平台,用户智能平台,以及大数据处理平台等。2013年加入宜信大数据创新中心任研发总监,目前负责大数据处理平台,大数据风控搜索引擎,大数据实时授信平台以及商通贷业务等。
演讲主题:大数据智能化的互联网实践-数据、挖掘、推荐引擎
简介:大数据分析和挖掘技术在互联网中已经开始得到实质性的推进和应用。经典的使用场景诸如社交网络图谱挖掘、本地O2O生活服务领域的信息推荐等。在这些应用场景中,数据都呈现了大规模、异构的特征;应用场景本身对智能化、人性化、精细化的要求也越来越高,这些都是大数据技术解决的重要问题。本次分享将就大数据智能化技术在互联网领域开展的一些工业实践经验做一些介绍和总结。
演讲嘉宾:邓雄 58同城数据智能部总监,英国帝国理工数据挖掘博士
长期从事推荐引擎、社交图谱及兴趣图谱挖掘、计算广告等方面深入研发工作,是大数据挖掘和智能系统的资深专家。他目前负责58同城大数据智能分析和挖掘推荐体系的建设。曾担任人人网应用研究中心负责人,兼任人人网清华联合实验室负责人,总体负责人人网社交网络中社交关系链挖掘、好友推荐、兴趣偏好及热点趋势挖掘、图像处理和识别的研发工作。曾从事百度商务搜索部凤巢广告系统研发。擅长产品技术创新,目前拥有10多个相关专利。
演讲主题:我眼中的生物信息学——Bioinformatics = Data + Algorithm
简介:生物信息学(Bioinformatics)是一门交叉学科,自从人类基因组测序完成,生物信息学开始飞速发展。生物信息学基本上可以认为满足下面的公式 bioinformatics = data + algorithm。从生物数据来看,生物数据的产生,采集等方面一直在不断的创新,生成了海量的多种形式的生物学数据。从算法来看,大量统计及数据挖掘的算法应用于生物领域。另外,生物信息学领域一直遵循开放原则,这也带来算法的飞速发展。本次分享将以实例介绍生物数据的收集,存储以及分析等技术。另外,也会介绍一些相关进展以及面临的挑战等。
演讲嘉宾:蔡涛 博士北京生命科学研究所 测序中心主任
2006年获北京大学生物信息学博士学位,2006年到2010年分别在北京生命科学研究所和瑞士洛桑中心医院从事博士后研究。2010年之后任北京生命科学研究所高通量测序中心主任,从事生物信息学和功能基因组学相关研究。
数据库升级与迁移实战分享
简介:数据库升级,主要和大家分享在海外电信生产系统中关于数据库升级(10gR2升级至11gR2)的实战经验。 数据迁移,分享海量数据迁移中使用外部表作为技术手段全新的数据迁移方式,对传统的数据迁移方式是一个很好的补充和借鉴。在泰国电信系统中反馈良好,多次迁移工作都快速顺利的完成。
演讲嘉宾:杨建荣 Amdocs DBA
ITPUB专家博主,Amdocs DBA,负责亚太电信系统的数据业务支持,主要负责完成了数据业务升级,数据平台迁移,数据库版本升级,数据迁移和性能调优。拥有10g OCP、OCM认证,对shell,java有一定的功底。
演讲主题:平安科技Oracle数据库升级心得分享
简介: 近几年平安科技在大量实施9I、10G Oracle数据库本地升级和迁移升级。怎么确保纷繁复杂的各类关键核心系统数据库升级前后性能稳定,怎么确保升级中或升级交付运行一段时间后出现严重问题时能尽快回滚到原版本库,怎么快速定位和解决升级交付后出现的性能问题,本次分享就这些问题和大家一起交流平安科技这几年的处理心得,以及平安科技未来将采取的升级方案。
演讲嘉宾:樊永涛 平安科技数据库技术部架构师
技术布道者,在Oracle数据库管理、性能优化、升级迁移方面有丰富的经验。现任职于平安科技(深圳)有限公司数据库技术部,当前主要负责平安Oracle数据库迁移与升级,数据库规范制定与宣导,以及向开发部门提供应用系统的数据库架构方案设计与数据库优化支持等。
演讲主题:数据库上云迁移实践分享
简介:在云计算快速发展的今天,越来越多的企业将自己的IT架构搬迁上云,而数据库又是其中核心中的核心,也是整个架构迁移过程中最为困难的一个环节,如何将其平滑地迁移到云上,有无成熟的经验可以借鉴,本次分享主要依托阿里云的RDS来分享一些数据库迁移上云的最佳实践,包括需求分析,方案制定,应用改造,数据迁移,流量切换,云上运维,希望能够帮助那些想将IT基础设施迁移上云的用户。
演讲嘉宾:玄惭 阿里巴巴数据库技术-云DBA团队-资深DBA
2010年加入阿里巴巴DBA团队担任开发DBA,负责淘宝,天猫等业务系统的数据库支持工作,精通MySQL,MSSQL,Oracle,对数据库运维,调优诊断具有丰富的经验, 2012年开始负责阿里云数据库产品运维至今,对RDS数据库系统具有很深刻的了解。
演讲主题:奇思妙想 - Oracle数据库跨平台迁移升级最佳实践
简介:随着Oracle的产品更新,Oracle重要版本10g已经退出主流舞台,国内用户迎来密集的升级和迁移周期,在这个主题中,将从多个Oracle的大型客户案例出发,分享跨越多版本(9i-11g)、异构操作系统(U2L)等复杂环境中的升级迁移方案,以及在各种项目决策过程中针对不同方案的奇思妙想的创新和实践技巧。
演讲嘉宾:李真旭 Oracle ACE,云和恩墨专项服务部技术总监
网名Roger,Oracle ACE,云和恩墨专项服务部技术总监,拥有超过7年的oracle运维管理使用经验,参与过众多移动、电信、联通、银行等大型数据库交付项目, 具有丰富的运维管理经验,对Oracle数据库管理运行机制、锁机制、优化机制等具有深入理解; 擅长Oracle数据库的performance tunning、troubleshooting以及异常恢复。
演讲主题:可扩展的大图数据管理框架和查询处理
简介:随着数据采集和存储技术的发展,社交网络、生物信息科学、交通导航等领域中出现了规模庞大、内部结构复杂、查询需求多样的大图数据。传统图算法无法满足大图数据管理需求。新型可扩展计算平台的发展为大图数据管理提供了底层支持。本报告重点讨论了基于关系数据库、基于MapReduce计算框架和基于BSP计算模型的大图数据方法,并介绍我们在以上方面的研究进展。
演讲嘉宾:高军 北京大学信息科学技术学院教授
北京大学信息学院,教授,博导。2003年7月毕业于北京大学计算机系,研究方向为分布式数据管理、图数据管理等,负责国家863课题、自然基金课题、企业课题等多项,在数据管理领域会议和期刊上发表论文多篇。
演讲主题:云数据库管理系统及在互联网领域的应用
简介:云计算变革旨为互联网产品提供弹性、成本、可用可靠性、可伸缩性更好的IT基础设置,为了达到云计算的目标,负责结构化数据管理的云数据库的实现是最大的技术挑战。浙江大学与网易合作研发的包含云数据库在内的网易私有云平台已经成功应用于易信、手游等核心产品。针对不同的产品需求,网易私有云提供了云关系数据库服务RDS、云分布式数据库服务DDB和云Redis服务NCR等三大云数据库服务。本次演讲将为大家介绍网易私有云及云数据库的设计理念与系统架构,并详细介绍RDS数据高可靠、RDS与DDB可伸缩性、多租户与资源隔离、数据库性能优化等关键技术的实现。
演讲嘉宾:陈刚 浙江大学计算机学院教授,网易研究院院长
现任浙江大学计算机学院教授,博士生导师,浙江省大数据智能计算重点实验室主任。主要研究方向为数据库与大数据处理理论与系统,包括:云数据库管理系统、分布式大数据并行处理平台、面向领域的大数据分析与应用等方面。
演讲主题:图数据库技术在知识图谱数据管理中的应用
简介:在本次的报告中,我首先回顾一些经典的按照关系数据库的方法来管理知识图谱数据。然后,我集中讨论从图数据库的观点来研究知识图谱数据管理的问题。具体的,我将讨论如何利用图数据库中的子图匹配技术来回答面向知识库中的查询。我讨论两种查询,SPARQL和自然语言关键词查询,以及如何利用子图匹配来有效地回答这两类查询。最后,我将演示我们的基于图的RDF数据管理Demo系统,gStore和gAnswer;前者是用来设计支持SPARQL 1.1的RDF存储和查询系统,后者是用来支持自然语言和关键词的RDF语义检索系统。报告中,我还将介绍现有的分布式知识图谱数据的管理的相关工作。
演讲嘉宾:邹磊 北京大学副教授
邹磊博士分别于2003年和2009年毕业于华中科技大学计算机科学与技术学院,获得工学学士和工学博士学位;其博士学位论文获得2009年中国计算机学会优秀博士学位论文提名奖。2009年9月加入北京大学计算机科学技术研究所,任讲师;并于2012年8月晋升副教授。他目前的研究领域包括图数据库,RDF知识图谱,尤其是基于图的RDF数据管理。目前他已经发表了30余篇学术论文,包括CCF-A类的国际顶级期刊/会议论文11篇,例如SIGMOD, VLDB, ICDE, TKDE, VLDB Journal等,论文被国内外同行引用超过670次。2014年10月获得中国计算机学会自然科学二等奖(排名第一)。
演讲主题:互动式在线数据分析技术与系统
简介:随着数据量的不断增长,以及大量异构数据的产生,精准数据分析的开销越来越大,获得快速的用户响应时间变得越来越具有挑战性。另一方面,各种分析需求快速增长,用户对互动式数据分析的要求更加强烈。在大数据规模上,现有的数据分析系统与技术无法有效的支撑这样的互动式数据分析需求。我们注意到在大多数数据分析应用中,精确结果往往不是必须的,高质量的近似分析结果就可以满足用户的大部分需求。在这个基础上,我们提出了互动式在线数据分析概念,并提供有效的互动式在线数据分析技术。 我们的核心思想是将大数据变成可以快速分析整合的小数据,我们将通过一个数据总结中间键来达到这个目标。我们需要数据总结中间键满足可查询和可结合的两个要求。基于这个原理,我们设计了一套高效的互动式在线数据分析技术,使得用户分析任务能过快速的得到一个近似分析结果,并且这个近似分析结果的质量随着时间的增长不断提高,直到用户停止分析进程或者系统获得了精确结果。解决方案中的一个最基本的思想就是产生满足用户查询条件的在线随机样本,并保证这些样本的完全随机独立性,以及可以不间断的生成越来越多的样本。我们也探索了将以上技术在分布式系统中的实现,设计并实现了STORM系统来支持针对多数据源异构数据的在线互动式数据分析。用户可以快速的得到高质量的近似分析结果,也可以实时更改分析条件。
演讲嘉宾:李飞飞 美国犹他大学计算机系副教授
美国犹他大学计算机系的副教授。他的研究方向是数据库系统,大数据管理理论及系统设计开发, 以及云数据管理的安全性。他获得了美国自然科学基金的Career Award, 美国惠普公司的Innovation Research Program Award, 美国谷歌公司的App Engine Award,美国谷歌公司2015年全球研发奖,国际电子电气数据工程会议 2004 最佳论文奖以及国际电子电气数据工程会议2014年10年最有影响力奖。他的研究获得了美国自然科学基金以及其他机构和公司的广泛资助, 主持超过600万美金的研发项目。 他是VLDB 2014的演示程序主席, SIGMOD 2014的大会主席,ICDE 2014 和 SIGMOD 2015的技术分领域程序主席,IEEE TKDE编委会成员,以及其他数据库及大数据领域的高级成员。
演讲主题:分布式流处理技术
简介:为应对海量、高速数据处理需求,分布式流处理模式应运而生。本次演讲将围绕相关的分布式流处理技术展开,主要涵盖以下内容:1、介绍常用大数据处理模式,以界定分布式流处理的外延;2、简要回顾分布式流处理的背景和技术演进;3、从分布式流处理系统要考虑的数据模型、系统架构、存储管理、语义保障、负载控制、容错等方面进行分析,比较现有方案的优势和不足;4、介绍分布式流处理技术的具体应用实例。
演讲嘉宾:禹晓辉 山东大学计算机学院副院长、教授、博士生导师
南京大学学士、香港中文大学硕士、加拿大多伦多大学博士,山东大学"齐鲁青年学者"特聘教授、博士生导师、计算机学院副院长,山东省"泰山学者"海外特聘专家,教育部新世纪优秀人才入选者,山东青年五四奖章获得者。曾任加拿大约克大学终身副教授。研究工作集中在数据管理与数据挖掘领域。迄今已出版英文专著2部,在TKDE、VLDB等著名国际期刊和会议上发表论文50余篇。兼任Information Systems等期刊编委,多个一流国际会议和期刊的程序委员会主席、委员或审稿人,是中国计算机学会数据库专委会委员、大数据专家委员会委员,IBM高级研究中心客座教授,NSERC特约评审人。
演讲主题:百度开放云
简介:面向企业客户的百度开放云孕育多年,整合了百度计算、存储、网络等多项国内甚至国际领先的高精尖技术,已正式对外开放,旨在为企业提供简单高效及安全可靠的云服务。其将携百度直达号等生态共建生态闭环,实现共赢。
演讲嘉宾:郑建强 百度基础架构部高级技术经理
2009年4月加入百度,作为分布式云存储方向负责人,参与和负责分布式文件系统、表格存储、对象存储、KV存储等多个国内领先的存储系统研发工作,有效支撑了百度搜索、网盘、地图等业务的海量数据,曾获得"最佳百度人"、"百度伯乐经理人"等多项荣誉,并在多项国际编程赛事中获奖,包括TopCoder Open Development Finalist、Google Code Jam 2005 10th place、ACM/ICPC Finals 2006 13th place。
演讲主题:多媒体数据流服务
简介:多媒体作为企业网站不可或缺的形式之一,其数据的多样性对于存储技术是极大的考验,另外媒体转码技术对于其最终展现的清晰度与流畅性也至关重要,本次将分享数据存储到网络CDN再到转码的全流程百度多媒体开放云服务。
演讲嘉宾:李旭 百度基础架构部研发经理
曾在英特尔等公司任职,并于2010年初加入百度,先后服务于百度联盟、凤巢、云计算等产品,其负责的内部创业产品百度移动测试中心mtc.baidu.com于2012年开放,被称为百度面向开发者提供的七利器之一,本人曾获得"百度总裁特别奖"、"百度伯乐经理人"等多项荣誉。目前负责百度开放云直达号建站、数字媒体等领域解决方案和业务系统的研发。
演讲主题:Wing - 新一代百度大数据查询引擎
简介:查询引擎(QueryEngine)是大数据处理的利器,极低的学习成本和高效的查询实现极大提高了数据分析的效率,将数据分析领入大数据时代。 Wing是百度自研的查询引擎,提供SQL-Like的HQL接口和以关系操作为API的C++接口。目前业界广泛使用的查询引擎Hive模块耦合较高,不易移植到其他计算框架,限制了二次开发的效率。开源界后续涌现的adhoc场景查询引擎如Impala、Spark SQL等,不得不重复实现查询处理逻辑。为满足不同场景而引入多个系统将会是很大的运维负担。因此在设计上,Wing专注于完成查询处理,与具体计算框架解耦,旨在成为查询处理的公共组件。这样,公共的查询处理能够在多个分布式计算系统上运行,如MapReduce、Spark等,运营代价随之降低。更重要的是,对Wing做的查询优化可以惠及所有计算系统,在多种查询场景下取得收益。在系统实现上,Wing参考了通用编译框架,系统分为前端语义分析、关系代数中间表示、查询优化、物理执行、元数据与存储等五个模块,各模块间实现了良好的解耦,具有强大的可扩展性。查询优化中,Wing不仅实现了常见的关系代数优化,同时也针对百度的具体应用场景做了许多优化。查询执行中,我们引入了LLVM技术,大大提升了表达式求值、投影、过滤等常见场景的计算效率。 Wing目前已经在百度内部推广使用,在常见的查询场景下即展现出优越性能,成为大数据处理的核心组件。
演讲嘉宾:刘成 百度大数据部资深研发工程师
百度大数据部资深研发工程师。当前是Wing引擎的核心设计和开发者。
演讲主题:百度OLAP系统实践
简介:介绍百度olap应用场景;百度olap发展过程;百度最新一代olap系统-palo的架构、关键技术和对外开放计划。palo是一个面向分析的并行数据库系统,能够在百TB~PB大数据集上提供毫秒~秒级别的实时数据分析,较好地满足了报表和多维分析的需求。目前在百度已经部署了500+台机器,上线了70多个应用,最大的单一业务数据量有300TB。本演讲会重点介绍palo在高性价比、易用性和高可用上的工作。
演讲嘉宾:王猛 百度大数据部架构师
2010年加入百度,先后从事分布式计算、分布式存储、数据系统的研发工作。2013年为百度hadoop团队技术leader,2014年开始负责百度OLAP系统的工作。