- 演讲主题:大数据基础技术发展的两大方向和最新研发成果
- 简介:Hadoop技术经过最近10年发展,已经开始深入各行业和各类应用。但从市场的反馈来看,Hadoop还没有被大面积普遍采用,主要制约因素来自两个方面:1. SQL on Hadoop的技术进展制约了企业原有应用的迁移以及新应用的开发;2. 企业在建设大数据平台或者Data Lake时,往往有多租户资源管控和弹性计算的需求,这些需求现有的YARN或者虚拟化技术没有满足。
本次演讲将介绍星环科技在这两方面的最新突破,首先介绍星环科技在对SQL2003和PL/SQL支持上的多种优化技术,可帮助企业快速完成应用迁移和部署;其次介绍星环科技的最新产品,结合Hadoop和Docker技术,如何实现细粒度的资源管理和调度。
- 演讲嘉宾:孙元浩 星环科技CTO
- 著名大数据专家,中国Hadoop技术应用及产品化的领军人物。曾任英特尔亚太研发有限公司数据中心软件部亚太区CTO。2013年离开英特尔创办星环科技,致力于Hadoop之上的高效计算引擎和数据分析算法的研发。
- 演讲主题:谈Pcie ssd在数据库优化中的作用II之颠覆性创新(存储篇)
- 简介:随着闪存在数据库优化中的普遍使用,利用闪存的某些特性甚至可以颠覆我们对传统存储的通常认识。究竟哪些是对传统存储的颠覆性创新?究竟能给数据库优化带来什么作用?那就让我们来聊聊闪存特性如何让DBA们如虎添翼!
- 演讲嘉宾:吕智超 上海宝存信息科技有限公司 高级系统工程师
-
- 演讲主题:Write optimization in external-memory data structures
- 简介:After a long reign as the dominant on-disk data structure for databases and filesystems, B-trees are slowly being replaced by write-optimized data structures, to handle ever-growing volumes of data. Some write optimization techniques, like LSM-trees, give up some of the query performance of B-trees in order to achieve this.
A Fractal Tree is a write-optimized data structure that matches the insertion performance of an LSM-tree while maintaining the optimal query performance of a B-tree. It's inspired by many data structures (Buffered Repository Trees, B^? trees, ...) but the real definition is just what we've implemented at Tokutek.
I'll provide background on B-trees and LSM-trees, an overview of how Fractal Trees work, where they differ from B-trees and LSM-trees, and how we use their performance advantages in some obvious and some surprising ways to power new MySQL and MongoDB features in TokuDB and TokuMX.
- 演讲嘉宾:Leif Walsh TokuDB首席工程师
- Leif Walsh is a senior engineer and distributed systems expert at Tokutek, working on the Fractal Tree indexing library and on TokuMX. At Microsoft he did performance monitoring and evaluation for embedded networking applications. Before that, he worked on the early implementation of RethinkDB. He also spent two internships at Google building internal and external web applications with BigTable. Leif holds bachelor's degrees in Math and Computer Science from Stony Brook University, where he also did filesystems and cryptography research.
- 演讲主题:阿里数据库架构变迁与展望
- 简介:阿里巴巴集团业务压力之大,场景之复杂,在中国乃至全世界都屈指可数,集团整个数据库体系可以说是一直被业务追着跑步前进,一刻也没有停歇。
无论是IOE架构的Oracle时代,还是AliSQL的分布式时代,以及轰轰烈烈充满各种争议的去IOE行为,
阿里巴巴数据库团队一次又一次引领并推动了中国数据库产业的变革和发展。
历史发展到今天,阿里巴巴的数据库体系走向何方,如何支撑集团业务未来5到10年的快速发展,
单元化架构和OceanBase是我们给出的答案,借2015 DTCC数据库大会的机会,我将为大家阐述阿里巴巴数据库团队是如何思考的。
- 演讲嘉宾:李圣淘 阿里集团数据库专家兼淘宝DBA团队主管
- 花名刘昆,10年数据库经历,2009年加入阿里巴巴集团数据库团队,历经淘宝6年双十一大促保障。
目前主要负责支持集团电商业务板块,牵头数据库体系单元化,云化改造项目。
- 演讲主题:58同城数据库设计实践
- 简介:58同城数据库设计上的经验分享,包括几个方面: 一、58同城数据库设计常见问题及解决方案1、数据量太大,怎么办? 2、数据可用性如何保证? 3、不同读写比的业务,数据库如何设计? 4、数据库字段如何无缝扩充,数据库导表如何无缝迁移? 二、58同城各类业务场景数据库拆库解决方案:1、用户库-单key场景如何拆库? 2、帖子库-双key场景如何拆库? 3、好友库-"关注"与"粉丝"场景如何拆库? 4、 订单库-三key场景如何拆库? 三、58同城拆库后出现的问题及解决方案 1、分库后,in查询如何实现? 2、分库后,非key查询如何实现? 3 、分库后,夸库分页如何实现? 4、分库后,order by + offset + limit如何实现? 四、58同城数据库中间件初探。
- 演讲嘉宾:沈剑 58同城高级架构师,技术委员会主席
- 曾任百度高级工程师,参与过多个百度HI重大项目的研发,后加盟58同城,任58同城高级系统架构师,技术委员会主席,产品技术学院优秀讲师。负责过58同城即时通讯,支付系统重构,摊销系统重构,数据库中间件,58同城推荐系统,58同城商户平台App等多个系统与项目的设计与实现。曾多次代表58同城作为嘉宾参与系统架构师大会、velocity、top100summit等技术会议,分享58同城的架构技术。
- 演讲主题:运营商去O浅析
- 简介:
1、去O的背景;
2、去O的驱动分析;
3、运营商去O的技术难点以及应对策略分析;
4、运营商去O的一些经验和建议;
- 演讲嘉宾:王晓征 浙江移动信息技术部总经理助理
- Oracle 9I OCM(2003年),现任中国移动通信集团浙江有限公司信息技术部总经理助理,中国移动集团业务支撑高级技术专家,高级工程师职称,1997年中国足球乙级联赛注册球员。
- 演讲主题:去哪儿Inception自动审核系统设计与实现
- 简介:1、列举当前各个公司普遍采用的MySQL审核方法,分别提出它们的优点及缺点;
2、介绍Inception审核系统的实现必要性,架构及实现方式,说明Inception的优点;
3、介绍Inception审核系统的使用方法,提供的接口、审核结果返回方式等;
4、介绍Inception审核系统在内部实现的执行流程,介绍具体是如何实现的;
5、介绍Inception审核系统的一个核心功能——备份回滚;
6、介绍Inception的问题改进及功能的展望。
- 演讲嘉宾:王竹峰 去哪儿网DBA
- 毕业于华中科技大学数据库研究所,资深MySQL数据库专家,不仅擅长数据库的开发,还擅长数据库的管理和维护,一直致力于MySQL数据库源码的研究与探索,对数据库原理及实现具有深刻的理解。先后就职于上海达梦数据库、人人网,现任去哪儿高级DBA,负责MySQL数据库运维及相关开发工作。
- 演讲主题:TDSQL在微众银行核心交易系统中的实践
- 简介:
1、基于MySQL为金融场景定制的分布式数据库TDSQL架构分享;
2、TDSQL在微众银行核心交易系统的应用实践。
- 演讲嘉宾:雷海林 腾讯公司高级软件工程师
- 主要负责部门实时计费系统的数据层整体解决方案的架构设计和开发;超过10年的Linux后台开发经验,在Linux内核,高性能Server开发,分布式Cache,MySQL数据库内核开发等方面有丰富经验;
- 演讲主题:MariaDB新特性剖析
-
简介:主要介绍MariaDB的历史以及MariaDB的主要新特性,并且对
MariaDB线程池、binlog group commit技术以及多源复制等新特性
从原理到实现进行深入地剖析。
- 演讲嘉宾:张金鹏 京东云MySQL数据库技术专家
- 图灵新书《MariaDB原理和实现》作者。专注于MySQL内核研究以及Linux内核等其他系统技术的研究。
- 演讲主题:PostgreSQL高可用的一种新方案
- 简介:目前PostgreSQL数据库的高可用性方案选择面比较多,有商业的,也有非商业的,能支持7*24*365关键应用的方案不多。这个演讲将展示我们设计/实现的一种新的高可用方案,用于支持PostgreSQL数据库在RTO/RPO要求都非常高的环境下,支持像金融/银行/电信等要求7*24*365不停机的关键应用/业务,达到高可用和容灾的目的。
- 演讲嘉宾:朱贤文 文武信息技术创始人
- 在IT领域有超过16年工作经验,熟悉数据库(Oracle/PostgreSQL),集群(CRS/VCS ...),存储,文件系统,容灾与备份。曾在Symantec的存储部门/SAMG,Oracle的集群与并行存储部门/RAC,IBM,SoftBay从事开发和测试工作。
- 演讲主题:高性能原创数据库引擎Coolhash分享
- 简介:Coolhash是一个java实现的k/v数据库引擎,采用并行计算引擎设计,单server能达到百万吞吐量tps,同时改进了传统hash算法,能够支持千万规模数据的秒级范围查询和任意模糊查询,Coolhash实现高性能的同时提供的是持久化存储,可以超出内存大小限制,同时Coolhash的key指针提供1对1,1对多,多对多的关联join查询的新思路,Coolhash是一个nosql数据库,但是提供了大部分sql的函数功能,还包括简单的事务处理(ACID)。CoolHash整体只有200k大小,不到1万行java代码,没有任何依赖,高度产品化和易用性强,采用apache2.0开源协议,同时支持windows和linux(unix-like),非常适合您做新型数据引擎技术的研究参考和应用。
本课题会分享数据库存储引擎技术的业界发展趋势,从裸设备存储到SSD结合内存、从缓存到持久化存储的靠近,从aerospike到Couchbase的分析,Coolhash的树型key设计思想和架构,Coolhash跟redis、leveldb的详细比较,应用场景和技术探讨等。
- 演讲嘉宾:彭渊 华为企业中间件首席架构师
- 华为企业中间件首席架构师,主要负责中间件和大数据;前淘宝高级专家(花名:千峰),先后在淘宝交易、淘宝中间件、集团核心系统、阿里金融等部门工作;曾任金蝶总体架构部SOA架构师,负责设计ESB;曾艰苦创业,编写和销售财务软件。
在Java技术领域从业十多年,撰写过多款开源软件,其中,淘宝分布式技术框架Fourinone为代表作。拥有软件著作权的代表作有:BS系列软件(包括财务进销存、OA产品、CRM等)、FMS视频会议、Flash网站生成软件(华军可下载),
数据库核心领域:CoolHash数据库引擎。
出版书籍:《大规模分布式系统架构与设计实战》。
- 演讲主题:HBase在阿里搜索的应用与扩展
- 简介:阿里集团搜索系统后台的Hadoop/HBase混合集群已经达到1000+的规模,计算+存储一体化的解决方案支撑了淘宝、天猫、B2B、Etao、云搜索等阿里全部搜索业务线。本次主题除了介绍HBase在阿里搜索技术领域的应用、优化和运维经验以外,还将介绍我们基于HBase自主研发的HQueue(消息队列)和HTunnel(HBase增量订阅服务),以及基于它们的实时计算解决方案。
- 演讲嘉宾:徐斌 一淘及搜索事业部离线系统团队 搜索研发专家
- 花名雨田,2009年毕业于华中科技大学,毕业后随即加入阿里巴巴集团,先后在阿里云和淘宝从事搜索爬虫以及分布式存储技术研究,目前负责引领阿里搜索HBase相关存储技术的研发工作,具备丰富的HBase研发、运维和应用经验。
- 演讲主题:深入解读JIMDB—京东分布式缓存与高速NoSQL服务
- 简介:主要涉及Jimdb从无到有, 从1.0到3.0,基于规模驱动和痛点驱动的研发历程包含:监控和报警,故障检测和自动切换, 迁移和扩容, 基于内存和磁盘的2级存储,基于ssd的新一代NoSQL数据库等各方面的内容。
- 演讲嘉宾:袁航 京东高级架构师
- 负责京东分布式缓存与高速NoSQL存储 - Jimdb。
- 演讲主题:Bada-构建主从/去中心混合架构的NoSQL
- 简介:在分布式NoSQL遍地开花的今天,我们为何要自主研发?如何选择从开源软件过渡到自主研发的时机?在设计时,我们参考中心化和去中心架构的特点,根据自身业务场景进行了融合,从延迟、一致性、集群伸缩方面做了权衡;面对新的混合架构,我们遇到了一些前所未有的挑战,又是如何一一解决和优化的?历经三个月的研发,一年多的线上改进,成功解决了当时面对的问题且得到了广泛认可,架构的优劣和可借鉴性由各位思考。
- 演讲嘉宾:王超 360基础架构团队负责人、360技术委员会委员
- 2011年加入360,带领团队先后打造MySQL中间件Atlas、分布式消息队列QBus、配置系统QConf、分布式NoSQL Bada以及PHPTrace 等基础系统,覆盖公司全业务线并成为服务器架构中的标准组件,包含搜索、安全、云盘、智能硬件、游戏等核心产品。
- 演讲主题:移动大数据管理平台实践
- 简介:
1、移动大数据的特点;
2、移动大数据管理平台的技术挑战;
3、TalkingData移动大数据管理平台的演进和新版大数据管理平台(π系统)的技术架构。
- 演讲嘉宾:阎志涛 腾云天下科技研发副总裁
- 领导研发了公司的数据管理平台(DMP)、数据观象台等产品,并且负责公司大数据计算平台的研发。目前专注于构建一个融合多种计算模型,支持机器学习和数据挖掘的大数据计算平台。关注Spark、Hadoop、HBase、MongoDB等技术。超过15年的IT领域从业经验,一直从事大规模分布式计算系统、中间件、BI等相关工作。
本科毕业于北京大学大气物理专业,硕士毕业于华北计算技术研究所,研究方向为分布式计算系统。在加入TalkingData之前,历任IBM CDL资深架构师,Oracle亚太区首席中间件技术顾问,BEA亚太区首席中间件技术顾问等职务。参与一系列跨国以及大型的国内的中间件、BI等项目。
- 演讲主题:大数据小数据,一天实现可视化分析
- 简介:
介绍如何通过敏捷BI的方式帮助各行业的企业进行数据分析,帮助企业解决数据分析的问题难点,将从互联网行业、金融行业、电信行业等多个行业以客户的真实需求、实际案例与解决方案作为素材进行分享。
- 演讲嘉宾:何春涛 永洪科技CEO
- 何春涛拥有近20年的商业智能和企业应用从业经验,是大数据和商业智能领域的顶级专家,对大数据、商业智能领域的发展趋势、产品技术演进有着高度的前瞻性和丰富的实践经验。
在加入永洪BI以前,何春涛曾担任知名跨国商业智能公司的研发副总裁。他领导研发团队连续10年推出了超越竞争对手的软件产品。超过一半的世界500强企业都是这些软件产品的忠实客户,其中包括麦考瑞银行、AT&T、中美人寿、IBM、通用电气等知名企业和世界卫生组织、美国国防部等知名机构。
这些软件产品也曾多次获得国际大奖,包括软件业的“奥斯卡”Jolt奖、Java One大奖和JDJ大奖。
除了大数据、商业智能等软件产品的研发之外,何春涛还在金融、电信、能源等行业拥有丰富的企业服务经验。
- 演讲主题:电子政务领域的大数据解决思路
- 简介:
新技术变迁及政府信息化飞速发展带来全新的挑战和机会,结合异构数据整合、结构化与非结构化数据融合、数据剧增后业务系统性能瓶颈等问题探讨政府领域的数据承载、交换、管理、共享、分析等经验。
- 演讲嘉宾:云平台软件事业部副总经理、总设计师
- 担任达梦公司云平台软件事业部副总经理、数据平台产品总设计师,自2006年开始承担众多政府领域数据中心项目总架构师、技术顾问,在政府领域数据中心建设方面拥有丰富的实践经验。
- 演讲主题:宜信大数据金融云平台实践
- 简介:2014年全球最大的P2P公司,宜信提出建设开放的金融云生态系统。基于宜信9年来对普惠金融和财富管理的深刻理解,并借助大数据和云计算能力,提高金融数据的开放性和流动性,为客户提供个性化的金融服务,同时也使生态系统中的合作伙伴共享互联网金融带来的红利。这次分享会主要介绍宜信大数据金融云平台的第一个实践 -商通贷,作为一款低门槛,纯线上的电商贷款产品,推出以来受到了客户和合作伙伴的高度评价。这款产品中,我们借助大数据进行精准获客,借助创新的技术手段进行征信,借助大数据搜索引擎进行风控和反欺诈,借助我们的实时授信平台进行实时授信,并利用大数据进行贷后监管等,集中展示了宜信大数据金融云平台的能力和一些核心技术。
- 演讲嘉宾:郑华 宜信大数据创新中心研发总监
- 2007年毕业于清华大学电子工程系,获得学士,硕士学位。毕业后加入美国著名视频平台Hulu工作,是Hulu最早的员工之一。离开Hulu之前是Hulu算法和数据平台团队的负责人,带领团队从头搭建并全面负责Hulu的视频推荐系统,广告精准投放平台,用户智能平台,以及大数据处理平台等。2013年加入宜信大数据创新中心任研发总监,目前负责大数据处理平台,大数据风控搜索引擎,大数据实时授信平台以及商通贷业务等。
- 演讲主题:大数据智能化的互联网实践-数据、挖掘、推荐引擎
- 简介:大数据分析和挖掘技术在互联网中已经开始得到实质性的推进和应用。经典的使用场景诸如社交网络图谱挖掘、本地O2O生活服务领域的信息推荐等。在这些应用场景中,数据都呈现了大规模、异构的特征;应用场景本身对智能化、人性化、精细化的要求也越来越高,这些都是大数据技术解决的重要问题。本次分享将就大数据智能化技术在互联网领域开展的一些工业实践经验做一些介绍和总结。
- 演讲嘉宾:邓雄 58同城数据智能部总监,英国帝国理工数据挖掘博士
- 长期从事推荐引擎、社交图谱及兴趣图谱挖掘、计算广告等方面深入研发工作,是大数据挖掘和智能系统的资深专家。他目前负责58同城大数据智能分析和挖掘推荐体系的建设。曾担任人人网应用研究中心负责人,兼任人人网清华联合实验室负责人,总体负责人人网社交网络中社交关系链挖掘、好友推荐、兴趣偏好及热点趋势挖掘、图像处理和识别的研发工作。曾从事百度商务搜索部凤巢广告系统研发。擅长产品技术创新,目前拥有10多个相关专利。
- 演讲主题:我眼中的生物信息学——Bioinformatics = Data + Algorithm
- 简介:生物信息学(Bioinformatics)是一门交叉学科,自从人类基因组测序完成,生物信息学开始飞速发展。生物信息学基本上可以认为满足下面的公式 bioinformatics = data + algorithm。从生物数据来看,生物数据的产生,采集等方面一直在不断的创新,生成了海量的多种形式的生物学数据。从算法来看,大量统计及数据挖掘的算法应用于生物领域。另外,生物信息学领域一直遵循开放原则,这也带来算法的飞速发展。本次分享将以实例介绍生物数据的收集,存储以及分析等技术。另外,也会介绍一些相关进展以及面临的挑战等。
- 演讲嘉宾:蔡涛 博士北京生命科学研究所 测序中心主任
- 2006年获北京大学生物信息学博士学位,2006年到2010年分别在北京生命科学研究所和瑞士洛桑中心医院从事博士后研究。2010年之后任北京生命科学研究所高通量测序中心主任,从事生物信息学和功能基因组学相关研究。
- 数据库升级与迁移实战分享
- 简介:数据库升级,主要和大家分享在海外电信生产系统中关于数据库升级(10gR2升级至11gR2)的实战经验。
数据迁移,分享海量数据迁移中使用外部表作为技术手段全新的数据迁移方式,对传统的数据迁移方式是一个很好的补充和借鉴。在泰国电信系统中反馈良好,多次迁移工作都快速顺利的完成。
- 演讲嘉宾:杨建荣 Amdocs DBA
- ITPUB专家博主,Amdocs DBA,负责亚太电信系统的数据业务支持,主要负责完成了数据业务升级,数据平台迁移,数据库版本升级,数据迁移和性能调优。拥有10g OCP、OCM认证,对shell,java有一定的功底。
- 演讲主题:平安科技Oracle数据库升级心得分享
- 简介:
近几年平安科技在大量实施9I、10G Oracle数据库本地升级和迁移升级。怎么确保纷繁复杂的各类关键核心系统数据库升级前后性能稳定,怎么确保升级中或升级交付运行一段时间后出现严重问题时能尽快回滚到原版本库,怎么快速定位和解决升级交付后出现的性能问题,本次分享就这些问题和大家一起交流平安科技这几年的处理心得,以及平安科技未来将采取的升级方案。
- 演讲嘉宾:樊永涛 平安科技数据库技术部架构师
- 技术布道者,在Oracle数据库管理、性能优化、升级迁移方面有丰富的经验。现任职于平安科技(深圳)有限公司数据库技术部,当前主要负责平安Oracle数据库迁移与升级,数据库规范制定与宣导,以及向开发部门提供应用系统的数据库架构方案设计与数据库优化支持等。
- 演讲主题:数据库上云迁移实践分享
- 简介:在云计算快速发展的今天,越来越多的企业将自己的IT架构搬迁上云,而数据库又是其中核心中的核心,也是整个架构迁移过程中最为困难的一个环节,如何将其平滑地迁移到云上,有无成熟的经验可以借鉴,本次分享主要依托阿里云的RDS来分享一些数据库迁移上云的最佳实践,包括需求分析,方案制定,应用改造,数据迁移,流量切换,云上运维,希望能够帮助那些想将IT基础设施迁移上云的用户。
- 演讲嘉宾:玄惭 阿里巴巴数据库技术-云DBA团队-资深DBA
- 2010年加入阿里巴巴DBA团队担任开发DBA,负责淘宝,天猫等业务系统的数据库支持工作,精通MySQL,MSSQL,Oracle,对数据库运维,调优诊断具有丰富的经验, 2012年开始负责阿里云数据库产品运维至今,对RDS数据库系统具有很深刻的了解。
- 演讲主题:奇思妙想 - Oracle数据库跨平台迁移升级最佳实践
- 简介:随着Oracle的产品更新,Oracle重要版本10g已经退出主流舞台,国内用户迎来密集的升级和迁移周期,在这个主题中,将从多个Oracle的大型客户案例出发,分享跨越多版本(9i-11g)、异构操作系统(U2L)等复杂环境中的升级迁移方案,以及在各种项目决策过程中针对不同方案的奇思妙想的创新和实践技巧。
- 演讲嘉宾:李真旭 Oracle ACE,云和恩墨专项服务部技术总监
- 网名Roger,Oracle ACE,云和恩墨专项服务部技术总监,拥有超过7年的oracle运维管理使用经验,参与过众多移动、电信、联通、银行等大型数据库交付项目,
具有丰富的运维管理经验,对Oracle数据库管理运行机制、锁机制、优化机制等具有深入理解;
擅长Oracle数据库的performance tunning、troubleshooting以及异常恢复。
- 演讲主题:可扩展的大图数据管理框架和查询处理
- 简介:随着数据采集和存储技术的发展,社交网络、生物信息科学、交通导航等领域中出现了规模庞大、内部结构复杂、查询需求多样的大图数据。传统图算法无法满足大图数据管理需求。新型可扩展计算平台的发展为大图数据管理提供了底层支持。本报告重点讨论了基于关系数据库、基于MapReduce计算框架和基于BSP计算模型的大图数据方法,并介绍我们在以上方面的研究进展。
- 演讲嘉宾:高军 北京大学信息科学技术学院教授
- 北京大学信息学院,教授,博导。2003年7月毕业于北京大学计算机系,研究方向为分布式数据管理、图数据管理等,负责国家863课题、自然基金课题、企业课题等多项,在数据管理领域会议和期刊上发表论文多篇。
- 演讲主题:云数据库管理系统及在互联网领域的应用
- 简介:云计算变革旨为互联网产品提供弹性、成本、可用可靠性、可伸缩性更好的IT基础设置,为了达到云计算的目标,负责结构化数据管理的云数据库的实现是最大的技术挑战。浙江大学与网易合作研发的包含云数据库在内的网易私有云平台已经成功应用于易信、手游等核心产品。针对不同的产品需求,网易私有云提供了云关系数据库服务RDS、云分布式数据库服务DDB和云Redis服务NCR等三大云数据库服务。本次演讲将为大家介绍网易私有云及云数据库的设计理念与系统架构,并详细介绍RDS数据高可靠、RDS与DDB可伸缩性、多租户与资源隔离、数据库性能优化等关键技术的实现。
- 演讲嘉宾:陈刚 浙江大学计算机学院教授,网易研究院院长
- 现任浙江大学计算机学院教授,博士生导师,浙江省大数据智能计算重点实验室主任。主要研究方向为数据库与大数据处理理论与系统,包括:云数据库管理系统、分布式大数据并行处理平台、面向领域的大数据分析与应用等方面。
- 演讲主题:图数据库技术在知识图谱数据管理中的应用
- 简介:在本次的报告中,我首先回顾一些经典的按照关系数据库的方法来管理知识图谱数据。然后,我集中讨论从图数据库的观点来研究知识图谱数据管理的问题。具体的,我将讨论如何利用图数据库中的子图匹配技术来回答面向知识库中的查询。我讨论两种查询,SPARQL和自然语言关键词查询,以及如何利用子图匹配来有效地回答这两类查询。最后,我将演示我们的基于图的RDF数据管理Demo系统,gStore和gAnswer;前者是用来设计支持SPARQL 1.1的RDF存储和查询系统,后者是用来支持自然语言和关键词的RDF语义检索系统。报告中,我还将介绍现有的分布式知识图谱数据的管理的相关工作。
- 演讲嘉宾:邹磊 北京大学副教授
- 邹磊博士分别于2003年和2009年毕业于华中科技大学计算机科学与技术学院,获得工学学士和工学博士学位;其博士学位论文获得2009年中国计算机学会优秀博士学位论文提名奖。2009年9月加入北京大学计算机科学技术研究所,任讲师;并于2012年8月晋升副教授。他目前的研究领域包括图数据库,RDF知识图谱,尤其是基于图的RDF数据管理。目前他已经发表了30余篇学术论文,包括CCF-A类的国际顶级期刊/会议论文11篇,例如SIGMOD, VLDB, ICDE, TKDE, VLDB Journal等,论文被国内外同行引用超过670次。2014年10月获得中国计算机学会自然科学二等奖(排名第一)。
- 演讲主题:互动式在线数据分析技术与系统
- 简介:随着数据量的不断增长,以及大量异构数据的产生,精准数据分析的开销越来越大,获得快速的用户响应时间变得越来越具有挑战性。另一方面,各种分析需求快速增长,用户对互动式数据分析的要求更加强烈。在大数据规模上,现有的数据分析系统与技术无法有效的支撑这样的互动式数据分析需求。我们注意到在大多数数据分析应用中,精确结果往往不是必须的,高质量的近似分析结果就可以满足用户的大部分需求。在这个基础上,我们提出了互动式在线数据分析概念,并提供有效的互动式在线数据分析技术。
我们的核心思想是将大数据变成可以快速分析整合的小数据,我们将通过一个数据总结中间键来达到这个目标。我们需要数据总结中间键满足可查询和可结合的两个要求。基于这个原理,我们设计了一套高效的互动式在线数据分析技术,使得用户分析任务能过快速的得到一个近似分析结果,并且这个近似分析结果的质量随着时间的增长不断提高,直到用户停止分析进程或者系统获得了精确结果。解决方案中的一个最基本的思想就是产生满足用户查询条件的在线随机样本,并保证这些样本的完全随机独立性,以及可以不间断的生成越来越多的样本。我们也探索了将以上技术在分布式系统中的实现,设计并实现了STORM系统来支持针对多数据源异构数据的在线互动式数据分析。用户可以快速的得到高质量的近似分析结果,也可以实时更改分析条件。
- 演讲嘉宾:李飞飞 美国犹他大学计算机系副教授
- 美国犹他大学计算机系的副教授。他的研究方向是数据库系统,大数据管理理论及系统设计开发,
以及云数据管理的安全性。他获得了美国自然科学基金的Career Award, 美国惠普公司的Innovation Research
Program Award, 美国谷歌公司的App Engine Award,美国谷歌公司2015年全球研发奖,国际电子电气数据工程会议
2004 最佳论文奖以及国际电子电气数据工程会议2014年10年最有影响力奖。他的研究获得了美国自然科学基金以及其他机构和公司的广泛资助,
主持超过600万美金的研发项目。 他是VLDB 2014的演示程序主席, SIGMOD 2014的大会主席,ICDE 2014 和
SIGMOD 2015的技术分领域程序主席,IEEE TKDE编委会成员,以及其他数据库及大数据领域的高级成员。
- 演讲主题:分布式流处理技术
- 简介:为应对海量、高速数据处理需求,分布式流处理模式应运而生。本次演讲将围绕相关的分布式流处理技术展开,主要涵盖以下内容:1、介绍常用大数据处理模式,以界定分布式流处理的外延;2、简要回顾分布式流处理的背景和技术演进;3、从分布式流处理系统要考虑的数据模型、系统架构、存储管理、语义保障、负载控制、容错等方面进行分析,比较现有方案的优势和不足;4、介绍分布式流处理技术的具体应用实例。
- 演讲嘉宾:禹晓辉 山东大学计算机学院副院长、教授、博士生导师
- 南京大学学士、香港中文大学硕士、加拿大多伦多大学博士,山东大学"齐鲁青年学者"特聘教授、博士生导师、计算机学院副院长,山东省"泰山学者"海外特聘专家,教育部新世纪优秀人才入选者,山东青年五四奖章获得者。曾任加拿大约克大学终身副教授。研究工作集中在数据管理与数据挖掘领域。迄今已出版英文专著2部,在TKDE、VLDB等著名国际期刊和会议上发表论文50余篇。兼任Information
Systems等期刊编委,多个一流国际会议和期刊的程序委员会主席、委员或审稿人,是中国计算机学会数据库专委会委员、大数据专家委员会委员,IBM高级研究中心客座教授,NSERC特约评审人。
- 演讲主题:百度开放云
- 简介:面向企业客户的百度开放云孕育多年,整合了百度计算、存储、网络等多项国内甚至国际领先的高精尖技术,已正式对外开放,旨在为企业提供简单高效及安全可靠的云服务。其将携百度直达号等生态共建生态闭环,实现共赢。
- 演讲嘉宾:郑建强 百度基础架构部高级技术经理
- 2009年4月加入百度,作为分布式云存储方向负责人,参与和负责分布式文件系统、表格存储、对象存储、KV存储等多个国内领先的存储系统研发工作,有效支撑了百度搜索、网盘、地图等业务的海量数据,曾获得"最佳百度人"、"百度伯乐经理人"等多项荣誉,并在多项国际编程赛事中获奖,包括TopCoder Open Development Finalist、Google Code Jam 2005 10th place、ACM/ICPC Finals 2006 13th place。
- 演讲主题:多媒体数据流服务
- 简介:多媒体作为企业网站不可或缺的形式之一,其数据的多样性对于存储技术是极大的考验,另外媒体转码技术对于其最终展现的清晰度与流畅性也至关重要,本次将分享数据存储到网络CDN再到转码的全流程百度多媒体开放云服务。
- 演讲嘉宾:李旭 百度基础架构部研发经理
- 曾在英特尔等公司任职,并于2010年初加入百度,先后服务于百度联盟、凤巢、云计算等产品,其负责的内部创业产品百度移动测试中心mtc.baidu.com于2012年开放,被称为百度面向开发者提供的七利器之一,本人曾获得"百度总裁特别奖"、"百度伯乐经理人"等多项荣誉。目前负责百度开放云直达号建站、数字媒体等领域解决方案和业务系统的研发。
- 演讲主题:Wing - 新一代百度大数据查询引擎
- 简介:查询引擎(QueryEngine)是大数据处理的利器,极低的学习成本和高效的查询实现极大提高了数据分析的效率,将数据分析领入大数据时代。
Wing是百度自研的查询引擎,提供SQL-Like的HQL接口和以关系操作为API的C++接口。目前业界广泛使用的查询引擎Hive模块耦合较高,不易移植到其他计算框架,限制了二次开发的效率。开源界后续涌现的adhoc场景查询引擎如Impala、Spark SQL等,不得不重复实现查询处理逻辑。为满足不同场景而引入多个系统将会是很大的运维负担。因此在设计上,Wing专注于完成查询处理,与具体计算框架解耦,旨在成为查询处理的公共组件。这样,公共的查询处理能够在多个分布式计算系统上运行,如MapReduce、Spark等,运营代价随之降低。更重要的是,对Wing做的查询优化可以惠及所有计算系统,在多种查询场景下取得收益。在系统实现上,Wing参考了通用编译框架,系统分为前端语义分析、关系代数中间表示、查询优化、物理执行、元数据与存储等五个模块,各模块间实现了良好的解耦,具有强大的可扩展性。查询优化中,Wing不仅实现了常见的关系代数优化,同时也针对百度的具体应用场景做了许多优化。查询执行中,我们引入了LLVM技术,大大提升了表达式求值、投影、过滤等常见场景的计算效率。
Wing目前已经在百度内部推广使用,在常见的查询场景下即展现出优越性能,成为大数据处理的核心组件。
- 演讲嘉宾:刘成 百度大数据部资深研发工程师
- 百度大数据部资深研发工程师。当前是Wing引擎的核心设计和开发者。
- 演讲主题:百度OLAP系统实践
- 简介:介绍百度olap应用场景;百度olap发展过程;百度最新一代olap系统-palo的架构、关键技术和对外开放计划。palo是一个面向分析的并行数据库系统,能够在百TB~PB大数据集上提供毫秒~秒级别的实时数据分析,较好地满足了报表和多维分析的需求。目前在百度已经部署了500+台机器,上线了70多个应用,最大的单一业务数据量有300TB。本演讲会重点介绍palo在高性价比、易用性和高可用上的工作。
- 演讲嘉宾:王猛 百度大数据部架构师
- 2010年加入百度,先后从事分布式计算、分布式存储、数据系统的研发工作。2013年为百度hadoop团队技术leader,2014年开始负责百度OLAP系统的工作。
- 演讲主题:风云再起 - 后IOE时代的Oracle架构变迁与创新
- 简介:随着国内"去IOE"浪潮的起伏,Oracle在中国市场同样面临了来自技术与政策方面的双重挑战,一方面Oracle作为关系型数据库的王者,在分布式、开源开放等方面面临NoSQL等产品技术在细分市场的挑战,另一方面在政策上面临来自国产化、安全合规的挑战;在这个主题中,将和大家分享Oracle在云时代兴起之际的技术革新与挑战应对。
Oracle数据库技术的演进离不开多租户架构、内存选件、RAC集群与Exadata一体化,在这个主题中将深入剖析这些核心技术的发展脉络和Oracle的产品策略,并分析在未来,Oracle在分布式、Sharding等技术方面的必然革新。
- 演讲嘉宾:盖国强 云和恩墨创始人,ACE总监,ITPUB版主
- 盖国强先生是中国地区首位Oracle ACE和ACE总监,曾获评"2006年中国首届杰出数据库工程师"奖,拥有近15年的数据库实施和顾问咨询经验,对于数据库性能优化及内部技术具有深入理解。盖国强先生是中国地区最著名的Oracle技术推广者之一,他的专著《深入解析Oracle》、《循序渐进Oracle》等书籍受到Oracle技术爱好者的广泛好评,他主编撰写的《OracleDBA手记》系列作品是Oracle技术爱好者们分享和传播技术的重要书籍。2009年,盖国强先生创建了云和恩墨,致力于为中国数据库用户提供专业的数据库服务,2010年,他与Oracle ACE总监张乐奕先生共同创立ACOUG(中国Oracle用户组),持续推动Oracle技术圈的地面活动与技术交流。
- 演讲主题:大学习-发现学习中的大数据
- 简介:随着MOOC等线上学习新形态的发展,搜集和分析学习者的学习行为进行自适应学习(adaptive learning)和体验优化成为信息技术在教育行业的重要应用。报告着重讲述大学习(Big Learning ),结合线上学习平台开课吧的实践案例分享,阐述大数据等新一代信息技术在推进学习效率、提升学习体验和促进学习交流方面能够发挥的作用,呼吁更多的数据科学研究和工程实践者关注教育学习领域。
- 演讲嘉宾:陈滢 慧科教育集团高级副总裁、慧科教育研究院院长
- 陈滢博士现任慧科教育集团高级副总裁,慧科教育研究院院长,长期关注并致力于研究云计算、大数据、物联网、智慧城市和教育等领域。在国内外学术期刊和会议上发表论文60余篇,在美国和其他国家获得专利40余项,合著有《虚拟化与云计算》等四部云计算书籍。曾担任IBM中国研究院副院长,目前在多所大学受邀担任兼职教授。
- 演讲主题:维多利亚的秘密 - 发现隐藏在互联网架构冰山下的性能问题
- 简介:互联网架构越来越复杂-异构数据库,NoSQL,各种第三方组件,一旦某个环节出现问题,必须一个一个环节进行排查,选择从哪个环节着手排查是个技术活……听云Server通过在服务端应用中植入探针,实现对应用代码、关系型数据库、NoSQL、外部服务、服务器本身的监控,即时获取相关性能数据并进行智能分析,在代码层面上快速定位错误产生、性能下降的原因。
- 演讲嘉宾:廖雄杰 听云副总裁
- 资深架构师,目前任职于听云团队,致力于应用性能优化及流式数据处理,对构建高性能Java应用有深入研究。
- 演讲主题:"懂你的"大数据
- 简介:通过智能终端设备、可穿戴设备,物联网,手机移动终端持续地感知用户,收集用户数据,然后对数据进行清洗,整理,关联和分析,进而了解用户,这样便产生了"懂你的"大数据;然后,在最合适的时间和地点,给用户提供个性化的产品或服务,除了满足用户的功能需求,同时关注其情感需求及产品背后的文化传递,最终针对"此时、此地、此人"提供贴心的服务和终身的呵护,这就是"懂你的"大数据的价值。演讲将分享"懂你的"大数据的技术手段,应用场景以及在高端消费领域的应用实例。
- 演讲嘉宾:向江旭 寺库CTO
- 向江旭先生在软件、通信网络和互联网行业拥有20多年专业经验,其中18年在美国硅谷,他目前担任全球奢侈品服务平台寺库网(SECOO)的首席技术官,负责寺库全球化,平台化和智能化的技术体系,此前,向江旭是微软亚太研发集团主席助理兼集团技术战略总监,负责规划智慧城市大数据平台,"智能系统"和"人工智能+移动互联"技术战略,向江旭先生还曾任微软云计算和企业事业部首席项目总经理,负责物联网和嵌入式产品研发,加盟微软前,他担任趋势科技硅谷研发中心工程总监,还曾就职于思科,CA等多家硅谷科技公司,担任资深架构师和管理职位,此外,向江旭先生还是微软创投加速器创业导师,微软-同济大学移动与嵌入式中心执行主任,北京航空航天大学研究生校外导师,并经常在科技会议和论坛演讲并接受媒体专访,向江旭先生拥有武汉大学计算机科学学士学位,美国匹兹堡大学计算机科学硕士学位,并在印第安那大学凯利商学院接受管理学的教育。
- 演讲主题:最老的新技术:调试Oracle技术实战 -- 在堆栈中寻找异常宕库原因
- 简介:一、程序的计算机级表示:所有的程序,都是内存中的指令流。
二、断点:"时间,停止",让Oracle的指令流停在我们想让它停的地方。
三、发现断点:指令流中的每一条指令处,都可以设置断点。逆向工程后,Oracle的汇编指令那么多,我到底该将何处设为断点?
四、函数与参数值:如何抓出运行时函数的参数值?
五、不可忽视的内存流动:观察内存的流动,看看Oracle将什么数据,从内存中的何处、拷贝到何处。
六、神奇的等待事件:Oracle等待事件机制的原理分析。
七、从call stack中挖出宕库原因
八、等待事件的进一步探讨:理解等待事件的真正意义
- 演讲嘉宾:吕海波 ebay首席DBA
- 论坛ID:VAGE,ITPUB管理版版主。曾任阿里巴巴高级数据库专家,现任ebay中国TOP DBA。曾做为2013年DTCC大会演讲嘉宾。出版图书《Oracle内核技术揭密》,被称为Oracle领域第一本国人著作的深入分析Oracle内部原理的书籍。
- 演讲主题:MySQL复制性能优化:并行复制源码改造
- 简介:一、实现方式: 对MySQL的复制SQL进程进行调整,改造Log_event类中的get_slave_worker事件处理线程的获取方式。针对指定表的insert/delete/update事件,从事件组(以事务开始事件和事务提交事件为头尾的一组事件)中独立出来。在多个slave工作线程中,进行轮流选择,进行指定表事件的执行。 二、功能及特点: 1、基于MySQL5.6的DB级并行复制实现,无需在主从架构中引入其他组件; 2、可配置的应用范围,对指定表进行并行同步; 3、动态开关,可随时打开或关闭表级别并行复制; 4、高写入负载zabbix后台mysql,复制性能提升50%.
- 演讲嘉宾:任赟婷 携程MySQL数据库团队高级经理
- 2007年毕业于上海交通大学信息安全学院后加入携程数据库团队。建立MySQL数据库团队,现在带领团队负责携程的MySQL和Mongo数据库的管理,包括MySQL的架构审核、SQL审核、自动化运维工具的开发维护等工作。
- 演讲主题:AliSQL 5.6及其应用
- 简介:阿里核心业务的数据库都已经升级到了AliSQL 5.6版本,AliSQL 5.6带来了哪些改进,性能层面又有了多大的提升? 针对阿里业务高可用性,高可靠性,高性能的三高要求,跟官方的MySQL 5.6相比,AliSQL 5.6又拥有哪些特有的功能?为解决高并发下的稳定性,我们的线程池版本又是如何完美的支持了双十一?
- 演讲嘉宾:章颖强 阿里集团资深数据库工程师
- 花名江疑,本科、硕士毕业于浙江大学,开源数据库技术爱好者,先后就职于百度、阿里集团数据库团队。
目前为阿里集团版本MySQL分支(AliSQL)主要维护者,致力于AliSQL的性能及功能优化。AliSQL在阿里集团内部广泛使用,支持了过去几年的双11大考,稳定性和性能都表现的极为出色。
- 演讲主题:Oracle 11gR2 RAC预防性优化措施
- 简介:Oracle RAC由于其架构的复杂性,使得在Oracle RAC架构下的数据库优化与单实例相比既有很多相同点,又有很多不太一样的地方,本次演讲主题将着眼点放在基于Oracle RAC架构的系统上线前的诸多预防性优化措施上面,目的是为了防患于未然,避免那些已知的弯路和陷阱,使得部署在Oracle RAC架构上的系统从一开始就获得稳定的性能,干货分享,无数血泪经验的累积,不容错过!
- 演讲嘉宾:崔华 Oracle ACE总监
- 网名dbsnake,Oracle ACE总监, ACOUG核心成员。
他是资深Oracle数据库工程师,他拥有Oracle数据库技术各个领域的经验,尤其是在Oracle数据库性能优化与备份恢复方面经验丰富。
他是畅销书《基于Oracle的SQL优化》的作者,他还与其他人合作编写了多本Oracle技术书籍,他经常在Oracle相关活动中发表演讲并在自己的博客上撰写了大量技术文章。
近年来他专注于软件架构和数据库性能优化,涉猎领域不再局限于Oracle数据库。
- 演讲主题:SQL优化的冰与火
- 简介:"当一条SQL丢到你的面前的时候,需要你优化的时候,你会想什么?" "还想什么,直接优化?" "那怎么直接优化呢?" "该怎么直接优化就怎么优化呗。" "强,点32个赞!" 这个霸道小对话折射出技术人员缺乏总结和不善于选择技术场景。现在,就让我来跟大家分享一下,我会想什么,这是冰与火之旅。
- 演讲嘉宾:梁敬彬 福富在聘特级专家
- 福富技术研究院副理事长,福富在聘特级专家,福富四星级内训师,ITPUB版主及ITPUB社区专家,十余年数据库设计调优及培训相关经验,著有多本畅销数据库技术书籍,其代表作《收获,不止Oracle》上市不到2个月即完成第3次印刷。
- 演讲主题:腾讯社交产品的NoSQL集群运营之道
-
简介:腾讯社交产品包括QQ空间、朋友网、相册、广点通、微云、音乐等各类互联网核心业务。NoSQL集群如何通过低成本、高效率和高质量的运营服务来支撑业务的可持续发展。
- 演讲嘉宾:周小军 腾讯高级运维工程师
- 负责社交产品的数据存储集群运维及数据运维团队管理工作。具有10年以上的大型互联网网站架构及运维经验,在数据中心及云计算运维方面有较丰富的经验积累。
- 演讲主题:NoSQL数据库在中国的开源分析与实践
-
简介:本主题介绍了数据库在中国选择开源的背景分析,在开源过程中所收获的经验分享,分布式文档型数据库的技术优势,开源后的社区影响力。同时,SequoiaDB作为国内第一个且是唯一一款开源的NoSQL数据库软件,将邀请其社区的一位有代表性的参与者来分享,NoSQL数据库开源后,他基于开源资源所进行的最佳实践分析。
- 演讲嘉宾:王涛 SequoiaDB 联合创始人兼CTO
- 他曾经是DB2领域的专家,作为IBM DB2全球最高技术专家小组的成员,参与了IBM下一代大数据平台的架构规划,精通数据库内核及体系结构。在IBM多伦多实验室工作了八年后,王涛选择了回国创业,目前担任巨杉软件公司CTO及总架构师,成功研发了自主产权的NoSQL数据库——SequoiaDB(巨杉数据库)。
他名列2014年7月美国著名商业杂志FastCompany中文版《快公司》发布的"中国商业最具创意人物100"之一,文中点评是"中国自主知识产权NoSQL数据库引领者,已在部分关键维度上超越国际巨头"。
作为NoSQL技术的专家,王涛先生一直致力于推广NoSQL数据库技术,他认为这种新的技术不仅仅是为企业所应用,更重要的是希望NoSQL这种颠覆了传统的数据库和数据应用模式的新思维,能够改变人们对于数据的认识以及在"大数据时代"的思维方式。
。
- 演讲主题:MongoDB 3.0如何实现10倍性能提升
-
简介:MongoDB,作为NoSQL数据库中毋庸置疑的领头羊,最近发布了3.0版本。较之于上一个版本2.6, 3.0的写性能有7-10倍的改善并支持50%-80%的压缩。通过这次讲座,你可以了解到3.0中究竟是如何实现了这样的性能飞跃。此外讲师也会分享一下如何使用新的存储引擎WiredTiger的性能调试参数以及如何根据应用场景挑选合适的存储引擎等。
- 演讲嘉宾:唐建法 MongoDB 中文社区发起人
- MongoDB 中文社区mongoing.com发起人, MongoDB 公司大中华区首席技术顾问。曾在惠普,联邦快递担任技术带头人及首席架构师等职。自诩为风筝冲浪圈子内最牛的大数据专家。
- 演讲主题:分布式数据库CockroachDB的设计与实现
-
简介: CockroachDB是一个可伸缩的、跨地域复制的,且支持事务的数据存储。该主题会深入剖析其具体的设计与实现相关细节,以及自己对分布式数据库的一些理解。
- 演讲嘉宾:刘奇 豌豆莢资深系统架构师
- 分布式redis集群项目codis创始人,对Golang有较深入的研究,国内最早一批将Golang用在大规模线上push服务的人员之一。擅长大规模,高并发 的分布式系统架构设计,对分布式缓存,数据库有一定的理解。
- 演讲主题:腾讯大数据实时体系的架构和应用
- 简介:介绍腾讯实时数据平台(TRC)实时接入,计算,存储的平台体系架构,如何利用可视化的IDE提升业务开发的效率,以及基于实时计算体系下的业务应用,例如:实时广告推荐,用户画像,监控等等
- 演讲嘉宾:张文郁 腾讯数据平台部 高级工程师
- 2010年加入腾讯负责分布式计算平台,集群调度的开发设计,现任数据平台部实时计算中心业务开发组组长,负责实时计算体系的建设
和业务推广,对分布式计算,流计算有丰富的应用开发经验。
- 演讲主题:基于Storm的美团实时计算应用实践
- 简介:以Kafka, Storm为代表的实时计算技术,提供了不同于MapReduce的另一种大数据解决方案,更好地解决了海量数据处理的时效性问题。我们将从需求、架构、应用和优化等方面介绍美团在实时计算技术方面的应用和实践经验。
- 演讲嘉宾:鞠大升 美团技术专家
- 负责日志收集系统和实时计算平台的建设和优化,专注于大数据相关技术,在分布式系统和流式计算等方面积累了丰富的经验。
- 演讲主题:实时分析海量日志
- 简介:运维日志、用户日志蕴藏着许多重要信息,如何实时挖掘其价值?如何把日志这种非结构化的数据转化为结构化数据?如何快速查询日志?
1、分析传统使用数据库、Hadoop分析日志的不足;
2、日志处理流式架构:抽取关键字段,建全文索引,进行关联分析;
3、Splunk与日志易的架构对比。
- 演讲嘉宾:陈军 日志易创办人兼CEO
- 拥有17年IT及互联网研发管理经验,曾就职于Cisco、Google、腾讯和高德软件,历任高级软件工程师、专家工程师、技术总监、技术副总裁等岗位,负责过Cisco路由器研发、Google数据中心系统及搜索系统研发、腾讯数据中心系统和集群任务调度系统研发、高德软件云平台系统研发及管理,对数据中心自动化运维和监控、云计算、搜索、大数据和日志分析具有丰富的经验。他发明了4项计算机网络及分布式系统的美国专利,拥有美国南加州大学计算机硕士学位。
- 演讲主题:DataFlow(统一数据驱动计算框架)
- 简介:Baidu DataFlow计算平台,是由百度基础架构部自主研发,支持多种运算模型(批量、小批量、流式和迭代等),高效地运行在全局资源共享的集群中,由统一的全局调度器框架混合调度,各种计算模型使用的资源可按需自动动态伸缩;多种计算模型,使用一套简单易用的API抽象,极大的降低业务研发成本,业务计算经过DataFlow Compiler翻译和优化后,显著提升其运行效率。
- 演讲嘉宾:柴华 百度基础架构部架构师、分布式计算技术负责人
- 2010.11加入百度基础架构部后,从零开始创建了实时流式计算技术方向,据已公开资料,国内集群规模最大,并支撑了百度搜索、变现和无线等重要业务线;国内最早创建了分布式报表引擎技术方向,支撑重要商业客户报表需求;当前,负责构建百度统一大数据计算平台,统一API支持多种运算模型高效地运行在全局共享集群资源中。
- 演讲主题:苏宁实时计算之道sql on stream
- 简介:随着苏宁云商一体两翼,O2O战略的推进,以及公司互联网化的转型,苏宁易购的大数据建设取得了长足的发展。
在这个过程中,苏宁易购大数据中心搭建了庞大的海量数据平台,并在此基础上自主研发了全方位的快速响应业务查询的交互平台,
其中实时计算平台libra,就是杰出代表,她是基于storm及esper定制开发,以sql的方式提供灵活的计算规则,通过配置就可以实现计算需求,
方便各种开发人员进行快速开发,大大减少开发成本和开发难度。libra开发团队在此过程中积累大量的核心技术。
分享是一种乐趣,也是一种美德,为此,苏宁大数据libra开发团队,期望通过此次大会向业界分享苏宁实时计算平台libra的核心技术和心得体会,加强社区互动,为中国it贡献一份力量!
- 演讲嘉宾:代稳 苏宁高级技术经理
- 09年加入苏宁,现任苏宁大数据中心应用开发部负责人,主要负责大数据中心数据服务和智能引擎的研发工作。曾从事企业集成相关工作,主导并推进了苏宁几代企业服务总线的产品及技术架构演进,所负责的企业服务总线支撑整个苏宁的IT系统间交互。后负责大数据实时计算平台的规划及研发,目前该平台已接入SA日志、订单、库存、passport、性能监控日志等数据源,每天执行百亿次实时计算,为会员精准营销、搜索推荐、首页流量、监控平台、超市、移动、展厅等多个系统提供实时计算服务,为营销决策以及系统监控告警提供更实时的数据基础。 致力于通过建设高效、稳定、易用的大数据实时计算平台降低大数据使用门槛,实践数据驱动的愿景。
- 演讲主题:Oracle 12c In-Memory Option应用解析
- 简介:
大数据时代,Oracle应时应景地推出In-Memory Option功能组件,高效地解决OLAP应用。本次分享主题将从列式压缩、查询优化、事务处理三个维度对Oracle 12c的IMO功能进行深度解析,为大家揭开IMO特性的神秘面纱。
- 演讲嘉宾:侯松 平安科技DBA经理
- 资深数据库架构师、Oracle 9i OCP、PMP、北美寿险管理师,《高并发Oracle数据库系统的架构与设计》作者。现就职于中国平安保险集团,拥有10余年数据库开发、管理和运维经验。精通Oracle数据库相关技术,掌握ITIL运维体系,擅长金融行业(银行、保险、投资)的项目管理和数据库系统的架构设计。个人网站:http://www.housong.net。
- 演讲主题:海量并行(MPP)内存数据仓库的实现探讨
- 简介:
本演讲着重关注基于海量并行(MPP)的内存实时处理技术的实现探讨及发展方向。
- 演讲嘉宾:刘睿民 柏睿数据科技有限公司董事长兼CTO
- 艾诺威讯(北京)科技有限公司首席执行官,联想中国服务总部 首席技术顾问,
国家信标委ISO国际专家.早年获得新加坡电信海外全额奖学金赴美科罗拉多大学Boulder分校攻读博士。同期加盟惠普实验室主攻海量并行MPP数据库,之后先后参与Nonstop SQL/MP,SQL/MX及Neoview的实现。后加盟美国摩托罗拉总部,专注于911城市应急及智能指挥联动系统,ITS系统及智慧城市DSS系统的设计与实施。
2013年起协同联想中国服务总部组建团队研发大数据MPP内存数据仓库引擎,现已推出MPP内存数据网格\MPP内存数据库平台- Rapids DB。
- 演讲主题:内存数据库服务运营之路
- 简介:NoSQL数据服务对很多公司来说都是一把双刃剑,解决问题的同时,也带来了更多新的挑战。新浪自2011年有选择的引入NoSQL数据服务组件,解决了很多场景技术问题,从降低机器资源成本、系统快速迭代、保障服务可靠性、简化架构、提高运维效率等多方面都有一定收获。如何做NoSQL服务的选型?如何在引入服务后搭建统一服务平台,避免滥用?如何保证服务的持续集成跟上业务迭代的脚步从而在中长期带来持续得技术收益?
- 演讲嘉宾:关启盼 北京安亿致用有限公司 高级DBA
- 2011年加入新浪研发中心平台架构部,2012年开始参与NoSQL平台的建设,经历了新浪NoSQL从初试到成熟稳定的整个过程,先后负责新浪NoSQL/缓存服务/消息队列/中间件等数据组件的运维和平台建设工作。2015年初加入数据分析公司AppAnnie,现负责AppAnnie数据库服务平台的搭建和运营。
- 演讲主题:
gemfire核心功能介绍
- 简介:emfire核心功能包括几个方面:
一、gemfire介绍 1、什么是gemfire? 2、gemfire基本概念 3、gemfire分布式物理架构 4、gemfire重要特性介绍
二、gemfire关键特性剖析 1、分布式事务 2、分布式锁 3、gemfire持续查询 4、gemfire数据分区策略 5、gemfire事件驱动框架 6、gemfire MapReduce批处理
三、12306架构改造初探 1、挑战与尝试 2、如何同步sybase后台数据到gemfire中台? 3、如何实现余票数量计算? 4、如何实现余票查询?
四、gemfire应用场景分享。
- 演讲嘉宾:杨旭钧 中国科学院自动化研究所大数据应用部高级研究员
- 杨旭钧先生有着多年的银行、保险行业的金融系统的规划,设计和开发经验,参与过多个国内外银行、互联网电商与移动支付领域项目。曾就职与 VMware 和 Accenture 两家公司,服务客户包括花旗银行、中国外汇交易中心、中国央行、中国银行等。
目前正在创办一家提供大数据分析处理服务的公司,公司产品MegaDB主要可应用于航空航天、电信、物流交通、金融、医疗、信息安全等多个行业。
- 演讲主题:大数据—数据质量与数据仓库
- 简介:大数据兴起后,数据平台的建设和数据的挖掘应用被广泛提及和关注,但是在数据体系本身的建设上相对比较落后,本分享将结合美丽说数据建设的经验,重点谈谈互联网领域的基础日志治理、数据仓库建设,以及数据质量建设。
- 演讲嘉宾:高玉石 美丽说数据智能部副总监
- 目前负责美丽说的基础数据技术和业务体系建设。曾任百度音乐事业部基础数据研发经理,负责百度音乐基础数据团队的组建和大规模基础数据体系的建设,先后建立了音乐数据仓库,数据挖掘与个性化推荐,数据平台和数据分析等方向,并整合了音乐歌曲库资源建设方向,他所建立的音乐基础数据团队是百度用户产品体系最早成立的数据团队之一,也是百度产品部门最成熟的数据团队,团队在百度横向数据团队具备较大影响力。
- 演讲主题:打怪升级 之 数仓困境二三事
- 简介:数据仓库作为BI体系的重要组成部分,一直支撑、引导着当当的业务走向。本议题通过剖析数据仓库搭建中遇到的问题、踩过的坑,分享当当BI大数据体系的心路历程。
- 演讲嘉宾:刘鸿超 当当技术部开发总监
- 2011年加入当当,多年数据开发经验,历任高级开发工程师、开发经理、数据开发总监,目前负责用户、销售、流量等BI大数据体系中,离线、实时方面的架构设计,及数据分析平台搭建。
- 演讲主题:汽车之家数据平台架构
- 简介:从网站页面说起,用户的行为日志是怎么一层一层穿过数据平台的架构,最终展现在数据报表上的。详细介绍汽车之家如何基于大数据技术,应对业务发展的需求,构建自己的数据平台和数据仓库;分享在网站推荐和用户分析上做的一些尝试,在数据方面,遇到的一些典型问题的解决方案:1,IP地址库更新;2,evercookie & fingerprint;3,cookiemapping;4.移动deviceid的冲突和漂移及跨app共享;5,用户溯源等。
- 演讲嘉宾:高红锋 汽车之家用户智能组主管
- 2011年作为数据仓库架构师加入汽车之家,重构了汽车之家流量收集统计系统,从SQL Server迁移到Hadoop分布式架构,支持每日几亿流量的访问统计。负责汽车之家指数产品的研发,数据仓库平台的建设,网站推荐,用户行为分析。2014年负责开发了类似友盟的App统计SDK,支撑移动业务更精细化的运营和个性化推送。目前集群规模150台左右,支持pc和移动端流量统计,广告算法,数据仓库,指数系统,用户推荐。同时做了很多基础实践解决互联网遇到的普遍问题,如多网站cookie打通问题、IP地址库不准、cookie标识用户不准确、移动端设备id冲突和漂移等问题。
- 演讲主题:电商行业数据运营建设实践
- 简介:结合电商行业数据建设与数据运营经验,分享在电商行业数据运营、建设等的相关经验;一、电商需要哪些数据;二、如何对数据分析;三、如何对数据挖掘;四、电商数据运营的方法;五、数据仓库建设经验。
- 演讲嘉宾:王庆恒 高级数据挖掘工程师
- 北京邮电大学硕士研究生毕业后,就职于搜狗科技发展有限公司商业广告部门,负责并参与了搜索商业广告数据仓库和商业智能的建设,并搭建了大数据分析平台;后就职于百度公司,负责客户端软件部数据仓库和数据建设;现就职于兰亭集势,负责公司商业智能数据建设、数据挖掘工作。
- 演讲主题:广点通海量数据处理实践
- 简介:大数据是一座金矿,腾讯拥有海量的用户数据,那如何将海量的用户数据充分利用起来呢?我们将介绍腾讯流量变现利器广点通在海量数据接入、处理以及应用方面的实践经验。
- 演讲嘉宾:李彪 腾讯广点通高级工程师
- 2010年加入腾讯,负责腾讯广点通DMP系统的开发,一直从事在线广告系统相关的分布式存储、计算等方面的工作。
- 演讲主题:使用扩展事件实现性能调优和Troubleshooting
- 简介:过去超过10年我们一直使用SQL Trace,但今天面对大数据以及高并发的场景下,SQL Trace引入的开销和包含的信息远远不能满足今天的负载。自SQL Server 2008起引入的扩展事件直接集成到底层的SQL OS,不但更加轻量,并且提供了更加丰富的信息,从而为性能调优和Troubleshooting时提供更好的手段。
本Session会提供扩展事件的介绍,使用方法,以及真实生产环境中利用扩展事件所能实现的场景示例。
- 演讲嘉宾:宋沄剑 微软SQL Server最有价值专家
- 《Professional SQL Server 2012 Administration》译者。曾为国内多家大型企业提供咨询、调优和培训服务,所涉及的行业包括金融,电信等。
- 演讲主题:SQL Server2014新一代列存储技术及混合云使用场景
- 简介:SQL Server 2014列存储技术可以大幅降低数据存储空间的需求,同时将数据仓库的查询性能提升几十倍甚至上百倍。此外,微软提供的混合云技术可以无缝打通企业内部私有云与外部公有云,帮助企业更好的实现数据库弹性扩展与数据容灾的各种复杂场景。
- 演讲嘉宾:王琦 微软数据平台解决方案顾问
- 多年从事SQL Server相关的技术工作,擅长大型数据库架构设计及性能优化,同时在数据仓库、商业智能、大数据等相关领域积累了丰富的经验。
- 演讲主题:深入理解SQL Server存储结构
- 简介:深入理解SQL Server存储结构,讲述SQL Server堆表、聚集表的记录、索引存储结构,当然还有NULL位图、行溢出、LOB大对象的存储结构,从内部原理理解SQL Server性能调优。
- 演讲嘉宾:陈畅亮 邦富软件数据库架构师
- 目前带领DBA团队在某大型互联网公司运维TB级数据库,设计完整的存储、高可用和灾备方案。主导内部云运维平台研发,运维上千台服务器。在此之前,曾负责7天酒店网站的用户行为分析系统的研发。同时也是微软SQL Server方向最有价值专家。
- 演讲主题:SQL Server内存数据库揭秘
- 简介:关系型数据库发展至今,细节上基本已做足文章.在寻求自身突破的发展过程中,分布式及内存数据库是当下最流行的主题. SQL Server作为传统的数据库厂商也推出了自己的新利器In-Memory OLTP。SQL Server实现并利用了无闩锁,无锁,底层代码运算等相关技术使得性能有了几十倍甚至上百倍的性能提升,本次分享为大家解读相关的技术实现。
- 演讲嘉宾:高继伟 易车集团高级DBA
- 负责集团数据平台架构,优化相关工作,对SQL Server有深入认知。
- 演讲主题:利用Replication实现字段数据类型快速变更
- 简介:Replication是SQLServer的一个重要功能,从2005到2008,replication技术已相当成熟,尽管从2012引入alwayson后,有被替代的趋势,但其无比优越的灵活性确实是SQLServer各个功能都无法比拟的。从目前使用情况看,大部分场景都是将replication用于读写分离或对数据一致性不敏感的高可用环境,似乎其强大的灵活性并未得到完全的体现;
今天,我们将通过一个实际的案例,运用replication这个灵活的工具,实现字段数据类型快速变更,通过降低时间成本来为我们的平台及业务创造价值!
- 演讲嘉宾:肖磊 京东运维部数据库DBA
-
- 演讲主题:美团数据库运维平台介绍
- 简介:主要介绍美团数据库自动化运维平台,包括MySQL慢查询系统、备份系统、监控系统,以及在运维数据库的过程中使用的一些工具以及用法,最后介绍一些运维经验。
大纲:
1、自动化运维平台介绍;
2、慢查询系统&备份系统&监控系统;
3、运维工具;
4、运维经验。
- 演讲嘉宾:侯军伟 美团网数据库负责人
-
- 演讲主题:双十一异地双活的实时数据同步基础设施DRC
- 简介:DRC(Data Replication Center)是阿里巴巴技术保障部数据库团队自主研发的,对异构数据源进行实时数据迁移、同步和数据流订阅的数据管道基础技术设施。DRC为单元化项目提供稳定的秒级的保证事务一致性的实时数据同步服务,帮助大阿里成为第一家实现异地双活的电商网站,为阿里国际化贡献了自己的一份力量。同时DRC作为大阿里"云化战略"坚定不移的支持者,利用自己的技术优势为集团各部门提供数据云迁移服务,参与并完成了阿里云官网云化等项目。 DRC目前服务于集团、小微、菜鸟、高德等多个公司,涵盖了AliSQL, RDS, Oceanbase, HBase, MetaQ, ODPS等多个存储系统的数据同步,为客户提供7x24小时稳定的实时高性能的数据迁移同步及数据流订阅服务。2014年双十一期间,DRC线上承载几千个抓取任务,一共从数据库拉取了近百TB的数据量,处理了几千亿个事务,平均每秒处理数百万条事务,峰值每秒处理数千万条事务。
- 演讲嘉宾:钱在晨 阿里巴巴技术保障部
- 花名二败 本科就读于浙江大学, 2010年从香港中文大学获得硕士学位,主要研究方向是计算机辅助设计自动化算法,期间发表4篇国际顶级会议/期刊论并获得了国际ISPD高性能时钟网络算法竞赛第二名。
2010年6月起加入甲骨文中国研发中心,从事嵌入式数据库Berkeley DB的开发工作, 深入学习了数据库引擎底层架构和实现细节,为以后从事数据库方面的研发打下坚实基础。
2012年进入阿里巴巴技术保障部数据库团队,设计并研发了数据同步基础设施DRC(Data Replication Center), 目前广泛应用于阿里集团内部系统,同时还服务于阿里云客户,支持了上云迁移、数据中心异地双活等项目, 是阿里集团在线存储系统之间,在线存储与离线存储间的数据大动脉。
- 演讲主题:天灾还是人祸?Oracle连环重大故障及引发的思考
- 简介:
1、Oracle软件bug导致的故障及解决(各种数据块恢复均失败);
2、服务器系统假死导致的故障及解决(不完全恢复);
3、服务器更换RAID卡后数据文件头部损坏导致的故障及解决;
4、Oracle无法正常关闭的原因分析及解决;
5、天灾还是人祸?故障深层次剖析及后续改进方法。
- 演讲嘉宾:萧田国 某游戏公司
-
- 演讲主题:自动化运维-sql自动上线
- 简介:赶集经历了大部分公司经历的阶段,人肉sql上线 -半自动审核上线 - 全自动上线。随着业务增长和开发人员的变动,DBA很多时间都在普及业务规范。针对赶集业务特点,年中开发automan上线平台,做到了对DDL, DML语句的审核检查并自动上线,完全解放了DBA人力,可以有更多时间专注性能及运维开发。
- 演讲嘉宾:董泽润 赶集网DBA
- 于2010至2012年搜狐畅游工作, 负责游戏mysql相关的运维;
2012至今在赶集网担任DBA,负责整个数据库团队,主要研究mysql, redis, mongo等技术。
- 演讲主题:
MySQL高可用之MHA的实现及大规模运维实践
- 简介:MHA(Master High Available Manager)是保证数据强一致性和集群高可用性的MySQL高可用架构。基于SSH验证多路径实时监控MySQL Master,MHA如何在当前主库和新的主库直接补偿Binlog?如何在其他的从库和新的主库之间补偿Relay log?同时,我们在MHA的基础上做了脑咧处理、vip的管理、Binlog server实现了在主库机器(或系统)出现故障时主库切换并做Binlog补偿,MHA实现了极短的时间、保证了数据的强一致性,达到了MySQL主库故障自动(手动)切换,所有从库自动恢复。
- 演讲嘉宾:黄华亮 某互联网DBA
- 曾在京东金融负责MySQL HA、数据库架构、性能优化、自动化运维。个人专注于数据库架构、数据库的HA、性能优化、数据库自动化运维,业余熟悉MySQL 源代码、Oracle、Redis、MongoDB等。
- 演讲主题:
云上的分布式数据库DRDS
- 简介:DRDS是新一代的阿里分布式数据库云服务,前身是淘宝分布式数据库(TDDL),它承载了淘宝六年的高速增长,经历过多次双十一的严酷考验,在阿里内有几千个应用正在使用,是阿里最为成熟的分布式数据库服务体系。
现在,TDDL已经换了个新名字DRDS来到了云上,在云端的DRDS,面对新的用户,新的需求,我们碰到了哪些问题?又是如何利用我们的产品来解决这些问题的?欢迎来听听我的讲述。
- 演讲嘉宾:王晶昱 阿里分布式数据库TDDL/DRDS负责人
- 花名沈询,2008年加入阿里巴巴,阿里分布式数据库TDDL/DRDS负责人,阿里分布式消息服务ONS(Notify,MetaQ)负责人。
之前一直从事阿里分布式数据层方面的研发与业务架构梳理工作,TDDL作者,具备丰富实战经验。
- 演讲主题:给DBA减压!RDB和NoSQL的云端实践
-
简介:如果只提供IaaS资源对于用户是远远不够的,关键要更好地帮助用户在基础资源上搭建自己的服务。而在这个过程中,跟数据相关的技术是最困难的。青云QingCloud基于自身的IaaS层虚拟资源为用户提供数据库和缓存服务,帮助用户降低数据库使用的技术门槛,让IT交付变得更加便捷、高效。在此次演讲中,青云QingCloud联合创始人兼架构师Spencer将为大家详细介绍QingCloud数据库及缓存服务的特性,并通过多个实践案例讲解如何更好地使用这两项服务。
- 演讲嘉宾:林源 青云QingCloud联合创始人、架构师
- 林源(Spencer Lin),青云QingCloud联合创始人,本科和硕士就读于清华大学,毕业之后一直从事分布式和底层系统的开发与研究工作。创建QingCloud之前,曾在IBM参与Hadoop相关的研究和优化项目;2010年加入腾讯搜索的图片搜索项目组,参与图片搜索的相关性算法研究与开发、海量图片分析和挑选等工作。目前主要负责 QingCloud的API和后端系统开发。
- 演讲主题:SQL云解析在腾讯游戏GCS平台中的应用
-
简介:1、背景介绍
腾讯互娱DB管理系统GCS每天处理上百的单据,人工审单的工作量大,正确性难保证;
SQL语句分析的需求(ddl/dml,是否有跨表操作,mysql binlog并行恢复)。
2、tmysqlparse原理
cmake打包mysql的语法解析库;
深入源码研究mysql语法树。
3、tmysqlparse在GCS系统中的应用
检测语法正确性;
检测高危(在线加字段,建表无索引,其它存储引擎,字符集);
降低人工审单的难度及减少其工作量,实现审单的自动化,并通过高危减少不规范DB操作。
4、tmysqlparse在DB云中的应用
按需求定义规则解析SQL语句,供spider做SQL转换处理。
- 演讲嘉宾:韩全安 腾讯互动娱乐事业群运营部DBA
- 就职于腾讯互动娱乐事业群运营部DBA团队,自研究生起专注于数据库内核开发,目前主要开发与维护腾讯内部的MySQL分支--TMySQL,以满足腾讯游戏业务海量数据管理的功能和性能需求。
- 演讲主题:codis 2.0 从分布式缓存到数据库
-
简介:MCodis 是一个通用而稳定的分布式 Redis 解决方案,目前在各大互联网公司已经被广泛使用,开源至今经过大半年的迭代已经成为了架构师在业务栈中消除 Redis 缓存单点的利器。作为这个开源项目的作者,在本次讲解中会重点介绍 Codis 在生产环境中的 good practices 和即将发布的 Codis 2.0 的新功能及未来的理念和方向。
- 演讲嘉宾:黄东旭 前豌豆荚基础架构部架构师
- 国内知名开源分布式 Redis 解决方案 Codis 的 co-author,主力 committer。专注于分布式缓存,分布式数据库的设计和实现,目前正在创业。
- 演讲主题:云数据库在网易的发展与实践
-
简介:移动互联网领域的快速发展,对传统的数据库管理模式提出挑战。追求更高的资源利用率、服务可用性、数据可靠性、系统扩展性,降低人力成本为云数据库在企业内部的应用提供了良好的契机。Netease RDS是网易公司基于内部维护的MySQL版本InnoSQL打造的关系数据库云托管平台,为公司内部近100个核心产品提供稳定的在线数据库服务。本次分享将重点介绍Netease RDS在高可用、高可靠、在线扩展、备份恢复、只读实例、性能调优、数据迁移等方面MySQL云端实践。
- 演讲嘉宾:郭忆 网易杭州研究院资深开发工程师
-
- 演讲主题:eBay开源新数据库技术Kylin
- 简介:Apache Kylin(麒麟)是由eBay研发并贡献给开源社区的Hadoop上的分布式大规模联机分析(OLAP)平台。该平台为Hadoop提供了标准SQL接口及多维分析能力,支撑TB到PB级别的数据,在百亿数量级别上能够带来秒级甚至亚秒级的查询性能。该平台已经在eBay内部正式运行并处理着相当大的数据,并在2014年10月初开放给了开源社区。Kylin为Hadoop生态圈带来了OLAP能力,是目前整个生态圈急需的一块,弥补了Hadoop之上商业分析的空缺。其全面的平台体系使得使用者可以快速搭建并运行,其与商务智能分析软件的集成,例如Tableau,为分析人员提供了快速访问和分析Hadoop数据的能力。一经推出,在业界获得了非常高的评价和关注,github.com上Kylin的项目在短短一个月之内就获得了近300的star和100多的fork。很多其他的公司及个人开始贡献到整个Kylin的体系种,SequenceIQ公司已经为Kylin制作了docker容器。为了更好的融入整个Hadoop及开源生态圈,我们已经向Apache提交孵化器项目建议并于2014年11月25日正式被接受为Apache 孵化器项目(Apache Incubator Project)。
本次演讲将介绍Kylin的背景,技术架构,产品功能特性和性能等内容,以及开源现状和发展方向等。将重点讲解Kylin项目中的设计理念和采用的技术,特别是如何优化存储和查询等。
- 演讲嘉宾:李杨 ech Leader of Kylin at eBay, Apache Kylin PMC Member & Committer
- joined eBay, Shanghai in Jan 2014 as a member of Technical Staff and has been a key developer andarchitect of Kylin OLAP Engine. He also leads the Kylin team of engineers in Shanghai, to develop the Kylin roadmap and features to extend the usability across different use cases. Prior to eBay, Yang spent 8 years with IBM and 2 years with Morgan Stanley. At IBM, Yang was focused on core Java library (Apache Harmony), J2EE, and Big Data engineering development. He was the technical lead of IBM User Technologies and won the Outstanding Technical Achievement Award in 2008. During the time with Morgan Stanley, Yang was the VP of Asia Markets team, responsible for the global regulatory reporting architecture, engine development and end-to-end production support infrastructure. Yang received his Master's degree from the School of Computer Science in Shanghai Jiaotong University.
- 演讲主题:百度时空大脑 --百度时空大数据背后的智能分析引擎
- 简介:随着移动互联网的普及,移动设备已经能随时随地感知人的位置和需求。百度地图每天响应来自手机用户的上百亿次定位请求,数亿的地图位置检索请求。百度时空大脑是挖掘这些海量的时空数据的智能引擎,我们将会讲解它在如下领域的应用:它从海量的定位数据中,挖掘人群移动的规律,指导公共安全(如拥挤预警)、灾后评估(地震后人群移动变化)、城市规划(城市群分析),实现更加智慧的城市;它能挖掘出用户的出行规律,寻找出用户的偏好,预测出用户将来的场景,从而实现更加精准个性化的服务。
- 演讲嘉宾:吴海山 百度研究院大数据实验室(Big data lab) 数据科学家
- 2011年在复旦大学计算机系获得博士学位。在加入百度之前,曾在IBM中国研究院(CRL)担任研究员,之后在美国普林斯顿大学进行博士后研究,主要研究方向是生物界的群行为量化分析。2014年加入百度研究院后,负责百度时空大数据的分析、挖掘和可视化,目前担任百度时空数据挖掘的技术负责人。
- 演讲主题:移动应用分析平台中的开源大数据系统实践
-
简介:友盟统计分析平台是国内最大的移动应用统计分析平台,数据是公司核心价值所在。面对呈指数级增长的海量移动数据,采集,存储,整理,分析,每一个过程都面临着很大的挑战。从创业开始,友盟就以各种开源大数据处理系统为杠杆,在数据需求的驱动下,不断演进至今,形成了以HDFS,HBase,Kafka, mongodb为数据存储框架,以Storm, MapReduce为基础数据处理框架,以pig, Hive,Spark为数据分析框架的数据平台基础架构,为移动应用统计分析业务提供了稳定有效的支撑。本次主要就友盟在这些开源大数据系统实战过程中积累的经验教训进行分享。
- 演讲嘉宾:吴磊 友盟公司数据平台架构师
- 目前在友盟公司任数据平台架构师,主要负责Umeng移动数据分析平台的软件研发和系统架构。拥有10多年的软件开发经验,先后在大型通讯系统,通用搜索引擎以及海量数据分析等领域工作。在基础平台架构和海量数据处理方向有多年的深厚积累,对Hadoop,HBase生态领域相关技术在具体工作中的落地有深刻的实践和体会。
- 演讲主题:HAWQ, 分布式SQL数据库引擎原生基于Hadoop HDFS
-
简介:HAWQ是一个支持HDFS的分布式并行SQL数据库引擎,它从 Pivotal卓越的分析型数据库Greenplum DB发展出来,又融合了Hadoop HDFS的优秀的扩展性和便利性。HAWQ原生支持读写HDFS数据格式文件。HAWQ具有世界最好的数据库线性扩展性和性能,比 Impala,Spark,Hive快许多。
它已有许多大型客户,有些客户数据量达到PB级别,500多节点。它的管理和使用仍然与常用的SQL数据库非常相似,因此对用户很便利。 HAWQ 支持完整的SQL2008标准,包括标准中OLAP扩展项。它已经宣布开源。
- 演讲嘉宾:王伟珣 上海Linux用户组创始成员之一
- 网名是wormwang,Shanghai Linux User Group创始成员之一。自1996年开始 推广GNU/Linux和各项开源技术。现在在EMC,负责分布式数据库架构及其解决方案架构设计
- 演讲主题:运营商数据治理实践
- 简介:1、数据治理的理念,DAMA理论简介以及数据治理和Togaf架构的关系; 2、浙江移动试行数据治理的历程以及目前取得的成绩; 3、浙江移动在后续数据治理上的演进思路。
- 演讲嘉宾:郭岳 浙江移动信息技术部-技术保障部数据库架构师
- Oracle 10G OCM(2009年),现任中国移动通信集团浙江有限公司信息技术部数据架构师,主导浙江移动信息技术部Oracle数据库升级以及浙江移动IT系统去O工作,中国移动通信集团业务支撑专利评审专家。
- 演讲主题:如何成为真正的数据架构师?
- 简介:
大数据时代下数据架构师的重要性与日俱增,企业需求量增多,但目前真正的数据架构师人才极为缺乏。数据架构师应该具备哪些能力,从事哪些工作,从属于IT的哪个部门,通过什么样的途径才能成为数据架构师,国际上数据架构师资格证有哪些等内容,将在本次演讲中予以分享。数据架构师应具备多方面的综合能力,开发人员、开发DBA、运维DBA等技术人员,通过专业的培训和学习,均有可能成为数据架构师,在本次演讲中将向希望成为数据架构师的朋友分享相关书籍、技术、及学习方法。
- 演讲嘉宾:郑保卫 恩核(北京)信息技术有限公司创始人、技术总监
- 工学博士,恩核(北京)信息技术有限公司创始人,担任技术总监,出版书籍《海量数据库解决方案1》,《海量数据库解决方案2》及《数据架构师教科书》正在准备中。于2013年12月被北京市朝阳区认定为"凤凰计划"海外高层次人才。参与过大量关于数据架构、数据建模、数据治理、系统性能优化等方面的项目,长期致力于数据架构及数据治理技术方面的研究和实践。
- 演讲主题:数据治理理论、发展趋势与企业实践
- 简介:* 深度剖析国际数据治理理论体系(数据治理、数据架构、主数据、元数据、数据质量等)。
* 概览国际数据治理专业领域发展现状(首席数据官,数据战略规划,数据管理成熟度,传统数据环境与大数据环境融合的挑战)。
* 数据治理与管理技术功能及数据治理的工具观。
* 国内案例分享:通信(系统级数据治理)、能源(企业级数据治理建设)。
* 国际案例分享:以企业数据定义作为数据治理项目的先导。
* 数据治理成败要素、实践建议和发展展望。
- 演讲嘉宾:刘晨 数据治理与管理领域专家,御数坊创始人
- 专注于数据管理培训与咨询服务。清华大学电子系本科、经管学院MBA。拥有IT行业12年以上、数据管理领域7年以上从业经验,长期参与通信、金融、能源等行业的大型企业的数据管理项目的规划与实施,在本领域拥有扎实的理论和实践经验。国际数据管理协会中国分会(DAMA China)副会长,国际信息和数据质量协会(IAIDQ)会员;获得数据管理专业认证(CDMP),数据治理专业认证(DGP),信息质量专业认证(IQCP)等三项国际认证。出版物:译著《DAMA数据管理知识体系指南》;编写《大型企业信息化工程项目管理实战》数据管理章节;在中关村大数据产业联盟、互联网金融千人会分享《大数据怎能没有你——数据治理》,入编《智慧众筹》大数据专题。
- 演讲主题:京东商城推荐系统实践
- 简介:京东的推荐系统从2013年开始向第二代过渡,本次分享将从京东的推荐系统产品定位出发,阐述系统的架构、算法和策略的实践,以及对未来的优化方向的思考。
- 演讲嘉宾:刘思喆 京东推荐搜索部高级经理
- 2012年加入京东商城,现任推荐搜索部高级经理,主要负责推荐产品的策略改进以及算法优化。京东技术学院金牌讲师,"数据达人"称号,同时兼任中国人民大学大数据分析实验班硕士导师。在加入京东前主要为电信运营商提供数据挖掘及业务咨询等顾问服务。
- 演讲主题:大数据在智慧政务上的应用
- 简介:从设计框架和关键技术的角度重点讲解,基于Spark和Hadoop2开源架构的高可用、高速度并行运算、较低开发成本的大数据平台方案,具有海量数据采集、存储、分析与挖掘及可视化展示应用等能力,基于开放性架构的平台,可面向政府各行业应用进行具体业务需求的快速实现。
- 演讲嘉宾:任广坤 中海纪元数字技术公司技术总监
- IT行业从业9年,专注于政务信息化建设,参与了多个国家部委级项目。架构设计了中海纪元大数据应用展示平台,目前实际应用效果较好。
- 演讲主题:应用与DB的实时依赖分析与故障定位
-
简介:1、如何埋点、传输、存储百亿以上/天的Metrics; 2、实时分析10T/天的DB日志; 3、关系型数据库和NOSQL结合应用的最佳实践;4、案例分享。
- 演讲嘉宾:赵俊 携程高级架构经理
- 2008年加入携程,组建数据架构团队。擅长数据库技术架构,在全球分布式数据库集群、高并发、高性能、大数据分析和处理、容量预测方面有多年经验。
- 演讲主题:InfiniDB在大数据的应用
- 简介:Infinidb是开源的列式数据仓库的一种,它兼容mysql协议,性能方面对于统计查询应用和数据加载来说,比innodb快10倍,压缩率是4倍。
目前Infindb开源项目已经被MariaDB组织接管。 演讲内容:
1、为什么使用infinidb;
2、Infinidb的功能介绍;
3、Infinidb的高可用方案;
4、Infinidb在sohu的使用经验。
- 演讲嘉宾:赖亿 搜狐DBA
- 从事数据库云平台开发工作,2014负责研发sohu-dbproxy。2010年前在慧聪网负责管理数据库运维团队。
- 演讲主题:基于混搭存储引擎的融合型分布式数据库架构--服务型分布式计算和混搭型分布式数据存储助力大数据时代的数据宝藏挖掘
-
简介:大数据时代,各种技术、开源软件、商业产品纷至沓来,map-reduce和CEP,Hadoop、Spark和Storm,SQL、NoSQL和NewSQL,集群、MPP和一体机,企业和互联网应用该何去何从。本主题介绍经典的分布式计算、分布式存储架构和分布式应用设计方法,以及服务型分布式计算框架如何满足各种应用需求,针对经典的分布式数据库架构进行剖析,介绍基于RDBMS,NoSQL数据库、内存数据库、文件系统等混搭存储引擎的通用分布式数据库解决方案,及这种融合型分布式数据库在社交大数据领域的应用。
- 演讲嘉宾:董健 北京博晓通科技有限公司联合创始人
- 南开大学计算机科学硕士,软件、通信、互联网领域拥有近二十年的丰富经验,深谙世界领先的核心平台技术,具备世界级系统的架构和设计经验,曾供职于贝尔实验室、bea、甲骨文,担任架构师、高级研发经理、产品经理等职位,带领团队开发过服务全球顶尖运营商的智能网系统,世界排名第一的交易中间件Tuxedo,世界第一个消息中间件MessageQ,WebLogic等产品,这些产品曾服务于涵盖全球500强的超过3000个企业客户,并应用于它们的核心业务应用。后创办多家公司,担任首席架构师带领团队研发出服务型分布式计算平台、通用分布式数据库、大数据整合与分析、社交媒体数据分析云平台等多款软件产品。
- 演讲主题:BML百度机器学习云平台
简介:大规模机器学习云平台,简称BML(Baidu Machine Learning),是由百度基础架构部自主研发,面向百度开放云的机器学习、数据挖掘、数据分析的用户,致力于引领大数据时代模型技术的浪潮,通过大数据建模技术,为各行各业带来实实在在的业绩提升,让各行业的开放云用户使用上与百度搜索,广告,地图等各种产品一样高效前沿的机器学习技术。
- 演讲嘉宾:刘伟 百度基础架构部高级架构师
- 2009年加入百度,现任基础架构部高级架构师,负责各种大规模机器学习算法及其框架研发;在百度工作期间从事过凤巢大规模模型训练、广告触发、海量语料机器翻译、语义深度学习、搜索网页排序和深度学习平台等公司战略级核心项目,其中深度学习平台项目还获得2014年百度最高奖。
- 演讲主题:腾讯深度学习并行化实践
简介:
1、深度学习的机遇与挑战;
2、Mariana DNN:基于单机多GPU卡的DNN数据并行框架;
3、Mariana CNN:基于单机多GPU卡的CNN并行框架;
4、Mariana Cluster:基于CPU集群的DNN并行框架;
5、Mariana Cluster演进:广告并行优化和单机性能极致追求;
6、GPU Cluster的探索;
7、业界深度学习并行框架的最新进展;
8.系统和算法双重视角理解深度学习。
- 演讲嘉宾:金涬 腾讯数据平台部高级工程师。
- 博士,2005年毕业于清华大学计算机系,现任腾讯数据平台部高级工程师。主要研究方向为机器学习、深度学习、基于大数据的精准广告推荐技术。
- 演讲主题:地理可视化的方法与实践
- 简介:大数据时代,基于地理的数据可视化越来越重要,如何更快、更大量、更酷炫、更交互、更动态、更有层次地展现地理相关的
数据?本次会分享我们在阿里巴巴的展示类和产品类地理可视化项目中遇到的问题、知识延伸和项目总结。演讲题纲:
a 地图可视组件
1、点图
2、热力图
3、cartogram
4、Choropleth map
5、3d相关
6、轨迹图
b 基础-地理基础
1、地图可视化知识
2、底图-图片
3、底图-交互
4、色彩映射
c 地理数据
1、数据格式
2、数据工具
d 项目介绍
1、3d地球可视化 2d和3d的配合
2、北京跑步的一天 前端压缩展现2g数据
3、全景洞察,多层次可交互的数据展现
4、双十一 webgl和shader上大屏
- 演讲嘉宾:周宁奕 阿里巴巴数据平台可视化工程师
- 花名野狩,建筑设计师,前端开发,‘数学的美学世界’小站长,关注代码结合设计。业务上,主要开发数据产品和展示大屏,技术上,聚焦在webgl相关的3d展示,地图相关的各种业务、实时数据的可视化与展现。
- 演讲主题:数据挖掘中简单高效的变量约简技术
-
简介:数据维度高(变量数多)是大数据的一个重要特点。虽然充足的变量数有助于获得更具体的客户行为信息,并建立稳定的模型,但是变量太多却会带来一系列的问题,譬如:1. 众多变量彼此相关会造成决策树的结果难以理解,会导致回归模型难以发现真正有显著性影响的变量,也会无意识地导致聚类算法中某些特征的权重过大;2. 变量太多也会带来相关数据挖掘模型过拟合,以及算法收敛时间较长等问题。本次演讲主要讲述在面对挖掘项目时,如何通过简单高效的变量约简技术解决聚类,决策树,logistic回归及神经网络模型中遇到得变量过多问题。
- 演讲嘉宾:金仁浩 北京物资学院信息学院讲师
- 数理统计博士,2014年毕业于爱尔兰都柏林大学,在北京理工大学完成数理统计本科与硕士的学习; 有多年数据分析经验,曾与爱尔兰农业部合作完成对动物传染病数据的挖掘项目; 对统计与数据挖掘算法有较深的理解; 目前正在与北京市XX政府合作对工商业数据进行深度分析(店铺选址的空间统计建模及可视化,企业生命周期研究,以及对高危企业的分类预测)。
- 演讲主题:京东文件系统 从2013到2015
-
简介:分享京东自主研发的分布式文件系统JFS(Jingdong file system)。JFS根据业务需要,逐步实现了海量小文件、对象存储
、块存储、元数据的结构化存储等功能,支撑了京东的图片、订单等重要数据的存储。与Hadoop集成也在逐步开展。
- 演讲嘉宾:桂创华 京东商城高级架构师
- 现任京东云平台系统技术部高级架构师,先后参与京东海量小文件、对象存储、新图片系统的研发,主导了京东弹性块存储,JFS元数据表结构存储的设计和研发。
- 演讲主题:闪存存储特性以及文件系统应用
-
简介:主要介绍闪存存储的特性与传统磁盘的差异,闪存存储的性能优势和持久性劣势以及解决机制,当前文件系统设计与闪存存储结合存在的问题,同时对闪存存储在不同的文件系统中的应用模式和特点进行初步分析。
- 演讲嘉宾:李炫辉 绿芯半导体系统科技(上海)有限公司业务发展副总裁
- 现担任绿芯半导体系统科技(上海)有限公司业务发展副总裁,负责闪存解决方案的市场推广和管理。
从事信息化工作二十多年,先后在戴尔公司以及惠普公司负责企业级解决方案和存储产品管理及销售工作。于2014年9月加入绿芯半导体系统科技 (上海) 有限公司。 之前担任戴尔中国区解决方案部高级技术经理,负责戴尔企业级解决方案架构设计,管理和实施, 曾先后负责Dell互联网行业客户以及能源金融制造业服务器、存储和网络解决方案。1991年毕业于山东大学化学系,理学学士学位。
- 演讲主题:降低成本、提升速度-开放式超高性能数据库存储平台实践
-
简介:在数据为王的时代,企业的经营活动越来越依赖于应用系统,为实现系统高可用,很多用户把核心数据系统构建于Oracle RAC之上.但随着用户业务量和业务复杂度的增加,系统经常在存储子系统中出现性能瓶颈,现在,基于开放存储协议和闪存存储,可以搭建出分布式、超高性能的存储架构,以满足用户的核心数据存储需求,并同时实现去"IE"的开放架构,满足企业IT演进需求。
- 演讲嘉宾:张乐奕 云和恩墨的联合创始人之一,Oracle ACE 总监
- 云和恩墨的联合创始人之一,Oracle ACE 总监,致力于通过不断的技术探索,帮助中国用户理解和接触新技术,推广数据库技术应用。曾先后任职于电讯盈科、甲骨文等知名企业,现任职于云和恩墨(北京)信息技术有限公司。
具备丰富的行业经验与技术积累,对于Oracle数据库RAC以及高可用解决方案具有丰富的实践经验,现专注于通过分布式存储技术构建大规模高可用数据库集群。作为社区和网络的活跃者,在公开演讲和出版方面,多有建树。
- 演讲主题:Ceph数据一致性机制浅析
- 简介:1、需求背景 云端存储对数据一致性的需求;
2、CRUSH算法与一致性Hash
对两种算法进行简单介绍,以及其优劣势;
3、Ceph如何应对常见故障,scrub机制(这个部分往后,会涉及到具体例子)
对故障的监测和恢复的原理;
4、Ceph与Openstack结合时对一致性的注意事项
分享在这个过程中,对一致性的关注点以及操作技巧;
5、一些经验。
- 演讲嘉宾:滕召智 红树林信息技术有限公司联合创始人、CTO
- 曾主要开发桌面Linux发行版及家用设备Linux应用、VOIP及服务器系统产品,Ubuntu Builder/PMP,给多家游戏、互联网、移动应用企业兼任技术顾问或架构师。曾参与Linux标准工作组标准制定工作,目前多活跃 于北京、上海等地开源社区,是苏州自由软件用户组发起人之一,息壤开源、trystack.cn等社区参与者。
- 演讲主题:网易云硬盘系统简介
- 简介:存储、传输、处理是计算机系统的三大主题,存储作为其中的基石,其重要性不言而喻。传统的企业级存储对于互联网应用来说,其扩展性、成本都是一个痛点。随着云计算技术的发展,虚拟化的普及,在虚拟化的基础上使用块存储服务已经是大势所趋。网易云硬盘是在传统块存储技术的基础上,基于廉价设备构建可扩展、高可靠、高可用、有QOS保证、易运维的存储系统。公司的数据库云服务(RDS)及云搜索(NCS)都建构在云硬盘之上,本次分享将带您深入了解网易云硬盘这款产品,并就如何依赖云硬盘实现数据库高可用高可靠等技术主题展开讨论。
- 演讲嘉宾:吴东 网易杭州研究院高级开发工程师
- 毕业于华中科技大学计算机专业,2013年加入网易,从事网易分布式块存储服务的开发
与维护工作,技术爱好者,专注于底层存储系统与分布式系统技术。
- 演讲主题:Scaling PostgreSQL with Postgres-XL
- 简介: This talk gives an overview of Postgres-XL and how it scales both OLTP and OLAP workloads across a cluster of nodes. In addition, a brief demo of how to configure a test cluster on your laptop is done.
- 演讲嘉宾:Mason Sharp Chief Architect
- Mason has been worked with PostgreSQL for several years, working for companies like EnterpriseDB, StormDB and TransLattice. He has been part of multiple PostgreSQL clustering projects including GridSQL and Postgres-XC.
- 演讲主题:PostgreSQL 的使用在 Qunar 的演进
- 简介:The size and the workload for database has been growing rapidly both
for transactional (OLTP applications) and analytic (OLAP applications)
workloads. Although these two workloads have different
characteristics such as number of transactions, numbers of rows
involved, update centric or read centric and complexity of issued SQL
statements, there are good reason that scale-out approach makes good
sense, by combining more than one database into single one,
Scale-out approach chan extend the outcome of scale-up approach, which
we can see even in PostgreSQL. Postgres-XL/XC took this scale out
approach to deal with these different type of growing workloads. It
provides complete single database image to applicatins, while
integrating tens of PostgreSQL-based databases.
The talk will focus on architectural challanges of Postgres-XL/XC,
including global transaction management implementing atomic
visibility, node management and query processing. The talk will also
mention the project and its future challenges.
- 演讲嘉宾:Koichi Suzuki Fellow & Principal, Technology Professionals, NTT DATA Intellilink Corporation
- Koichi Suzuki has been involved in many database and internationalization work including Extended Unix Code (EUC) development, Japanese character support in Unix, Oracle port, Object
Relational database system development, PostgreSQL WAL compression and Postgres-XC database cluster.
- 演讲主题:PostgreSQL 的使用在 Qunar 的演进
- 简介: PostgreSQL 在 Qunar 网这么多年使用结构的一个变化,我们针对 PostgreSQL 使用做的一些运维保障工作,以及对未来发展方向的一个展望。
- 演讲嘉宾:王冬 去哪儿 postgres系统负责人
- 从事互联网工作10多年,做过运维,DBA,开发工作,目前负责 Qunar 旅游度假事业部的移动端开发和 PostgreSQL DBA 工作。
- 演讲主题:Postgres 9.5的特性及未来发展方向
- 演讲嘉宾:李元佳 华为高级产品经理
- postgres中国用户会发起人之一,致力于postgres在社区的普及与发展。
- 演讲主题:PostgreSQL分布式解决方案(PGPool 及 pg_sharb)
- 简介:关系型数据库的Shared Nothing分布式处理一直是业界的一大难题,由于PostgreSQL提供灵活的组件扩展及丰富的管理功能,因此近年来PostgreSQL出现了众多针对Shared Nothing的分布式解决方案。当中PGPool项目已经诞生12年,可以提供透明的读写分离集群方案,适合于大量读操作的业务场景,当前在国内也已经有众多的使用案例。pg_sharb是近年来新的分布式管理方案,借鉴了Hadoop中HDFS的数据分布模型可以实现数据的多分布式冗余,同时实现透明SQL操作,将是未来十分有潜力的PostgreSQL横向扩展方案。希望PostgreSQL社区的众多方案可以让更多的会者关注并投入到PostgreSQL的使用当中。
- 演讲嘉宾:萧少聪 北京神州立诚科技有限公司技术总监
- 负责公司Novell SUSE及EnterpriseDB产品的技术顾问及架构设计工作,兼任公司EnterpriseDB产品经理。06年通过红帽RHCE认证,并获得红帽RHCI认证讲师资格,09年通过红帽全球最高认证RHCA,成为国内前20名考取此认证的架构师。2012年获得EnterpriseDB公司Postgres Plus Professional认证,同年以理事身份筹建PostgreSQL中国用户会。拥有多年开发、架构设计及项目管理经验,专注于开源Linux系统管理及Postgres数据库、优化、集群系统、云-虚拟化架构设计领域。
|