曾就职于 IBM DB2 数据库北美实验室,作为 IBM DB2 全球最高技术专家小组的成员,参与了 IBM 下一代大数据平台的架构规划,精通数据库内核及体系结构,是数据库领域国际顶尖的专家。在 IBM 多伦多实验室工作了八年后,王涛选择了回国创业。王涛是大数据、数据库和开源领域的专家,对于开源技术、开源社区以及开源商业模式都有深刻的理解。
演讲主题:RocksDB: Key-Value Store Optimized for Flash-Based SSD
RocksDB is an embedded persistent key-value store for low-latency and high-throughput workload. It has been adapted to a wide range of workloads, including RocksDB as an embedded DBMS and as storage engines of other DBMS systems. Our benchmarks show RocksDB can achieve 126K random reads per second on flash and 7 million random reads per second on memory. RocksDB also uses half the space as InnoDB, writes out half the bytes to SSD with a similar read and write performance, under the same MySQL test workload. In this talk, we will start with typical use cases of RocksDB and then describe basic architecture of RocksDB. We will explain why RocksDB is SSD-friendly by showing our view of performance on SSD. Its mainly about trade-offs among read, write and space amplifications. By tuning RocksDB compactions users can strike a balance among the three. Finally, we will introduce the features of compaction filters, merge operators, backup engines and transactions.
演讲嘉宾:董思颖 Facebook Inc软件工程师
Siying Dong is a software engineer working in the Database Engineering team at Facebook, focusing on RocksDB. He also worked on Hive, HDFS, and some other data warehouse infrastructures. Before joining Facebook, Siying worked in the SQL Azure Team at Microsoft. He received a bachelor’s degree from Tsinghua University and a master’s degree from Brandeis University.
演讲主题:Transwarp StreamSQL:A SQL/PLSQL Stream engine on Spark
Daniel Goettert 毕业于德国科隆大学,硕士学位,主修专业为现代汉语和工商管理,专业方向为零售业,分销及市场。曾在大连理工大学留学一年。Daniel精通德语,英语,西班牙语和中文。于2015年初再次加入SAP公司,担任大中华区商务分析总经理和副总裁,带领Analytics团队为大中华区的SAP 客户提供企业绩效管理,风险合规,商务智能,预测分析等业务支持,在适用于中国市场和文化的基础上,引入全球企业中的最佳商业案例和实践,为客户带来更大的价值。
中国人民大学信息学院教授,博士生导师。现为中国计算机学会会士、《Journal of Computer Science and Technology》、《Frontiers of Computer Science》、《软件学报》、《计算机研究与发展》等编委。研制开发的主要软件系统有国产数据库系统COBASE(1991-1996)、嵌入式移动数据库系统“小金灵”(1998-2001)、纯XML数据库系统OrientX(2001-2007)等。在国内外杂志及会议发表论文200多篇,获国家发明专利授权12项,获部级特等奖1次、部级二等奖3次、中国计算机学会“王选奖”一等奖(2009)、北京市高校名师奖(2005)、中创软件人才奖(2002)等。近期主要研究领域为大数据管理,包括数据融合与知识融合、面向新型硬件大数据管理、大数据隐私管理、大数据分析、以及交叉性研究如社会计算等。
普惠金融(puhuifinance.com)的首席数据科学家,负责公司的人工智能、大数据技术以及创新产品的研发。在大数据、机器学习、深度学习、自然语言处理,图数据库等领域有丰富的研究和实践经验。在美期间,先后就职过亚马逊、高盛、Fiserv等多家公司。南开大学本科,美国 Texas AM 大学人工智能硕士,美国南加州大学机器学习博士,荷兰阿姆斯特丹大学访问学者,主要的研究方向为图模型、贝叶斯优化、深度学习、知识表示,先后发表数篇论文在 AAAI、KDD、AISTATS、CHI 等国际顶级会议和期刊上。
演讲主题: 大数据时代的数据仓储
为了监视进度、成本、质量以及指导业务流程改进,企业往往需要建设数据仓库以便产生报表和支持决策,一向是企业应用中的明珠。进入大数据时代以后,人们往往把大数据与Hadoop/Spark等同起来,数据仓库也非要SQL on Hadoop/Spark不可。其实,这个观点有些教条。大数据并不只是MapReduce,Massively Parallel Processing(MPP)也是一种为数据仓库设计的计算模型。MPP与MapReduce有许多类似的地方,比如都是在集群上分布式处理数据然后汇总数据,只是术业有专攻,它们有各自擅长的场景,是个互补的关系。在这个专场中,我们将介绍数据仓储的两种实现技术、各自适合的场景以及优缺点,借助demo,帮助观众灵活运用两种技术在大数据时代获取新的洞察力。
演讲主题:Google BigData solution using Dataflow, BigQuery and Pub/Sub around the world
Google provide a wonderful cloud framework that developer can enter big data domain very quickly. I will show the google way from collect data, compute data and store data... finally, you can easily analysis the data quickly to feedback your system. Another important issue is the cost of using cloud for big data processing. In the totally cost dimension, I will also show you the way to minimum the cost of your big data processing in my experience.
演讲嘉宾:胡際善 Staff Engineer LinkerNetworks
Staff Engineer of LinkerNetworks at Taipei. Also a core member of GCPUG.TW (Google Cloud Platform User Group Taiwan). Familiar with Googles cloud services, and also a google certificated cloud engineer. I want to show how googles solution in big data process below googles cloud infrastructure.
Sensors Data CEO,前百度大数据部技术经理。从2008年开始从事数据方向,从零构建了百度的用户日志大数据处理平台。2015年4月从百度离职,创建Sensors Data,帮助客户实现数据驱动。目前,面向互联网创业公司的产品Sensors Analytics已正式对外发布,客户包括爱鲜蜂、多盟、AcFun、秒拍等。
演讲主题:IT运维分析与海量日志搜索
IT运维分析是把大数据技术应用在IT运维产生的大量数据上,提升运维能力。日志是IT运维里面对的大数据。日志的分析经历了从 1.0使用数据库、2.0使用Hadoop/NoSQL、3.0使用实时搜索引擎 三个阶段。实时日志搜索分析需要每秒处理上百万条日志,延时只能有数秒的技术挑战,是fast big data.