会议详情 |
2016-08-03 08:00 至 2016-08-06 18:00
1000人
推荐会议:2024软件技术大会
发票类型:增值税普通发票 增值税专用发票
中信证券股份有限公司
北京领英信息技术有限公司
天云融创数据科技(北京)有限公司
北京齐尔布莱特科技有限公司
为什么您应该参加 | 体验 Strata + HW | 您会遇到谁 | 委员会
Strata + Hadoop World是最前沿科学与新兴商业基础碰撞的地方。在这里我们会深入探索新兴技术和科技。您将聆听案例研究、发展新技能、分享数据科学中新兴的最佳实践,并畅想未来。
O'Reilly 和 Cloudera 最近合作将 Hadoop World 带到全世界的Strata 大会中。我们的讲师聚焦于塑造产业所有方面以及数据科学的问题,这里是联系同行以及开始合作的最佳场所。
Strata + Hadoop World 将聚集大数据领域最有影响力的产业决策者、战略专家、架构师、开发人员和分析师,共同打造产业和技术的未来。
成为了解如何利用这些巨大变化的最前沿人群,并在所导致的颠覆中存活下来
在各个行业和学科找到利用您的数据资产的新方法
学习如何从科学项目中提取数据并应用到实际行业中
对专业数据人士来讲将发现培训、雇佣和职业机会
与其他创新人员和意见领袖面对面交流
3整天的议程包括富于启发的主题演讲、非常实用又有丰富信息的议题,以及很多有趣的社交活动。
探索最新的前沿问题、案例研究以及最佳实践
与商界领袖、数据专家、设计者和开发者交流的机会
为参会者、记者和供应商提供了活跃的“走廊交流会” ,使您有机会对重要问题进行探讨和辩论
有趣的晚间活动招待会,更重要的是给您更多与参会者和演讲者面对面的时间
Strata + Hadoop World 将吸引数据行业最出色的人员:开发者、数据科学家、数据分析师以及其他数据行业的专业人员,包括:
商业智能经理和分析师
商务经理、战略专家和决策者
CIO, CTO 以及企业架构师
数据驱动设计者,记者以及人类学家
数据工程师
数据科学家
设计者
开发者和数据库专业人员
创新人士和企业家
产品经理
研究人员和学术人员
风投和投资者
副总裁、市场主管或数据仓库主管
本·罗瑞卡(Ben Lorica)
是 O'Reilly Media 首席数据科学家,他曾在直接营销、消费者和市场研究、精准广告、文本挖掘以及金融工程等各个行业应用了商业智能、数据挖掘、机器学习以及统计分析等。他曾在投资管理公司、网络公司以及金融服务行业工作。
Doug Cutting
(@cutting) 建立了多个成功的开源项目,包括 Lucene、Nutch、 Avro 以及 Hadoop。Doug 2009 年离开雅虎加入 Cloudera,在这里他的团队组建并部署了 Hadoop 存储和分析集群,用于分析任务关键型的行业。Doug 毕业于斯坦福大学,是 Apache 软件基金会的董事会成员。
Jason Dai
现任英特尔大数据首席架构师。曾任英特尔软件和服务事业部技术总监、首席工程师,负责领导英特尔大数据架构的技术方向和研发工作,包括与 UC Berkeley合作研发下一代大数据技术(如Apache Spark 栈),并为多个大型互联网公司构建下一代大数据平台。Jason 在大数据、云、并行计算以及编译技术方面是世界公认的专家;他是 Apache Spark 项目的 PMC 成员,在国际学术会议和杂志上发表了超过15 多篇论文,拥有或申请超过20 多项专利,并曾在一些顶级大学教授计算机课程。
辛湜 (Reynold Xin), Databricks Yan Zhou, IBM 饶军 Jun Rao, Confluent 杨仿今 (Fangjin Yang), Apache Druid 陈明 (Justin Chen), GrowingIO 刘少山 (Shaoshan Liu) 陳怡揮 (Evan Chan), Tuplejump 马思邈 (Angie Ma), 爱思 范斌 (Bin Fan), TachyonNexus 崔宝秋 (Baoqiu Cui), 小米公司 徐葳 (Wei Xu), 清华大学 杨旸 (Yang Yang), 易鲸捷信息 俞舫 (Fang Yu), Datavisor 刘睿民 (Dowson Liu), 柏睿数据 |
邵铮 (Zheng Shao), 优步 朱錦榮 (Kelvin Chu), 优步 Doug Cutting, Cloudera Eli Collins, Cloudera 黄晟盛 (Shane Huang), Intel 阎志涛 (Tony Yan), 北京腾云天下科技有限公司 王太峰 (Taifeng Wang), Microsoft Research 叶懋 (Mao Ye), Pintrest 旷海蓉 (Hairong Kuang), Facebook 张喆 (Zhe Zhang), 领英 Amr Awadallah, Cloudera Jeff Hammerbacher, Cloudera Charles Zedlewski, Cloudera |
所有培训课程安排在周三周四上午9:00至下午5:00。为了保证高水平的动手学习和与导师互动机会,全部培训课程都会限制在一定规模。
参加学员应该参加全部2天的内容。 培训门票不能参加周四的辅导课。
8月3日周三——8月4日周四 |
Apache Cassandra:多学多得
地点: 多功能厅3A(Function Room 3A)
Berglund Tim (DataStax), Gallagher Tanya (DataStax)
O’Reilly Media和DataStax联合推出了这个为期两天的Apache Cassandra开发课程。在Strata+Hadoop World大会上获得Cassandra的开发人员培训,获得NoSQL技能的认可,并在对Cassandra开发人员高速增长的市场需求中获益。
在Spark和Hadoop上做大规模数据科学
地点: 多功能厅3B(Function Room 3B)
江 毛进 (Cloudera)
江毛进是美国Cloudera公司讲师,大数据工程师,自2012年起率先将Apache Hadoop为基础的开源大数据技术通过Cloudera大数据技术培训的方式带给国内的大数据企业用户和技术人员,积极推动大数据在国内的普及及应用。
Spark基础:使用维基百科数据集来用Spark进行原型实验
地点: 多功能厅5A(Function Room 5A)
Apache Spark的真正价值和强大能力在于用它可以构建一个统一一致的分析场景,囊括了从ETL(数据抽取、转换和载入)、批处理分析、实时流分析、机器学习、图类型数据分析,到可视化的多种功能。在这个历时2天的课程里,布莱恩·克莱坡通过对多种维基百科数据集的动手操作来展示了理想中Spark可以完成的多样化的编程模式。在培训结束时,参加者将具备运用Spark来进行概念验证和原型搭建的能力。
请选择8月4日周四的全天或半天辅导课。专家的讲座将带你深入重要议题。请注意:参加辅导课您的注册内容包必须包含周四辅导课;该门票不能参加培训课程。
8月4日 周四 |
09:00–12:30 Thursday, 2016-08-04
Apache Spark高级机器学习实践
地点: 报告厅(Auditorium)
王 奕恒 (Intel)
在大数据时代,越来越多的企业引入了机器学习技术以提高效率和降低风险。而进行大数据的机器学习是一件比较具有挑战性的工作。作为最流行的大数据处理平台,Apache Spark提供了丰富的机器学习组件,帮助开发者大大降低了这项工作的复杂性。Intel帮助大型互联网和企业用户在Spark平台上做了大量机器学习的实现和优化工作。在本次课程中,来自Intel的工程师会带领大家探索Spark上的机器学习组件以及一些高级功能,并分享真实案例中的实践经验。
09:00–12:30 Thursday, 2016-08-04
Apache HBase开发者教程
地点: 多功能厅2(Function Room 2)
Du Jingcheng (Intel), Zhou Wei (Intel)
Apache HBase, Apache Hadoop生态系统中的分布式数据库,是当今最流行的非关系型数据库之一,也被许多世界级的公司所使用,如阿里巴巴,小米,Facebook和Apple,用来存储和分析PB级的数据。 竟成和伟将为您讲述HBase的架构,并详解如何使用HBase提供实时的大数据服务。
09:00–17:00 Thursday, 2016-08-04
Spark camp: Exploring Wikipedia with Spark
地点: 多功能厅5B+C(Function Room 5B+C)
Farooqui Sameer (Databricks)
The real power and value proposition of Apache Spark is in building a unified use case that combines ETL, batch analytics, real-time stream analysis, machine learning, graph processing, and visualizations. Through hands-on examples, Sameer Farooqui explores various Wikipedia datasets to illustrate a variety of ideal programming paradigms.
09:00–12:30 Thursday, 2016-08-04
商业应用中的数据科学和机器学习
地点: 多功能厅6B(Function Room 6B)
Ma Angie (ASI), Zhang Yingsong (爱思数据科学)
这个3小时的辅导课从业务的角度出发集中介绍了数据科学的关键概念。本课程是为了那些希望在他们业务中引入数据科学的听众所准备的。
13:30–17:00 Thursday, 2016-08-04
Deep learning with TensorFlow
地点: 多功能厅2(Function Room 2)
Chen Jianmin (Google), chen zhifeng (Google)
陈健敏和陈智峰示范使用Tensor Flow这个广受欢迎的开源库训练和部署机器学习系统。你将能学会如何创建一个机器学习系统,小到简单的分类器,大到复杂的基于图像的模型,还可以学会如何使用TensorFlow Serving来部署你的模型。
13:30–17:00 Thursday, 2016-08-04
Apache Kylin 教学辅导课
地点: 多功能厅6B(Function Room 6B)
史 少锋 (Kyligence)
Kyligence由Apache顶级项目Apache Kylin核心贡献者团队组建,团队一贯致力于推动Apache Kylin开源项目的发展和演进,提供基于的Apache Kylin的大数据分析产品和服务,拓展全球用户社区,构建更为丰富的生态系统。 Apache Kylin Tutorial针对Apache Kylin的使用者,管理者及开发者提供相关的辅导课程,由Apache Kylin 核心贡献者及PMC 成员倾力提供,学员经认证考试,可获得由Kyligence公司提供的相关认证证书。
13:30–17:00 Thursday, 2016-08-04
内存为中心的开源虚拟分布式存储系统Alluxio(前Tachyon)入门
地点: 报告厅(Auditorium)
Li Haoyuan (Alluxio), Fan Bin (Alluxio), 富 羽鹏 (Alluxio Inc), 顾 荣
本辅导课内容为了解Alluxio(前Tachyon)的基本原理, 应用场景, 以及如何使用Alluxio让分布式计算引擎以内存速度共享以及交换数据. 在上机实践环节中, 参与者将在老师指导下亲自动手部署和运行Alluxio, 为Alluxio挂载外部存储系统(如HDFS), 使用Alluxio内置命令行与系统交互, 并尝试使用常见计算引擎(如Apache Spark)搭建从Alluxio系统中读写的大数据应用. 此外学员还将学习Alluxio内置的常用命令行操作, Web界面使用操作, 使用面向开发者的API. 本辅导课理想参加者群体包括(但不限于)大数据应用开发人员, ETL开发人员, 数据科学家,存储管理人员。
8月5日 周五 |
11:55–12:35 Friday, 2016-08-05
TensorFlow: A system for machine learning on heterogeneous systems
地点: 报告厅(Auditorium)
Chen Jianmin (Google), chen zhifeng (Google)
陈健敏和陈智锋将会给大家介绍Tensor Flow,一个跨平台,高效率和支持大规模分布式训练的机器学习开发平台。
11:55–12:35 Friday, 2016-08-05
Apache Hadoop十周岁:展望前方
地点: 紫金大厅A(Grand Hall A)
Chen Xiao (Cloudera), Zhang Zhe (LinkedIn)
过去十年,Apache Hadoop从无到有,从理论概念演变到如今支撑起若干全球最大的生产集群。接下来的十年,Hadoop将继续壮大,并发展支撑新一轮的更大规模、高效和稳定的集群。 我们此次将向大家全面介绍即将到来的Apache Hadoop 3.0新版本——从版本发布状态、背后的故事,到如HDFS Erasure Coding、Yarn federation、NN k-safety等全新的功能。
11:55–12:35 Friday, 2016-08-05
基于Apache Spark的金融欺诈检测
地点: 紫金大厅B(Grand Hall B)
Yang Yuhao (Intel), Wang Yiheng (Intel), Huang Shengsheng (Intel)
在金融领域使用现代大数据分析技术正在逐步成为趋势。数据正在以更大的规模和更多的维度涌入,丰富了信息的同时也带来了数据分析领域快速增长的复杂度,在数据统计,特征工程和模型调优方面也对自动化框架提出了更高要求。通过与一些顶级的支付公司进行合作,我们开发出了基于Spark构建欺诈检测系统的完整解决方案。本次分享将介绍我们基于Spark DataFrame和机器学习pipeline搭建的完整工具链和相关经验。
11:55–12:35 Friday, 2016-08-05
视频监控大数据平台架构和实践
地点: 多功能厅2(Function Room 2)
周 明伟 (浙江大华技术股份有限公司)
本议题主要分享面对海量视频图片数据的大数据挑战,实现基于erasure coding,高IO聚合性能,高并发写入,数据近实时可读的云存储系统;基于spark,结合视频、图片分析算法,打造高性能视频图片分析系统;基于solr、spark sql的有机结合,打造支持SQL的通用分析型数据库系统;以及分享存储、计算、分析有机组合,打造监控视频图片大数据平台的思路和实践经验。
11:55–12:35 Friday, 2016-08-05
如果为您的企业做一个数据可视化大屏?
地点: 多功能厅5B+C(Function Room 5B+C)
崔 岸雍 (阿里云-数据事业部)
数据大屏越来越普及,几年前还只是在电影中或者双11现场才会看到的数据大屏幕,现在几乎随处可见,无论是电商公司需要一块实时订单分析的展示,还是交通领域用于车辆车流的分析,还是物联网领域用于设备运检的监控,或是说想用数据作为展现企业业务的手段?那么该如何设计,架构,实施就是本次演讲的主要内容。
13:50–14:30 Friday, 2016-08-05
百度无人车背后的巨大数据挑战
地点: 报告厅(Auditorium)
Wang Haojun (Baidu)
无人车是百度目前重点开发的项目。在较短的时间内,百度无人车已经取得了高速+本地道路测试的阶段性成果。在这个讲演中,我们会详细向大家介绍无人车背后的数据问题,比如海量的数据采集和整理用于离线的模型训练,在线高速数据吞吐处理的需求。百度通过自主研发高性能的离线和在线数据平台,使得百度无人车的技术现在在全球竞争中占有一席之地。我们还将展望百度无人车今后的发展规划。
13:50–14:30 Friday, 2016-08-05
启用Hadoop的“哨兵”-Sentry的最新通用权限管理模型
地点: 紫金大厅A(Grand Hall A)
Hao Hao (Cloudera), Yu Anne (Cloudera)
Apache Sentry (哨兵)是由cloudera发起的Hadoop的第一个可以提供企业级安全系数的细粒度存取控制系统。它整合企业级认证服务系统,例如kerberos,来实现企业的高质量大数据的安全性,可以提供金融、政府、医疗保险和其它对敏感数据的访问有严格监管的安全服务。
13:50–14:30 Friday, 2016-08-05
金融界大数据的智能语义网
地点: 多功能厅5B+C(Function Room 5B+C)
谭 耀宗 (Thomson Reuters)
汤森路透是全球最大的金融信息提供商之一。它每天产生的数据量较大从宏观金融新闻至买卖打勾大量数据。汤森路透使用了DataFusion数据融合应用软件合并了金融、网上语义的数据和不同庞大机构内里的数据构形成了世界上最大的金融数据仓库。这方案能解决不少机构在使用内外数据的问题。 这些外部和内部数据是由开源PermIDs联系在一起。它用来代表无论是事实,事件,地理位置,任何主题,人或公司的用例。 PermIDs使用在汤森路透DataFusion数据融合软.这乃是一个图形数据库,能纳入不同样的数据来源. 它的架构是3层次包括Hadoop的map/reduce的计算法,搜索索引Solr的框架和Accumulo数据库键/值对存储图形的关系。 广泛的用途包括桶集群不同风险因素给于金融资产险经和风险经理参考,协助工业企业在供链关系的风险管理和在银行的KYC客户尽职调查的风险评估。
13:50–14:30 Friday, 2016-08-05
Apache Beam, 一种定义可移植的流式及批量式数据处理的新方式
地点: 多功能厅2(Function Room 2)
周 云庆 (Google)
Apache Beam (incubating) 的目标是解决数据处理领域中共有的几个关键问题:可移植性、可维护性和抽象化。您可以只撰写你的数据流水线一次(有多种语言的SDK可供选择),就可以使用到强劲的无序流式数据处理语义,并在多种引擎和多种平台上执行。
13:50–14:30 Friday, 2016-08-05
基于SparkSQL构建即席查询平台
地点: 紫金大厅B(Grand Hall B)
孙 垚光 (百度)
越来越多的企业依赖于海量数据分析结果进行关键业务决策。 大规模下的交互式/即席数据分析,是进行数据分析和探索的主要途径,具有广泛的商业前景。 Baidu BigSQL由百度基于SparkSQL研发,为百度内部业务和广大公有云用户提供即席查询分析服务,具有简单易用、超大规模支持、数据结构灵活、成本极低等特点。
15:30–16:10 Friday, 2016-08-05
分布式深度学习算法产品及其在蚂蚁金服业务中的应用
地点: 报告厅(Auditorium)
褚 崴 (阿里云大数据事业部iDST)
近年来深度学习技术迅猛发展,在图像识别,语音交互,机器翻译等领域展现出了巨大的潜力。依托阿里云自主研发的分布式数据存储与计算服务ODPS,我们研发了机器学习平台产品PAI(Platform of Artificial Intelligence),支持分布式的深度学习算法产品。在CPU和GPU混布计算集群上,深度学习算法产品进一步提升高性能计算的分布式能力,海量数据得以在多机多卡间并行处理,大幅提升训练收敛速度。在蚂蚁金服的业务中,分布式深度学习算法产品也得到了广泛的应用,解决关键业务难题。我们将详细介绍分布式深度学习算法产品的实现和性能指标,以及在蚂蚁金服业务中的一系列应用,并展望下深度学习将来在阿里产品体系中的潜在应用。
15:30–16:10 Friday, 2016-08-05
用同一个SQL引擎解决事务、分析和报表的理想世界
地点: 紫金大厅A(Grand Hall A)
刘 鹏翔 (上海易鲸捷信息技术有限公司)
很多公司希望用同一个数据库引擎来解决各种需求,从事务、分析到报表型任务流,支持结构型、半结构型和非结构型数据,利用图形数据库,文档存储,搜索引擎,列式存储,键值存储和宽列存储等类型。这个数据库的理想世界能实现吗? 挑战包括: 用同一个查询引擎,应对运营事务型和分析型任务流; 支持多种存储引擎,每种引擎都有各自领域; 用同一个数据模型,应对各种任务流,确保高水准性能。 近几年来,有几个开源项目专注于Hadoop上的SQL引擎,大多数关注于分析类。 Apache Trafodion建立在HBase基础上,用SQL同时完成分析型和事务型任务。 Trafodion设计和部署超过二十年,从天腾的NonStop SQL/MX,后来被惠普收购,衍生出Neoview等。2014年将部分Neoview开源为Trafodion(威尔士语“事务”),从大型机硬件上移植到线性拓展的Linux上。
15:30–16:10 Friday, 2016-08-05
Alluxio (前Tachyon) 以内存为中心的虚拟分布式存储系统的原理与使用
地点: 多功能厅5B+C(Function Room 5B+C)
Fu Yupeng (Alluxio), 范 斌 (Alluxio)
在大数据应用场景中,针对不同的计算框架与任务分别配置数据源和存储资源,以及在不同的计算框架间高速有效的实现数据共享和管理是一件困难且挑战的任务。Alluxio(前Tachyon)是世界上第一个以内存为中心的虚拟分布式存储系统. 它为不同的计算框架提供的统一的接口来访问不同类型的数据源,并实现了多层次的存储机制,从而有效的解决数据存储的管理与配置问题.
15:30–16:10 Friday, 2016-08-05
Apache Gearpump 基于Akka的新流处理引擎的介绍和应用
地点: 多功能厅2(Function Room 2)
Zhong Sean (Intel), Zhang Tianlun (Intel)
Apache Gearpump, 由中国本土团队创造,在今年3月正式成为Apache基金会的孵化项目。Apache Gearpump是一个基于Akka Actor 的轻量级的实时流计算引擎, 她能解决实时计算,实时反馈,实时机器学习和数据分析等各种大数据的实时问题,适用于金融,物联网,企业云,医疗等各种应用场景。 亮点包括: Event time, Exactly-once消息处理,每秒千万消息吞吐量, 毫秒级延时, Storm Binary兼容, 支持Akka Stream API, 支持Apache Beam API. 本次演讲, 也会会分享一些用例.
15:30–16:10 Friday, 2016-08-05
从TDW-Hive到TDW-Spark-SQL——腾讯TDW数据引擎演进之路
地点: 紫金大厅B(Grand Hall B)
SHEN HONG (腾讯)
腾讯分布式数据仓库(Tencent distributed Data Warehouse,简称 TDW),是腾讯工程技术事业群数据平台部基于开源软件研发的大数据处理平台,是腾讯内部最大的离线数据处理平台 。2016年开始,TDW数据引擎开始从TDW-Hive切换到TDW-Spark-SQL,无论从整体的任务运行效率和资源消耗,都得到了很大的优化。
16:20–17:00 Friday, 2016-08-05
面向健康医疗的大数据机器学习系统及案例分析
地点: 报告厅(Auditorium)
朱 军 (清华大学)
近年来,医疗健康大数据(如电子病例、医学成像等)被多种方式不断采集,数据规模呈现快速增长的态势,传统的数据分析方式不能满足海量数据的深度挖掘。如何利用有效的机器学习技术从复杂异构的大数据中提取有价值的信息来帮助疾病诊断与预防等是当前面临的一个重要科学与技术挑战。该报告将分享清华大学与卡内基梅隆大学的合作团队多年来在大数据机器学习关键技术与系统平台上的最新进展,并且结合医疗健康大数据分析的具体案例阐述如何通过领域交叉,解决重要问题。具体报告内容将包括:数据表示与特征提取、多模态医疗健康数据分析与融合、自然语言处理技术、大规模分布式机器学习平台、疾病诊断与预测系统等。
16:20–17:00 Friday, 2016-08-05
Hadoop基于CDC(Change Data Capture)的数据同步
地点: 紫金大厅A(Grand Hall A)
罗 德祥 (星环信息科技(上海)有限公司)
数据同步机制的缺乏严重限制了Hadoop在更多新领域的推广和应用,怎么把数据实时/准实时地从其他数据库同步到Hadoop成为推广Hadoop的一个非常关键的因素。用户希望在保证数据的一致性,参照完整性的前提下,把CDC(Change Data Capture)的增量数据实时/准实时地同步到Hadoop集群,使之能够应用到实时性要求更高的业务上。 星环科技针对这种对实时性要求比较高的业务需求,开发了一种基于CDC增量数据的同步方案,有效的解决了这个问题,极大的扩展了Hadoop的应用范围。
16:20–17:00 Friday, 2016-08-05
spark实时计算的开发平台RCS——阿里流式分析实战
地点: 紫金大厅B(Grand Hall B)
zhu jinqing (alibaba)
目前spark在实时计算领域的使用越来越广泛,对应广告系统或者电商业务,实时性就意味着系统稳定性的重要性。spark开发者可以自己在任何机器上显式提交job,然后自己在机器上排查,异常情况下排查耗时长,job的稳定性保障受限,比如机器挂或者idc异常就无从考虑。 我们的RCS平台(realtime computing service)可以让开发者对spark的后端集群、指标监控、任务容灾全部透明,无线关注集群细节,专注于业务的实现;同时满足实时任务99.99%的稳定性保障。因此RCS平台对开发者提供一个开发平台,让用户可以自助提交job、源端流式数据的接口封装(无须关注kafka的具体地址等)、任务容灾和集群容灾一站式的数据开发平台。
16:20–17:00 Friday, 2016-08-05
火车物联网
地点: 多功能厅2(Function Room 2)
陈 奇 (事业部)
大数据是如何让你的上班之旅更舒适?
16:20–17:00 Friday, 2016-08-05
基于集群管理的容器(Docker) & 大数据系统自动化DevOps框架
地点: 多功能厅5B+C(Function Room 5B+C)
Shi Dongjie (intel)
本议题主要介绍一种面向大数据应用、基于Docker容器进行微服务编排,管理集群和自动化DEVOPS的框架以及一些分布式应用的Docker Image开发的实践经验。
17:10–17:50 Friday, 2016-08-05
Case study on spatial-temporal trajectory analysis
地点: 报告厅(Auditorium)
zeng henry (IBM), song huiju (IBM)
Henry Zeng and Hui Ju Song share a real-world case study on using Hadoop- and Spark-based big data technology with huge cellular signal, RFID, and GPS data to analyze people trails to support precision urban planning.
17:10–17:50 Friday, 2016-08-05
MongoDB在58同城的应用实践
地点: 多功能厅5B+C(Function Room 5B+C)
孙 玄 (58同城)
随着大数据时代的到来,各种NoSQL数据存储产品蜂拥而至,MongoDB作为一支市场占有率较高的分布式文档存储数据库,它具备了Auto Sharding、高可扩展性、丰富的查询支持等特性,相比较传统关系数据库,MongoDB具有了较大的诱惑力。结合58同城的特点,本Topic重点讲述:MongoDB在58同城的使用情况;为什么要使用MongoDB; MongoDB在58同城的架构设计与实践 ;针对业务场景我们在MongoDB中如何设计库和表 ;数据量、并发量并发,遇到典型问题和解决方案;社区贡献和展望。 来吧,一起揭开MongoDB应用实践的神秘面纱!
17:10–17:50 Friday, 2016-08-05
华为在Spark Streaming上进行的高级数据科学改进
地点: 紫金大厅B(Grand Hall B)
Qian Jianfeng (Huawei), He Cheng (Huawei)
我们将会介绍StreamDM——华为诺亚方舟实验室开发的一个新的基于Spark Streaming的实时分析开源软件库。StreamDM是首个包括先进的流数据挖掘算法的Spark Streaming库。我们还会介绍正在进行的使用StreamDM的业务场景,如华为应用商店的推荐和华为全球技术服务业务使用的大数据分析。
17:10–17:50 Friday, 2016-08-05
大章鱼:跨平台统一大数据机器学习与数据分析编程框架与系统
地点: 多功能厅2(Function Room 2)
Huang Yihua (Nanjing University(PASA BigData Lab))
大数据机器学习和数据分析是一个同时涉及机器学习和大数据处理技术的交叉性课题。目前大数据机器学习与数据分析一个最大的问题是:机器学习研究者和数据分析师难以掌握和使用各种大数据编程技术和平台,因此,在两者间存在一个很大的鸿沟。因此,有必要研究提供底层具有大数据处理能力、而上层便于普通机器学习研究者和数据分析师使用的大数据分析编程环境和平台。 本报告将简要介绍大数据机器学习系统的技术现状、技术特征和技术问题、典型大数据学习系统。在此基础上介绍我们所研究实现的全球第一个跨平台统一大数据机器学习与数据分析编程框架与系统“大章鱼(Octopus)”。该系统底层可集成Hadoop、Spark、MPI、Flink等主流大数据处理平台,上层提供基于大规模矩阵的机器学习和数据挖掘算法编程模型、接口和软件框架,并提供基于标准R和Python语言的编程环境,可实现底层大数据平台对上层数据分析程序员完全的透明性
17:10–17:50 Friday, 2016-08-05
Presto在优步:千万亿字节规模的交互式查询
地点: 紫金大厅A(Grand Hall A)
罗 震霄 (Uber)
对于优步和其他大数据公司而言实时交互式分析正变得越来越重要。在这个讲话中会介绍我们是如何使用Presto来解决优步的特殊问题。我们也会介绍优步的大数据架构,尤其是开发和部署Presto来实现秒级查询千万亿字节规模数据的部分。
8月6日 周六 |
11:55–12:35 Saturday, 2016-08-06
融合知识图谱的文本异构信息网络构建以及在机器学习中的应用
地点: 报告厅(Auditorium)
张 铭 (北京大学)
机器学习的过程往往是需要监督的,而无数的互联网用户为维基百科贡献了智力劳动,使得它成为一个质量较高的通用知识框架。关键的挑战在于如何调整和表示wiki的通用知识去适应各个领域,从而更好的辅助机器学习。 我们首先介绍通用知识图谱的特定化框架,包含无监督的语义分析模块以及实体-类型消歧的语义过滤模块。特定化之后的通用知识自然地表示为含有多种实体、关系和类型所构成的异构信息网络,然后将异构信息网络中的特定化知识应用于机器学习模型中。 我们以文本聚类、文本相似度计算为应用实例,使用Freebase和YAGO2这两个知识库作为通用知识的来源,在两个文本的基准数据集(20newsgroups 和RCV1)上的实验结果表明使用通用知识作为间接的监督,能够显著的提高现有最好的聚类算法和相似度计算方法。 相关工作已经发布于KDD、AAAI、IJCAI、ICDM、SDM等顶级学术会议。
11:55–12:35 Saturday, 2016-08-06
YARN集群上的分布式深度学习
地点: 紫金大厅A(Grand Hall A)
He Pengcheng (Microsoft)
训练速度一直是采用深度学习的一个最大的障碍,造成我们公司内的许多团队都没有足够的计算资源来对大数据使用深度神经网络进行训练。我们开发了运行在YARN集群上的分布式深度结构化语义模型(DSSM)训练系统,可以在使用超过100个CPU的集群上获得超过单个K40 GPU的速度。在这个演讲里我们很高兴来分享我们的一些经验。
11:55–12:35 Saturday, 2016-08-06
小米数据平台的实践
地点: 紫金大厅B(Grand Hall B)
崔 宝秋 (小米)
在这个演讲中, 我们将介绍在小米这样一个数据量急速增长的创业公司里,如何基于Hadoop生态系统和其他开源软件打造小米的数据平台,并在此基础上不断演进以满足小米各个业务的数据需求。我们还将介绍一下小米在大数据相关开源软件上的参与,在信息安全和隐私保护上的一些实践经验,以及我们目前在数据驱动上面临的一些挑战。
11:55–12:35 Saturday, 2016-08-06
基于Mesos DCOS的大数据云计算平台架构
地点: 多功能厅2(Function Room 2)
Chen Biao (Cloudera)
Mesos推出了的DCOS作为企业级的资源管理框架能让数据中心资源分配更易于使用,同时让在外部运行企业应用更可靠。底层使用Mesos构件云计算平台,而将Hadoop平台作为应用之一,运行于DCOS中既满足企业对于数据中心集群弹性分配的云计算需求,同时又使得数据中心的大数据能力得到更好的保障。是未来很有希望的技术发展路线之一。本议题将解析Hadoop on DOCS的架构以及在实际生产应用中的实践。
11:55–12:35 Saturday, 2016-08-06
Druid: 助力大规模交互式应用
地点: 多功能厅5B+C(Function Room 5B+C)
Yang Fangjin (Imply)
如Hadoop和Spark这样的集群计算框架,对于处理海量数据并从中发现洞察是非常有帮助的。然而,很长的分析延迟使得这些框架对于交互式应用而言并不是最好的选择。在这个演讲中,我们会介绍如何使用Druid这一专门为分析事件数据的工具来助力(交互式)应用的。
13:50–14:30 Saturday, 2016-08-06
金融反欺诈中,社交网络算法有用吗?
地点: 报告厅(Auditorium)
Wang Ting (宜人贷), Chong Jike (YiRenDai/CreditEase)
在大规模互联网金融服务的实现过程中,为了效率和可扩展性,用户在没有面对面授信的过程中就可以得到几千至几十万元的资金或服务。互联网金融公司是怎样用大数据和机器学习来降低欺诈风险,弥补欺诈漏洞的呢?本次演讲将带你探索社交网络算法在金融反欺诈方面应用机会,深入讨论多维度、多维复杂关系、多类型节点等数据特性所带来的挑战,以及一些实际案例。
13:50–14:30 Saturday, 2016-08-06
构建基于Apache Kylin的大数据分析平台
地点: 紫金大厅A(Grand Hall A)
韩 卿 (Kyligence Inc)
Apache Kylin已经在众多的on-promise环境中得以大量使用,包括eBay,百度,网易,京东,美团,唯品会,中国移动等以解决他们的大数据挑战。有越来越多的人活跃于社区并期望了解他们如何使用和部署Apache Kylin,为什么选择Kylin以及用Kylin来解决什么样的业务问题,与其他系统的差别,对比及性能比较等。在这个演讲中,来自Apache Kylin的项目副总裁,韩卿(Luke),将使用一些实际的案例来解答这些疑问,并介绍Apache Kylin之后的路线图及新特性等。
13:50–14:30 Saturday, 2016-08-06
滴滴出行实时计算系统架构及实践
地点: 紫金大厅B(Grand Hall B)
Ai Yi (滴滴出行(Didi Chuxing))
滴滴出行作为全球最大的移动出行平台,每天收集和需要分析处理的数据量非常大。这些数据形式多样:既包括存储于数据库中的业务数据,也包括各种API请求所记录的文本日志。此外,更大的挑战在于业务上需要我们实时的分析处理如此大规模的数据。从数据生成到可被分析查询,系统延迟在秒级。我们选用Druid/Samza/Kafka/Spark/Hadoop等开源技术栈,开发了符合Lambda architecture的OLAP系统。本次演讲我们以滴滴大数据实时监控系统为例,介绍滴滴实时计算系统架构所面临的挑战及相应解决方案。
13:50–14:30 Saturday, 2016-08-06
基于Kafka以及Spark streaming的高扩展性数据质量保证平台
地点: 多功能厅2(Function Room 2)
Xing Tony (微软中国有限公司)
微软的ASG (应用与服务集团)包含Bing, Office, Skype。每天产生多达5PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性。 在这个议题里,我将介绍微软ASG大数据团队如何利用Kafka,Spark以及elastic search来解决这个问题。
13:50–14:30 Saturday, 2016-08-06
Alluxio帮助去哪儿网酒店数据业务最高提速300x
地点: 多功能厅5B+C(Function Room 5B+C)
李 雪岩 (去哪儿网), 徐 凯 (去哪儿网)
Qunar作为国内在线旅游门户网站,拥有丰富的业务数据和UGC数据。为了能够敏锐的发现系统和用户行为变化,我们构建了一套实时数据流处理和反馈系统。由于系统接入的异构数据源数以百计,系统上运行分析方法也是千奇百怪,所以我们搜罗了一揽子功能强大的工具解决各种需求,这其中比较核心的工具有ELK、Spark、Flink、Alluxio(原名Tachyon)、Mesos和Marathon等。其中Alluxio作为一款内存为中心的分布式存储系统,在我们的系统中扮演着数据纽带的作用,简化系统复杂度(技术收敛),降低读写IO。比如: 1.流数据持久化到设备和UnderFS 2.Spark Streaming Blk/Checkpoint外部存储 3.Batch和Streaming的数据共享 Alluxio以其丰富的功能和优异性能,使得我们构建一个高可用,灵活可伸缩实时数据流平台的工作成为了可能。
15:30–16:10 Saturday, 2016-08-06
针对大规模机器/深度学习的分布式参数服务器
地点: 报告厅(Auditorium)
Liu Yi (Intel)
在大规模的机器学习和深度学习中,模型参数的维度往往非常高,比如几千万,几亿以上的维度,这对内存、计算/网络传输是很大的挑战。本议题讲述参数服务器如何高效地解决这一问题,并结合Spark讲述一些实际中的使用。
15:30–16:10 Saturday, 2016-08-06
用动态自服务的队列和容量管理来帮助用户
地点: 紫金大厅A(Grand Hall A)
Shen Min (LinkedIn)
领英的Hadoop集群为多个内部业务部门提供服务,并保证一定的业务质量等级(SLA)。另一方面,集群的管理员希望能维持集群总体上的高使用率和效率。这个讲话会介绍一些我们对容量调度器(Capacity Scheduler)使用的最佳实践经验和对它的扩展。这些经验帮助我们更好地应对复杂的集群资源管理任务。
15:30–16:10 Saturday, 2016-08-06
Spark和YARN:最好一起工作
地点: 紫金大厅B(Grand Hall B)
Shao Jerry (Hortonworks), Zhang Jeff (Hortonworks)
现在Spark已经获得了广泛的使用。由于它框架设计上的灵活性,Spark可以运行在不同的集群管理器模式下:Standalone、Mesos和YARN。在本讲话里中我们会聚焦于运行在YARN上的Spark,讲解如何以及为何要在YARN上运行Spark。我们还会介绍一些最佳实践的经验,并介绍这个领域的未来。
15:30–16:10 Saturday, 2016-08-06
工业大数据系统及其应用实践
地点: 多功能厅2(Function Room 2)
王 晨 (昆仑智汇数据科技(北京)有限公司)
以智能化为特征的高端制造已成为新工业革命国际竞争的制高点。麦肯锡认为制造业是美国首个数据量超EB级的领域。“中国制造2025技术路线图”更将工业大数据平台作为我国工业软件领域唯一重点突破产品。本议题将着重介绍在工业这个特定领域中,如何构建以处理机器设备产生的大量时序数据为主的大数据系统,其中的关键技术突破,以及如何通过大数据平台以及大数据分析技术对工业智能制造与服务转型予以有力支撑。
16:20–17:00 Saturday, 2016-08-06
Twitter实时计算平台技术主管
地点: 报告厅(Auditorium)
Fu Maosong (Twitter Inc.)
Twitter每秒会产生亿级的事件数据。稳定、实时、高效地处理这些数据成为一个巨大的挑战。为此,Twitter设计部署了新一代的实时计算框架,Heron,使得工程师们可以简单地基于Heron开发分布式实时计算应用。Heron在2014年底已经完全取代Storm成为了Twitter新一代的实时计算框架,被广泛地适用于各种场景,如实时数据挖掘,实时信息监控......
16:20–17:00 Saturday, 2016-08-06
HDFS Erasure Coding: 一半的成本,更快的速度
地点: 紫金大厅A(Grand Hall A)
Zhang Zhe (LinkedIn), Li Rui (Intel)
HDFS-EC通过引入纠错码的方式大幅降低了HDFS的存储开销,目前项目的第一阶段已经进入Trunk,并将作为主要的新功能随Hadoop 3.0发布。随着项目的进展,我们也对HDFS-EC的性能进行了全面的测试。本次演讲的主题是展示并分析最新的测试数据,帮助用户了解HDFS-EC的性能特性。
16:20–17:00 Saturday, 2016-08-06
大学习时代:应对大数据和大模型的挑战
地点: 紫金大厅B(Grand Hall B)
zhou hucheng (Microsoft Research)
人们已经不满足于从大量数据中做一些简单的查询和挖掘,而是需要从大量数据中自动学习能够进行准确的预测、排序以及推荐的模型。相应的,从技术上来看,针对大数据分析的类map-reduce计算系统已经发展成熟,而设计和实现针对大规模机器学习的系统却面临大数据和大模型带来的挑战。针对这种“大学习”系统的相关研究也方兴未艾,是当前工业界和学术界都很关心和投入的一个方向。我们致力于在Apache Spark上设计和实现一个通用的、高性能的、以及可扩展的分布式机器学习平台Zen。这个平台,我们重点实现当前工业界运用最广泛的模型,包括适用于广告点击率预测的logistic regression,主题模型LDA,搜索排序模型LambdaMART (GBDT), 以及推荐模型FM。这里,我很荣幸和大家分享我们过去一年中的取得的成果和经验教训。
16:20–17:00 Saturday, 2016-08-06
基于Druid和Drill的OLAP引擎
地点: 多功能厅2(Function Room 2)
杨 克特 (阿里巴巴)
Druid是一个基于列存储的分布式OLAP查询系统,支持多维度AdHoc的查询以及具有良好的扩展性。我们将介绍druid在阿里巴巴的实践以及我们对druid做出的扩展和改进,以及我们如何将druid集成进drill,使其具有SQL查询和应对更加复杂的Query的能力。 了
韩卿
Kyligence
CEO
崔岸雍
阿里云
经理
范斌
Alluxio
工程师
王奕恒
intel
软件工程师
李雪岩
去哪儿网
工程师
徐凯
去哪儿网
高级工程师
孙垚光
百度
架构师
朱金清
Alibaba
高级数据专家
hucheng zhou
Microsoft Research
researcher
Jeff Zhang
Hortonworks
Member of the Technical Staff
杨玉皓
intel
软件工程师
Yiheng Wang
intel
Software Engineer
HONG SHEN
腾讯
高级工程师
Jerry Shao
Hortonworks
Member of Technical Staff
Jianfeng Qian
Huawei
researcher
Shengsheng Huang
intel
Software Architect
Cheng He
Huawei
Principal Engineer
富羽鹏
Alluxio
工程师
Biao Chen
Cloudera
经理
Anne Yu
Cloudera
软件工程师
Hao Hao
Cloudera
软件工程师
陈奇
大中华区域
总经理
王晨
昆仑智汇数据科技(北京)有限公司
CTO
周明伟
浙江大华技术股份有限公司
架构师
Maosong Fu
主管
Yi Ai
滴滴出行
技术经理
刘鹏翔
易鲸捷
总监
Zhe Zhang
Software Engineer
Rui Li
intel
Software Engineer
Xiao Chen
Cloudera
Software Engineer
Zhenxiao
Uber
Senior Software Engineer
henry zeng
IBM
Senior Solution Architect
huiju song
IBM
Big Data Engineer
Min Shen
Senior Software Enginee
韩卿
Kyligence
联合创始人兼CEO
谭耀宗
汤森路透企业
数据科学家
崔宝秋
小米
人工智能与云平台副总裁
史少锋
Kyligence
架构师
Tony Xing
微软中国有限公司
经理
褚崴
阿里云iDST
专家
朱军
清华大学计算机科学与技术系
副教授
张铭
北京大学
教授
Yingsong Zhang
ASI,
Data Scientist
王婷
宜人贷
数据科学家
Angie Ma
ASI
COO
刘轶
intel
软件工程师
黄宜华
南京大学计算机系
教授
Pengcheng He
Microsoft
Senior Software Engineer
种骥科
宜人贷
科学家
zhifeng chen
Software Engineer
Jianmin Chen
Software Engineer
顾荣
南京大学
博士
罗德祥
星环信息科技(上海)有限公司
高级工程师
杨克特
阿里巴巴
专家
富羽鹏
Alluxio
软件工程师
孙玄
58同城
架构师
周云庆
工程师
Sean Zhong
intel
Senior Developer
Tianlun Zhang
intel
Software Engineer
杨仿
Imply
CEO
Haojun Wang
Baidu
Software Architect
Dongjie Shi
intel
Senior Software Engineer
李浩源
Alluxio
CEO
Bin Fan
Alluxio
Software Engineer
交通指南:<p> 离机场距离(公里):24; 离北京火车站距离(公里):2; 离市中心距离(公里):2.5; 离建国门距离(公里):2;</p>
<p> 五星级的商务酒店北京国际饭店,位于长安街上,面向恒基中心、中粮广场,距北京站仅咫迟之遥,酒店2002年由国外设计师重新设计全面装修,极具欧式风情,客房的设计古典而现代,顶层的旋转餐厅可俯视北京长安街上的浪漫夜景。酒店1987年12月开业,2002年重新装修,楼高29层,共有客房总数993间套。客房设有中央空调控制系统、先进的音响、闭路电视、迷你型酒吧、冰箱、电子门锁及国际直拨电话。饭店由二十九层主楼及辅助裙房楼宇组成。机场班车、北京西站专线车可直达饭店,尽享交通便利;加上饭店完善、齐全的餐厅和娱乐设施,让您耳目一新,物有所值。地处北京的中央商务区、首都的心脏地带 - 东长安街上,毗邻人民大会堂、外经贸部、北京市政府、中国海关等国家机关, 与各国驻华使馆和各跨国公司中国区办事处近在咫尺, 距离亚洲最大的商业建筑群王府井步行街仅一街之遥, 距离首都飞机场仅有30分钟车程,交通畅捷、旺中取静,为商务及旅游人士居停北京之理想下榻之所。 酒店1987年12月开业,2002年重新装修,楼高29层,共有客房总数993间套。主楼是一幢呈三叉曲面体的白色高层建筑,宽阔的门前广场,点缀着绿柏、水池和喷泉,地上、地下停车场可同时停放大小汽车300辆。主楼外侧有幽静舒适的室外庭院。经过全面装修改造后的国际饭店,明亮宽敞的大堂、环境幽雅的四季酒吧、特色浓郁的"大上海"和"福临门"餐厅、鸟瞰京城的28层"星光旋转餐厅"、异域风情的日本餐厅、设备先进的商务中心,齐全的娱乐设施和会议中心;以及专为海内外公司、商社装修的办公楼层,全新的房间、明亮的灯光、高质量的管理。</p>
青铜门票(8月5日周五—8月6日周六) | 白银门票(8月4日周四—8月6日周六) |
4430 RMB | 5390 RMB |
费用包含: 1、所有主题演讲&议题 (8月5日周五—8月6日周六); 2、赞助商区域&全部社交活动 (8月5日周五—8月6日周六) |
费用包含: 1、全部辅导课(8月4日周四); 2、所有主题演讲&议题 (8月5日周五—8月6日周六); 3、赞助商区域&全部社交活动 (8月5日周五—8月6日周六) |
*早期门票价格7月8日截止
请注意:这些会议门票不包括8月3日周三或8月4日周四的培训。
1、如果一个公司注册3-5人则享受八折。
2、如果你的公司计划派遣6人或者更多人参加首届Strata + Hadoop World北京大会我们可以提供更大折扣:
·6-9人:七五折
·10人或10人以上:七折
培训门票(8月3日周三—8月4日周四) | 白金门票(8月3日周三—8月6日周六) |
5030 RMB | 8990 RMB |
费用包含: 1、2天的培训 (8月3日周三—8月4日周四; 不包括辅导课); 2、赞助商区域&全部社交活动 (8月5日周五—8月6日周六) |
费用包含: 1、2天的培训 (8月3日周三—8月4日周四; 不包括辅导课); 2、所有主题演讲&议题 (8月5日周五—8月6日周六); 3、赞助商区域&全部社交活动 (8月5日周五—8月6日周六) |
*早期门票价格7月8日截止
请注意:这些培训门票不包括8月4日周四的辅导课。白金门票和培训门票无团购票。
相关会议
2024-12-13北京