免费南京大数据技术Meetup第十三次会议
活动是免费的,有茶歇哦!
活动标题
南京大数据技术Meetup第十三次会议
活动时间
2019年3月23日下午14:00-18:00
活动地点
南京市江北新区研创园腾飞大厦D座4楼大报告厅(南京市江淼路188号 )
交通方式:南京地铁10号线临江站1号口 工作人员指引乘坐接驳车直达
活动主持:顾荣
活动内容
1.朱光辉(南京大学PASA大数据实验室博士研究生):自动化机器学习算法与系统研究进展
2. 郭俊(字节跳动大数据架构工程师):SparkSQL在字节跳动的优化实践
中场茶歇&参展海报自由交流(20分钟,请有意参展的单位与我们联系,联系邮箱gurong@nju.edu***)
3. 余英豪(香港科技大学博士研究生):基于大数据分布式存储系统Alluxio的负载均衡优化
4. 杨俊(星环科技产品总监):基于知识图谱的风控与营销建模应用
活动注意事项
1.本活动免费参加。请提前在线报名并后台审核,活动入场需签到,人数较多,请于尽量与13:20前抵达会场签到。
2.根据会场要求,请务必认真填写报名问题,主办方有权取消恶意填写者的报名资格;
3.如果希望分享相关话题或赞助后续活动,请发送邮件到gurong@nju.edu***
本次活动报告简介
题目A:自动化机器学习算法与系统研究进展
演讲内容简介:机器学习与人工智能技术目前已经广泛应用在各个行业,然而机器学习和人工智能技术门槛较高,目前主要依赖专业人员的人力和经验。数据分析人员不仅要熟练掌握和使用各种算法模型,而且还要熟悉每个算法的超参数调优技巧。因此,即使是专业人员,分析建模和调参也是十分费力费时的工作。另外,一个典型的数据分析流程涉及到多个阶段,包括数据预处理、特征工程、算法选择以及模型评估等。每个分析阶段又包含了多种方法。因此,如何设计的全生命周期的数据分析流程是非常具有挑战性的。为了解决上述问题和挑战,研究人员开始尝试自动化机器学习(AutoML),即用机器去自动化地完成模型选择和参数调优,让模型设计自动化,替代人工方式进行模型设计的过程,从而大量节省人力,降低机器学习算法设计的门槛,提高建模的效率。本次分享涉及到AutoML的多个技术层面,包括自动化超参调优、自动化模型选择以及自动化特征工程。同时,本次分享也将重点介绍南京大学PASA大数据实验室在AutoML算法和系统方面的新进展和成果。
题目B:SparkSQL在字节跳动的优化实践
演讲内容简介:在字节跳动内部,Spark/SparkSQL每天处理PB级增量数据,为了更好处理不断增长的数据及业务需求,我们对SparkSQL进行了一系列改进。本次分享主要介绍了字节跳动在SparkSQL逻辑计划优化,物理计划优化,Spark运行时优化等方面的实践与创新
题目C:基于大数据分布式存储系统Alluxio的负载均衡优化
演讲内容简介:计算和存储分离的架构为大数据运算引擎提供弹性扩容的能力,成为云上大数据框架的未来发展趋势。随着数据中心网络带宽的大幅提升,硬盘I/O的速度增长却趋于停滞,逐渐成为计算存储分离架构中的性能瓶颈。因此,在大数据应用和远端存储层之间部署一个以Alluxio为代表的内存文件缓存层来缓存热点数据,可以缩减硬盘I/O带来的瓶颈,提升读写效率。然而,由于内存缓存层中数据热度的显著差异,分布式内存系统面临着负载失衡的严重风险。针对这一问题,我们通过选择性地分割热点文件并将其充分分散来保障负载均衡。我们建立了一个分布式内存系统的模型来指导获取每个文件的理论优分割数目。实验证明,相比于现有的分布式内存负载均衡算法,选择性文件分割的策略可以降低平均和尾部延迟达50%。
题目D:基于知识图谱的风控与营销建模应用
演讲内容简介:知识图谱技术得到越来越广泛的应用,其中基于图谱分析的一些算法和方法论在实践中不断成熟,本报告分享将介绍我们将知识图片等技术在不同行业应用的技术流程与经验分享。
活动标题
南京大数据技术Meetup第十三次会议
活动时间
2019年3月23日下午14:00-18:00
活动地点
南京市江北新区研创园腾飞大厦D座4楼大报告厅(南京市江淼路188号 )
交通方式:南京地铁10号线临江站1号口 工作人员指引乘坐接驳车直达
活动主持:顾荣
活动内容
1.朱光辉(南京大学PASA大数据实验室博士研究生):自动化机器学习算法与系统研究进展
2. 郭俊(字节跳动大数据架构工程师):SparkSQL在字节跳动的优化实践
中场茶歇&参展海报自由交流(20分钟,请有意参展的单位与我们联系,联系邮箱gurong@nju.edu***)
3. 余英豪(香港科技大学博士研究生):基于大数据分布式存储系统Alluxio的负载均衡优化
4. 杨俊(星环科技产品总监):基于知识图谱的风控与营销建模应用
活动注意事项
1.本活动免费参加。请提前在线报名并后台审核,活动入场需签到,人数较多,请于尽量与13:20前抵达会场签到。
2.根据会场要求,请务必认真填写报名问题,主办方有权取消恶意填写者的报名资格;
3.如果希望分享相关话题或赞助后续活动,请发送邮件到gurong@nju.edu***
本次活动报告简介
题目A:自动化机器学习算法与系统研究进展
演讲内容简介:机器学习与人工智能技术目前已经广泛应用在各个行业,然而机器学习和人工智能技术门槛较高,目前主要依赖专业人员的人力和经验。数据分析人员不仅要熟练掌握和使用各种算法模型,而且还要熟悉每个算法的超参数调优技巧。因此,即使是专业人员,分析建模和调参也是十分费力费时的工作。另外,一个典型的数据分析流程涉及到多个阶段,包括数据预处理、特征工程、算法选择以及模型评估等。每个分析阶段又包含了多种方法。因此,如何设计的全生命周期的数据分析流程是非常具有挑战性的。为了解决上述问题和挑战,研究人员开始尝试自动化机器学习(AutoML),即用机器去自动化地完成模型选择和参数调优,让模型设计自动化,替代人工方式进行模型设计的过程,从而大量节省人力,降低机器学习算法设计的门槛,提高建模的效率。本次分享涉及到AutoML的多个技术层面,包括自动化超参调优、自动化模型选择以及自动化特征工程。同时,本次分享也将重点介绍南京大学PASA大数据实验室在AutoML算法和系统方面的新进展和成果。
题目B:SparkSQL在字节跳动的优化实践
演讲内容简介:在字节跳动内部,Spark/SparkSQL每天处理PB级增量数据,为了更好处理不断增长的数据及业务需求,我们对SparkSQL进行了一系列改进。本次分享主要介绍了字节跳动在SparkSQL逻辑计划优化,物理计划优化,Spark运行时优化等方面的实践与创新
题目C:基于大数据分布式存储系统Alluxio的负载均衡优化
演讲内容简介:计算和存储分离的架构为大数据运算引擎提供弹性扩容的能力,成为云上大数据框架的未来发展趋势。随着数据中心网络带宽的大幅提升,硬盘I/O的速度增长却趋于停滞,逐渐成为计算存储分离架构中的性能瓶颈。因此,在大数据应用和远端存储层之间部署一个以Alluxio为代表的内存文件缓存层来缓存热点数据,可以缩减硬盘I/O带来的瓶颈,提升读写效率。然而,由于内存缓存层中数据热度的显著差异,分布式内存系统面临着负载失衡的严重风险。针对这一问题,我们通过选择性地分割热点文件并将其充分分散来保障负载均衡。我们建立了一个分布式内存系统的模型来指导获取每个文件的理论优分割数目。实验证明,相比于现有的分布式内存负载均衡算法,选择性文件分割的策略可以降低平均和尾部延迟达50%。
题目D:基于知识图谱的风控与营销建模应用
演讲内容简介:知识图谱技术得到越来越广泛的应用,其中基于图谱分析的一些算法和方法论在实践中不断成熟,本报告分享将介绍我们将知识图片等技术在不同行业应用的技术流程与经验分享。