长沙

点击搜索

发布

长沙大数据面试宝典

区域:
长沙 > 长沙周边
金三银四,正值求职的黄金季节,求职大数据的小伙伴们,看过来了,千锋教育小编给你送福利了,千锋教育大数据面试宝典已经为你备好,请各位小主儿过目。
一、hive的使用,内外部表的区别,分区作用,UDF和Hive优化
(1)hive使用:仓库、工具
(2)hive内外部表:内部表数据删除,外部表数据删除后、其他人依然可以访问
(3)分区作用:防止数据倾斜
(4)UDF函数:用户自定义的函数(主要解决格式,计算问题),需要继承UDF类
java代码实现
class TestUDFHive extends UDF {
public String eva lute(String str){
try{
  return "hello"+str
}catch(Exception e){
  return str+"error"
(5)Hive优化:看做mapreduce处理
a\排序优化:sort by 效率高于 order by
b\分区:使用静态分区 (statu_date="20160516",location="beijin"),每个分区对应hdfs上的一个目录
c\减少job和task数量:使用表链接操作
d\解决groupby数据倾斜问题:设置hive.groupby.skewindata=true ,那么hive会自动负载均衡
e\小文件合并成大文件:表连接操作
f\使用UDF或UDAF函数:
二、简要描述如何安装配置一个apache开原本hadoop,只描述即可,无需列出完整步骤,能列出步骤更好。
流程:
1.创建hadoop用户
2.修改IP
3.安装JDK,并配置环境变量
4.修改host文件映射
5.安装SSH,配置无秘钥通信
6.上传解压hadoop安装包
7.配置conf文件夹下的hadoop-env.sh、core-site.xlmapre-site.xml、hdfs-site.xml
8.配置hadoop的环境变量
9.Hadoop namenode -format
10.start-all
三、MapReduce优化
1. 任务调度
  I/O 方面:Hadoop 会尽量将 Map 任务分配给 InputSplit 所在的机器,以减少网
络 I/O 的消耗。
2.数据预处理与 InputSplit 的大小
  合理地设置 block块大小是很重要的调节方式。除此之外,也可以依靠合理地设置 Map 任务的数量来调节 Map 任务的数据输入。
3. Map 和 Reduce 任务的数量
当 Reduce 任务的数量是任务槽的 1.75 倍时,执行速度快的机器可以获得更多
的 Reduce 任务,因此可以使负载更加均衡,以提高任务的处理速度。
以上大数据的经典面试题,各位小主先用着,待小编深度挖掘千锋教育讲师的满满大数据技术干货库,为大家谋福利!
千锋教育:http://www.mobile***/
千锋长沙校区:http://cs.mobile***/
长沙校区地址:湖南省长沙市岳麓区麓谷企业广场A2栋三单元306号
培训咨询专线:0731-85513010/85513210
咨 询 Q Q : 1660794050
面授课程:全栈Web开发+培训、全链路设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+Python运维培训、全栈软件测试培训、Android培训、iOS培训

查看更多长沙其他教育培训信息

免责声明:此信息系发布者(UID:349452)自行发布,本站是服务平台,仅提供信息存储空间服务,该信息内容的真实性及合法性由该发布者完全负责。

© lieju.com 联系我们