长沙大数据面试宝典 - 长沙长沙周边其他教育培训

区域：: 长沙 > 长沙周边

金三银四，正值求职的黄金季节，求职大数据的小伙伴们，看过来了，千锋教育小编给你送福利了，千锋教育大数据面试宝典已经为你备好，请各位小主儿过目。
一、hive的使用，内外部表的区别，分区作用，UDF和Hive优化
(1)hive使用：仓库、工具
(2)hive内外部表：内部表数据删除，外部表数据删除后、其他人依然可以访问
(3)分区作用：防止数据倾斜
(4)UDF函数：用户自定义的函数(主要解决格式，计算问题)，需要继承UDF类
java代码实现
class TestUDFHive extends UDF {
public String eva lute(String str){
try{
return "hello"+str
}catch(Exception e){
return str+"error"
(5)Hive优化：看做mapreduce处理
a\排序优化：sort by 效率高于 order by
b\分区：使用静态分区 (statu_date="20160516",location="beijin")，每个分区对应hdfs上的一个目录
c\减少job和task数量：使用表链接操作
d\解决groupby数据倾斜问题：设置hive.groupby.skewindata=true ，那么hive会自动负载均衡
e\小文件合并成大文件：表连接操作
f\使用UDF或UDAF函数：
二、简要描述如何安装配置一个apache开原本hadoop，只描述即可，无需列出完整步骤，能列出步骤更好。
流程：
1.创建hadoop用户
2.修改IP
3.安装JDK，并配置环境变量
4.修改host文件映射
5.安装SSH，配置无秘钥通信
6.上传解压hadoop安装包
7.配置conf文件夹下的hadoop-env.sh、core-site.xlmapre-site.xml、hdfs-site.xml
8.配置hadoop的环境变量
9.Hadoop namenode -format
10.start-all
三、MapReduce优化
1. 任务调度
I/O 方面：Hadoop 会尽量将 Map 任务分配给 InputSplit 所在的机器，以减少网
络 I/O 的消耗。
2.数据预处理与 InputSplit 的大小
合理地设置 block块大小是很重要的调节方式。除此之外，也可以依靠合理地设置 Map 任务的数量来调节 Map 任务的数据输入。
3. Map 和 Reduce 任务的数量
当 Reduce 任务的数量是任务槽的 1.75 倍时，执行速度快的机器可以获得更多
的 Reduce 任务，因此可以使负载更加均衡，以提高任务的处理速度。
以上大数据的经典面试题，各位小主先用着，待小编深度挖掘千锋教育讲师的满满大数据技术干货库，为大家谋福利！
千锋教育：http://www.mobile***/
千锋长沙校区：http://cs.mobile***/
长沙校区地址：湖南省长沙市岳麓区麓谷企业广场A2栋三单元306号
培训咨询专线：0731-85513010/85513210
咨询 Q Q : 1660794050
面授课程：全栈Web开发+培训、全链路设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+Python运维培训、全栈软件测试培训、Android培训、iOS培训