大数据岗位笔试题

*
您的姓名:
学校:
请选择日期:
1.
假设点击日志文件(click.log)中每行记录格式如下:
INFO 2016-07-25 00:29:53 requestURI:/c?app=0&p=1&did=18005472&industry=469&adId=31
INFO 2016-07-25 00:29:53 requestURI:/c?app=0&p=2&did=18005472&industry=469&adId=31
INFO 2016-07-25 00:29:53 requestURI:/c?app=0&p=1&did=18005472&industry=469&adId=32
找出所有adId为31的记录存入click_part.log文件中,请写出完整的Linux命令
2.
假设点击日志文件(click.log)中每行记录格式如下:
INFO 2016-07-25 00:29:53 requestURI:/c?app=0&p=1&did=18005472&industry=469&adId=31
INFO 2016-07-25 00:29:53 requestURI:/c?app=0&p=2&did=18005472&industry=469&adId=31
INFO 2016-07-25 00:29:53 requestURI:/c?app=0&p=1&did=18005472&industry=469&adId=32
请分别使用Linux shell、Python解析click.log文件,按adId分组对p字段的取值进行加和,并输出结果
3.
分别列出几个常用的transformation 和 action算子
4.
简述map和faltmap 的区别与应用场景
5.
简述groupByKey 和 reduceByKey的区别与应用场景
6.
简述foreach 和 foreachpartition 的区别和应用场景
7.
假设另有曝光日志格式如下:
INFO 2016-07-25 00:29:53 requestURI:/i?app=0&p=1&did=18005472&industry=469&adId=31
INFO 2016-07-25 00:29:53 requestURI:/i?app=0&p=2&did=18005472&industry=469&adId=31
INFO 2016-07-25 00:29:53 requestURI:/i?app=0&p=1&did=18005472&industry=469&adId=32
结合题目1的点击日志,用spark-core实现统计每个adId的曝光数与点击数,结果分别输出到hdfs和mysql,表结构为 (adId,曝光数,点击数)(接受伪代码,使用Spark/mr)
8.
在python、scala、java中任选两种实现块速排序和二分查找.(接受伪代码)
9.
简述你在大数据集群使用或研发中遇到的某个问题,以及你是如何定位/解决它的(数据倾斜除外)
问卷星提供技术支持
举报