大数据岗位笔试题

您的姓名：



学校：

请选择日期：



假设点击日志文件（click.log）中每行记录格式如下：
INFO 2016-07-25 00:29:53 requestURI:/c?app=0&p=1&did=18005472&industry=469&adId=31
INFO 2016-07-25 00:29:53 requestURI:/c?app=0&p=2&did=18005472&industry=469&adId=31
INFO 2016-07-25 00:29:53 requestURI:/c?app=0&p=1&did=18005472&industry=469&adId=32
找出所有adId为31的记录存入click_part.log文件中，请写出完整的Linux命令

假设点击日志文件（click.log）中每行记录格式如下：
INFO 2016-07-25 00:29:53 requestURI:/c?app=0&p=1&did=18005472&industry=469&adId=31
INFO 2016-07-25 00:29:53 requestURI:/c?app=0&p=2&did=18005472&industry=469&adId=31
INFO 2016-07-25 00:29:53 requestURI:/c?app=0&p=1&did=18005472&industry=469&adId=32
请分别使用Linux shell、Python解析click.log文件，按adId分组对p字段的取值进行加和，并输出结果

分别列出几个常用的transformation 和 action算子

简述map和faltmap 的区别与应用场景

简述groupByKey 和 reduceByKey的区别与应用场景

简述foreach 和 foreachpartition 的区别和应用场景

假设另有曝光日志格式如下：
INFO 2016-07-25 00:29:53 requestURI:/i?app=0&p=1&did=18005472&industry=469&adId=31
INFO 2016-07-25 00:29:53 requestURI:/i?app=0&p=2&did=18005472&industry=469&adId=31
INFO 2016-07-25 00:29:53 requestURI:/i?app=0&p=1&did=18005472&industry=469&adId=32
结合题目1的点击日志，用spark-core实现统计每个adId的曝光数与点击数，结果分别输出到hdfs和mysql，表结构为（adId，曝光数，点击数）(接受伪代码，使用Spark/mr)

在python、scala、java中任选两种实现块速排序和二分查找.(接受伪代码)

简述你在大数据集群使用或研发中遇到的某个问题，以及你是如何定位/解决它的（数据倾斜除外）

问卷星提供技术支持