面试题库-详情 - 深蓝学院 - 专注于前沿科技的教育平台

题目

大数据开发，不知道叫什么帖

解题思路

前天刚签完三方，秋招也算正式结束了，我找的是大数据开发岗位（偏平台开发/框架开发，非数仓（数仓理论不会）），秋招投了：阿里、腾讯、字节、快手、华为，拿了字节、快手、华为的offer。一路过来受到很多人的帮助，所以也想写一贴（算是分享贴？）分享下之前自己的学习途径。如果对读者有帮助，那太好了哈哈哈哈哈，很开心。如果有错，欢迎批评指正！帖子分两部分吧：个人学习经历和框架学习建议（感觉也不算建议，大家互相探讨就行）面经相关：牛客上在大数据方面其实大佬很多很多，之前我也是看了他们的面经贴学了很多，在这列举下哈哈哈哈哈哈（一定不全，欢迎补充）： reswqa， InstantCWeed，优秀的张先生， Commando201804，啊猩猩星星（牛客指导老师，感觉如果是大数据开发，可以以该老师为目标（3年P7 XDDD）https://www.nowcoder.com/discuss/607015）， Offer快来吧please（大佬，非科班转码，希望大佬有时间发个帖子）， BowenXiao（如果也是知乎上的id，那这人是个巨佬！！！），星河弱水，机智多（算是我Flink的引路人，哈哈哈哈哈哈哈），胡胡达（大佬，很多面经）， superpen， MarshalJS ，林子啦啦啦，魔力鸟flying， Chihyung （巨巨巨佬，校招时就已经是Spark的contributor了），TD2022（大数据引路人，哈哈哈哈哈哈），kumo_ 还有好多好多。。。面经的使用： 1. 学习前可以让我们把握学习的重点 2. 学完后可以查漏补缺 3. 面试前压压题？？？本人情况：双非本，985硕（学校很好，本人一般），科班，无奖，无实习（导师不放）无论文，很垃圾的项目（导师的项目，负责项目的主管一周解决不了类加载不到的问题。。。），略懂Flink DataStream和Spark core的源码，大数据方面纯自学个人学习经历： ps 本科很水，试了计算机中很多很多方向，基本简历是一穷二白。最后一年也是随大流，咬咬牙靠运气上了985硕（用哥哥和阿sam的《沉默是金》中一句话形容" 受了教训得了书经的指引 ... 不再像以往那般笨"）, 所以研一入学我拼命地想学技术。然后导师给了个CV项目，当时我想的是以后要做CV算法工程师！！！但是学长找工作的艰难和我偷偷去面试商汤实习的失败，以及当时看了很多深度学习相关的数学推导（告辞），我直接放弃了，太难了。。。然后偶然遇到talkdata(b站上up，我还买了他两本笔记XDDDD非广告)的视频，发现居然还有大数据这个方向，当时是想选后端，但是想了想，别人如果也算法劝退，那么估计都会去走后端，那我这之后加上不能实习不得被卷死？所以走了大数据我的大数据学习路线：首先你得会Java（一定要会！！！），这部分主要就是Java语法，集合，并发，JVM（基本就是八股文水平，这几块大家可以看其他人怎么学的，然后对照比如JavaGuide、Java3y八股文，理解性记忆一定要形成自己一套东西，这样你面试时候才能扯！！！！！！！！！），比如举个例子： JVM中GC？这块首先你得明确什么是垃圾？两种判断方式的优缺点：计数法，不止循环引用的缺点！，然后可达性分析，具体三色标记法的实现，并发标记情况下三色标记法的问题，然后多标、漏标带来的问题，如何解决，不同的解决的思路就对应着后面的CMS和G1.... （可能有错，我已经很久没看八股文了 orz）这些就是需要自己去理解才能串起来，这样你嘴巴才能像机枪，哒哒哒哒哒哒哒哒这种串起来的方法也适用于后面大数据组件的学习！！！ ------------------------ 学完Java八股文后，这里就是大数据和后端的分水岭：如果走后端，那就SSM一套(当然可能会学redis、kafka、mysql )，如果走大数据，那就开始学习大数据组件--------------------------- 我的大数据组件学习顺序： mysql（会sql，leetcode上sql 2020.2月前的题基本都刷完了，会八股文) redis（看了，后面一直没复习，就没用了，简历也没写） hive(看了，后面一直没复习，就没用了，简历也没写) hadoop(MR: 原先看了源码，没什么卵用，直接说自己会Spark源码，Yarn：八股文水平，但是注意cgroup和namespace机制，HDFS：八股文水平（美团两篇文章+https://www.imbajin.com/tags/hdfs/ 够够的了！）) spark（core 源码层面） flink（datastream源码层面） kafka（基本原理+高级特性（事务、时间轮）+一点点的源码） hbase （基本原理+基本特性（二级索引）+一点点源码） zk（基本原理+基本操作+zab协议） paxos/raft/zab（看知乎上朱一聪 paxos 整整看了两天的水平，看哭了。。。不推荐面试说paxos，反而说raft更好，推荐知乎丁凯+原论文）框架学习建议： mysql：这个我不太行，我就是看完《Mysql必知必会》后刷了好久的sql（其实到面试时，因为自己一直没复习sql，所以还是说sql不太会，各位一定要注意复习啊啊啊！），然后底层的存储引擎基本不怎么了解，事务、锁这些八股文一定要像前面那样，串起来 redis：talkdata说要学，我感觉随便吧，我这种情况基本算是没学 hive：走数仓的同学一定要学。对于有时间的同学，可以稍微了解下底层sql到具体mr任务的实现（快手三面问到了） hadoop：我看了《Hadoop权威指南》（这本书一定不能从头看到尾，里面有很多过时东西，按照上面几个组件挑着看就行），hadoop其实就三块，MR（这块的源码，如果你会Spark源码，那直接跳过这部分，如果你是走数仓那条，那MR源码这块最好要会，毕竟之后数据倾斜一些原理其实从源码上就能看出来什么原因了，我看很多面试官会纠结内存中环形缓冲区怎么实现，具体可以看看），Yarn这块就是调度器的调度机制，以及稍微深一点的cgroup、namespace（内存隔离、CPU隔离），HDFS就按照上面资料，重点可以关注：NN、DN结构，作用，读写过程（能说到API最好），读写容错，HA，联邦这些 spark：首先可以看看尚视频（很粗浅的，尽量倍数）有个大概印象，然后看《大数据处理框架Apache Spark设计与实现》（为数不多需要全部看完的书）《Spark技术内幕》（部分），基本上看完这两本就会在原有的视频基础上有个拔高（这时候可以跟着刷刷spark一些经典题），至于SparkSQL（如果有时间可以学学，推荐《 Spark SQL内核剖析》)，之后就到源码层面的了，此时就需要《Spark内核设计的艺术》很厚很厚的书，大概800多页，不是全看（注意前面的书，一定不要全看。。。还是那句话挑重点，重点哪里来？面经里来，面经哪里来？牛客里来... ），Spark源码可以关注几个部分：RDD的五大特性、宽窄依赖的实现（reducebykey一定会产生shuffle？？？什么情况不会产生shuffle？）， SparkContext（也就是Driver， TaskScheduler、DAGScheduler、SchedulerBackend各个职责）， shuffle过程（三种shuffle write+一种shuffle read，其实三种write中主要还是BypassMergeSortShuffleWriter+SortShuffleWriter，剩下那个UnsafeShuffleWriter，要看你spark内存管理掌握如何了，如果可以那就说，如果不可以就不说，面试可不能玩火，言多必失拉低面试官好感），blockManager，Broadcast变量实现，checkpoint实现，Spark内存管理（说实话，这部分我也不太熟，我也只了解到每个Executor进程有个MemoryManager，其内部包含MemoryManager，包含:四个memoryPool，两个MemoryAllocator 各自作用。。。）最后就是在这些源码基础上的一些引申题了，比如RDD为什么不可变啊，Spark频繁GC什么问题啊，最后学完Spark一定要问自己一个问题，为什么Spark能够处理TB、PB级别的数据而不会发生溢出？ans：分区、流水线、迭代器模式三个方面去考虑，这样整个数据在框架中怎么流动就基本掌握清楚了 flink：插曲：原先面的flink-runtime团队，很可惜，马哥把我挂了，这也直接把我之后方向也改变了，orz 变数太大了。 flink这块的资料，首推b站上flink官方视频，看完基础部分后看committer崔星灿翻译的《基于Apache Flink的流处理》，还是不用看完，看到连接器哪章就差不多了。然后可以做一做https://github.com/ververica/flink-training-exercises 里面的练习。之后如果感兴趣就可以开始阅读源码了。推荐几个flink源码资料：https://blog.jrwang.me/tags/flink/（*）、http://www.whitewood.me/ 、http://wuchong.me/、 flink官方文章、 https://www.jianshu.com/u/49e6a4e2bf69（如果挂了百度搜索littlemagic）公众号推荐：大数据渣渣瑞、zhisheng，章鱼沉思录。源码这块的话我看了很多，我也不知道哪些是重点哪些不是重点，基本上就是按照 * 的过程去看的。首先你得知道基本原理，然后对照着 * 的内容一步步下来，第一次看完后，你绝逼会看很细很细，然后你需要看第二次，这时候你要做抽象，做总结，比如你只要关注某个类，某个类中的成员变量，以及一些重要的方法，像我这样：最后第三遍整张A4纸，假装你要说给别人听，然后在A4纸上疯狂地说，疯狂的画就行，然后面试遇到面试官就可以哒哒哒哒哒哒哒哒，对于flink中一些论文可以去读读，像C_L、ABS算法还是很巧妙的，之后有些特性就是要完善这些算法的缺点，有时间可以阅读试试，还是能让你变得会扯之后flink这块的话可以结合源码，然后比如尝试分析出现反压可以怎么去分析，通过Java bin工具或者linux 命令去定位，然后解决。。。 7. kafka： kafka这块其实就围绕几个问题：为什么使用kafka？然后就高吞吐、高可靠、高可用三点高吞吐：生产者异步、压缩、批量发送啦、网络模型I/O多路复用高效啦、写入pageCache啦、顺序I/O啦、baseOffset形成跳表啦、零拷贝啦、批量拉取啦，一条龙整上，爽歪歪高可靠：如何做到不重不漏不乱序？典中典了高可用：Controller HA、PartitionHA（可以说到ISR、ISR概念，为什么设定ISR、如何保证消费一致性啦.............）这几个点理解完后基本没啥问题，然后其他问题，可以看看面经进行查漏补缺，原谅我是八股文砖家哈哈哈 8. hbase： HBase的学习需要从它的本质（多维排序稀疏分布式 Map），架构入手，表分region，region分store，store分memstore，diskstore，然后各个的作用，可能会出现什么操作（region merge、split、memstore的flush），然后到Hbase的写入读取过程，最后rowkey热点问题，如何实现二级索引，事务等等。这个推荐范欣欣《HBase原理与实践》(也是不全看，因为我们没那时间，重点调前面讲过的几点)和 http://hbasefly.com/author/libisthanksgmail-com/他个人博客的评论（注意是评论，文章内容就是书籍内容，都一样，评论才精彩！！！可以学到很多） 9. zk：首先了解下zab协议，然后可以参考下面我总结的这些内容来看 ZooKeeper是一个可用于维护配置信息，命名，提供分布式同步等功能的高可用分布式协调服务。为了实现这些功能，其首先设定了自己的存储数据的数据结构Znode Znode主要包含三个部分 stat: 包含Znode的版本（ CAS）、权限（读写，创建子节点，删除子节点...）等信息 data：Znode中存储的数据 children：Znode的子节点节点的种类主要分成临时节点(不能在其下面创建子节点)，持久节点，顺序节点。临时节点和客户端-服务端的会话有关，会话结束(不是连接结束，导致结束有宕机、网络超时等原因)则临时节点会被删除，持久节点则不会。）比如0000000001, 0000000002加以区分，这样节点种类就被区分成临时节点、临时顺序节点、持久节点、持久顺序节点（顺序节点假如设置成W0000000001，W0000000002，之后如果全部删除，下一个创建的顺序节点序列号将从W0000000003开始，zk肯定维护了这个序列号）当然zookeeper还提供了使用这些节点的操作（创建create()、获取子节点getChildren()、获取节点数据getData()、更新数据setData()）多个Znode会组成一种类似文件系统中目录树结构，保存在内存中。内存数据丢失可以靠history回放，同时zookeeper会将这些数据定期保存快照到磁盘中，也能从其恢复。为什么同时将快照、事务日志落盘，落盘一个不就好了？出于数据粒度的考虑。。。树的操作有些约束: 1. 节点只能通过绝对路径访问 2. 不能递归创建、也不能递归删除节点(删除有子节点的节点) 3. 临时节点下不能创建子节点上面说的这些功能都以某种形式被分布式应用程序(zk客户端)使用, 这就涉及到zk客户端和zk服务端之间通信？除了正常心跳外就是通过watcher对象。zk客户端在自己所要关注的Znode上注册Watcher对象，一旦Znode的data、children发生变化时( stat中权限改变不会触发NodeDataChangedWatcher)，或者连接状态变化，注册在其上的Watcher对象触发，zk客户端将会收到通知从而做出反应。Watcher是一次性的，触发后就会被移除，如果还需要继续监听则客户端需重新注册，zk客户端收到的通知不会包含具体的内容(现在的data、现在的children，只能再次getData、getChildren获取)，而仅仅是节点路径，连接状态，事件类型(data变化、children变化，节点增删) zookeeper是高可用的服务运行在奇数数量的集群上，要保持高可用就往往需要多副本，如何保持多副本之间数据的一致？zookeeper使用zab算法 zookeeper集群节点分成三种角色leader、follower、observer 。。。使用observer的原因：。。。 zab算法主要分成4个阶段：leader election + discovery + synchronization(recovery) + broadcast 。。。实现是3个阶段只有处在broadcast阶段中集群才能向外提供服务基于以上的这些，zookeeper实现了上述配置中心，命名服务，分布式锁/队列等功能如果有空可以使用zk实现个分布式锁。zk操作可以推荐《从paxos到zookeeper分布式一致性》，前面2pc，3pc，zab理论就别看了，乱的一批给我看懵了。这些理论部分去知乎上看大V文章（比如丁凯，范斌。。。） 10. raft：看知乎文章+原论文大数据最好的项目就是实习，所以一定要去实习！没实习那只能b站、github上实时数仓或者离线数仓咔咔往上怼喽，然后再读点源码，秋招应该没啥问题面试体验：字节，最佳，整整一星期发意向快手，hr慢点，其他和字节差不多阿里，持续一个月，然后gg 腾讯，更加蜜汁操作。。。华为，大家都知道最近在赶论文，所以有些内容没写太详细，如果各位有需要的可以在评论区说下，有时间我补充补充。最后感谢那些帮助我的人（几位师兄，TD2022，秋招小伙伴....），很感谢很感谢！！！！！！！！！！！！！尤其感谢字节跳动-视频架构团队，第一个意向给了我很大的信心，感谢！帮助他人，攒人品，保佑盲审过过过过过过！！！毕业顺顺顺顺顺顺利利利利利利利！！！更多模拟面试查看更多 > 模拟面试第 17 名中国农业银行模拟面试有人42分钟前测试并获得了面试报告模拟面试第 15 名哔哩哔哩模拟面试有人1小时前测试并获得了面试报告 (226) (744) 分享举报精华采集浏览19740

展开解题思路

收起解题思路

上一题下一题

讨论区

说点什么吧~

题目列表

现代C++的特性，tcp/ip https，然后问了一下如果你设计vector怎么设计

测试提米1

11111111111111111

我丢

好的好的

刚刚

eeeee33453453sdfsfsdf,dfdfgdfg

卡尔曼滤波和误差卡尔曼滤波的区别。

VINS-Mono 中的滑动窗口算法

为什么 SLAM 需要滑动窗口算法?

VIO系统会存在那些问题？如何解决？

最小二乘问题建模的两个要素

视觉与IMU的融合的优势

单应矩阵的理解

剔除离散点有哪些方法

边缘化的意义

卡尔曼滤波和误差卡尔曼滤波的区别

VINS-Mono 中的滑动窗口算法

为什么 SLAM 需要滑动窗口算法?

VIO系统会存在那些问题？如何解决？

最小二乘问题建模的两个要素

视觉与IMU的融合的优势

单应矩阵的理解

剔除离散点有哪些方法

边缘化的意义

卡尔曼滤波和误差卡尔曼滤波的区别

VINS-Mono 中的滑动窗口算法

为什么 SLAM 需要滑动窗口算法?

VIO系统会存在那些问题？如何解决？

最小二乘问题建模的两个要素

视觉与IMU的融合的优势

单应矩阵的理解

剔除离散点有哪些方法

边缘化的意义

这个事题目标题这个事题目标题这个事题目标题

现代C++的特性，tcp/ip https，然后问了一下如果你设计vector怎么设计

需解锁获得

100～200之间不是3的倍数的数之和是多少？

建筑工地有一批砖，最上层两块砖，第2层6块砖，第3层10块砖……(如图)，依次每层比其上一层多4块，已知最下层有2106块砖，这堆砖共有多少块?

从午夜零时到中午12时，时针和分针共重叠(　)次。

1111

12312

父子三个,娘儿三个,老两口儿,哥儿俩,一共几个人？

老大撺掇老C++二让老三告诉老四说老五的老二老大了哈哈哈哈哈哈

爷俩，娘俩，老两口儿，兄弟一个，一共几口人？

学校有808个同学，分乘6辆汽车去春游，第一辆车已经接走了128人，如果其余5辆车乘的人数相同，最后一辆车乘了几个同学呢?

有10把不同的锁，开这10把锁的10把钥匙混在一起了，最多要试多少次，才能把这10把锁和钥匙全部配对。

3只猫3天吃了3只老鼠，照这样的效率，9只猫9天能吃( ) 只。

锯一根10米长的木棒，每锯一段要2分钟。如果把这根木棒锯成相等的5段，一共要( )分钟。

一只蜗牛在10米深的井底向上爬，每小时爬上3米后要滑下2米，这只蜗牛要( )小时才能爬出井口。

用一根绳子绕树三圈余30厘米，如果绕树四圈则差40厘米，树的周长有( )厘米，绳子长( )厘米。

有一串彩珠，按“2红3绿4黄”的顺序依次排列。第600颗是( )颜色。

同学们进行广播操比赛，这个全班正好排成相等的6行。小红排在第二行，从头数，她站在第5个位置，从后数她站在第3个位置，这个班共有( )人。

7年前，妈妈年龄是儿子的6倍，儿子今年12岁，妈妈今年( )岁。

文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字文字

40个梨分给3个班，分给一班20个，其余平均分给二班和三班，二班分到( )个。

深蓝学院1111111，题目不要上传图片

当代网友是怎么表达遗憾的一个人迷茫哭的emo文案

1111

222222222

测试这标签

句句不提坎坷却全是遗憾的文案

当代网友能够把悲伤写到什么程度？

555555555555555555

1233211234567

1111

请输入题干标题13

fadfadf

请输入题干标题请输入题干标题1

请输入题干标题4444 1

前台上传的题目

记一次字节跳动前端面试，四轮技术面通过，已拿offer

毕业一年多，职场小油条（运营）经历

4399;英雄互娱-文案创意运营类面经其他游戏公司适用

毕业半年遇到互联网裁员潮，文科生、艺术生转型自救之路

字节电商战略数据分析社招五面面经求OC

【最全】2021宝洁offer经验分享（网申+面试）

非科班半年转Java开发经验贴

面经：华为海思暑期实习数字IC设计岗

数分求职分享 | 忠于内心终有所得

放弃了离家近的工作，我又一次开启沪飘之旅。

java offer已有，下一步---妹子

双非2年工作经验，裸辞斩获字节运营offer

给师弟师妹的建议：去看看这个世界

（牛客回馈贴）学姐纯干货|普通本科最强逆流而上指南1

字节飞书前端三面(55min)

双非本科非科班抖音Android面筋（被调剂到iOS了）

暑期实习春招面经回馈（阿里美团百度字节快手谷歌亚马逊）

字节抖音电商一面凉经

【审计岗】如何制作简历？

第一份金融实习怎么找？最全找实习干货贴分享来了

同学，不要再那么单纯了，他们不值得

关于银行的offer选择

一年的准备！阿里终于圆梦了

工作4年，走了太多的弯路，分享下我的经历希望能给大家避下坑

建行省分只有一面

难以忘怀的大四异地实习经历

字节跳动五轮技术面终于收获意向书（后端开发）

华为优招消费者BG终端芯片-嵌入式面经

个人秋招经验总结（前端方向）

大数据开发，不知道叫什么帖

大华海康硬件工程师三面（已offer）

金融行业薪酬大盘点，银行真的太香了！

【字节跳动-飞书-运营实习生】一面面经

毕业季大家有什么舍不得的那个他（她）嘛？

嘉士伯管培AI面经整理分享

秋招复盘——普通硕士做嵌入式也可以拿到50w年薪

（面试复盘）字节跳动互娱研发提前批前端面经

2021秋招留学生华为单板硬件面经

面试复盘|字节跳动面经-技术中台-一二三凉面

互联网直播运营丨三段面试经历告诉你应该这样面

字节滴滴好未来社招产品面经

财会入门必看：有关ACCA的一些初浅攻略

如何准备交互/ux设计校招-没有作品怎么办

秋招总结 | 还是成为了一名光荣的新时代农民工

运维岗位面经，拿到网易，京东offer

20机械制造类求职经历：东风日产、华为结构与材料工程师等

2022秋招【中国建筑3311】【投资岗】面经

滴滴秋储后端实习生面经+秋招正式批面经（均已offer）

硬件开发岗面经（TCL华星光电、联发科技、中兴等）

双非菜鸟前端秋招总结帖

21届秋招记录——银行篇

不幸中的万幸——转正后被裁员！

面试真题：经典智力题最详汇总（中）

面试真题：经典智力题最详汇总（下）

【阿里设计岗面试经验总结】如何1个月内通过4轮面试

我和牛客的故事之22届银行秋招记录（雄安新区+天津）

面试复盘 | 2022届大疆秋招测试开发完整面经

AWS亚马逊 23暑期实习 PM 面经+流程

面试真题：经典智力题最详汇总（上）

华为，中兴，百度，CVTE，海康威视热乎乎的面经

一年半经验前端社招——拼多多（已面完hr）

秋招总结|咸鱼的懒汉秋招

如果回到一年前，我会做出哪些不一样的决定

CNKI(同方知网)+社招+java

去年秋招的一些经验和建议，回馈贴

看了我弟写的简历，作为深信服HR的我破防了！

秋招总结｜双非本/非科班/零offer，没有逆袭，但不放弃！

美团面试官哥哥太温柔了，我哭死

阿斯利康市场营销管培生群面-终面面经（已offer）

秋招cpp面试总结（百度，字节，阿里等）

字节提前批《高频汇总之前端水真的不深》

硬件岗秋招小结

春招 Golang实习面经

秋招银行+国企类笔试面试经验。

互联网就业形势这么差，我真的建议你试试金融！

23届联想面经分享：秋招上岸

秋招总结 | 三本前端秋招之路

菜鸡21届秋招总结-前期准备、面试、谈薪资待遇

秋招总结&Java心得（双非硕士，已拿11+5家Offer）

20年工业机器人面试求职经历：华为、哈工大机器人、汇川技术等

分享一下大疆2022年春招体验设计面试的经验！

数字IC后端设计求职面经

网易互娱游戏文案策划（暑期实习）笔试一面二面三面经验总结

计算机网络常见面试题

二本院校生的考公逆袭路

资源分享|各学校计算机类历年考研真题汇总

大疆硬件工程师三轮面经&还愿offer

sre/运维开发社招面经

11.11蓝月亮产品策划终面｜全过程持续更新中

HR岗校园招聘面经合集（已上岸）

校招面霸成长手册

金融/互联网/国企秋招经验分享

得力国内营销面经

游戏本地化/运营/发行面经（tap运营offer已拒）

工资与五险一金计算

分享下菜鸡的Java秋招总结

延锋内饰春招面经

戴尔大客户销售面经

秋招｜SHEIN两轮面试经历分享

宝洁市场研究部CMK，分享一下自己入职一年的经历和感受

面试真题：经典海量数据处理题最详解析（下）

字节提前批《高频汇总之测试篇距离上岸的一步之遥》

广联达面经技术岗专场：测试、前端、后端

一次不成文的数据分析秋招经历

C++STL用过vectorstring，函数重载回答不准确，函数重载两种方式回答出成员函数一种。

可口可乐 AI面+游戏

终于大橘已定，分享一波测开面经（美团、小米、华为、阿里等）

被疫情逼得gap year的完全菜鸡的春招之路。

从发展角度，谈谈offer选择

数据分析面经（已拿到offer）

银行科技岗/研发中心/数据中心秋招经验总结帖

【银行干货】23届想进银行，该如何高效备考

西山居游戏策划（非文案方向）笔试/面经个人春招之路总结

ZURU 项目管培面经

双非渣硕的字节NLP算法三面+HR面面经(已OC)

硬件/IC/嵌入式高薪--你应该看看这些公司和岗位

【虾皮/Shopee】2022届同学试用期感想

来自双非大三拿到字节跳动实习offer求职准备建议（非广告）

腾讯三面已上岸

22届校招-浙商银行总行-总行机关单位-求职攻略

恒生校招内推测试秋招八股文集锦——经典网络篇用友面经（一二面，已oc）替你们整理好了！计算机专业最适合去的四类国企！附薪资待遇对比秋招招聘汇总+避雷公司8.16更新+简历指导(已指导百人) 不想去互联网大厂卷？这些小而美公司不香吗？谈薪技巧和注意事项，怎么为自己多争取1~2k 我的秋招结束了【2023秋招&提前批】互联网招聘信息最新汇总9月10日更新【亚信安全】23届校园招聘正式启动啦【求职面试】初级产品经理面试应该注意什么？干货帖| 招商银行信用卡中心校招怎么样腾讯音乐TME 20220908笔试题解 b站测开实习一面中兴最全面经汇总：硬件、软开、算法、测试双非本科，面试三十多家企业总结出的宝藏面试经验 9月13日，微众银行笔试 9月13日微众银行笔试代码 20220913百度2023秋招研发B卷题解面试常问-Spring Cloud篇

23届秋招一点小小的牢骚

当面试官提问：你有什么要问我的吗？该如何回答上海曼伦2023内推 | 可查询所有岗位进度【持续更新】这些外企公司已经开始秋招了！快冲呀美团面经（一二面，已挂）【23秋招银行招聘信息汇总】最新汇总9月14日

这个事题目标题这个事题目标题这个事题目标题

联系我们

扫描二维码

请添加深了个蓝微信

请备注【智商测验题库】

如果你有求职意向，或有想分享的面试经验，或有想要学习的内容。欢迎随时联系我们！

解题思路

<p>前天刚签完三方，秋招也算正式结束了，我找的是大数据开发岗位（偏平台开发/框架开发，非数仓（数仓理论不会）），秋招投了：阿里、腾讯、字节、快手、华为，拿了字节、快手、华为的offer。一路过来受到很多人的帮助，所以也想写一贴（ 算是分享贴？）分享下之前自己的学习途径。如果对读者有帮助，那太好了哈哈哈哈哈，很开心。如果有错，欢迎批评指正！ 帖子分两部分吧： 个人学习经历 和 框架学习建议 （感觉也不算建议，大家互相探讨就行） 面经相关： 牛客上在大数据方面其实大佬很多很多，之前我也是看了他们的面经贴学了很多，在这列举下哈哈哈哈哈哈（一定不全，欢迎补充）： reswqa， InstantCWeed， 优秀的张先生， Commando201804，啊猩猩星星（牛客指导老师，感觉如果是大数据开发，可以以该老师为目标（3年P7 XDDD）https://www.nowcoder.com/discuss/607015）， Offer快来吧please（大佬，非科班转码，希望大佬有时间发个帖子）， BowenXiao（如果也是知乎上的id，那这人是个巨佬！！！） ， 星河弱水，机智多（算是我Flink的引路人，哈哈哈哈哈哈哈）， 胡胡达&nbsp;（大佬，很多面经）， superpen， MarshalJS ， 林子啦啦啦， 魔力鸟flying， Chihyung （巨巨巨佬，校招时就已经是Spark的contributor了），TD2022（大数据引路人，哈哈哈哈哈哈），kumo_ &nbsp;还有好多好多。。。 面经的使用： 1. 学习前可以让我们把握学习的重点 2. 学完后可以查漏补缺 3. 面试前压压题？？？ 本人情况： 双非本，985硕（学校很好，本人一般），科班，无奖，无实习（导师不放）无论文，很垃圾的项目（导师的项目，负责项目的主管一周解决不了类加载不到的问题。。。），略懂Flink DataStream和Spark core的源码，大数据方面纯自学 个人学习经历： ps 本科很水，试了计算机中很多很多方向，基本简历是一穷二白。最后一年也是随大流，咬咬牙靠运气上了985硕（用哥哥和阿sam的《沉默是金》中一句话形容&quot;&nbsp;受了教训 得了书经的指引 ... 不再像以往那般笨&quot;）, 所以研一入学我拼命地想学技术。然后导师给了个CV项目，当时我想的是以后要做CV算法工程师！！！ 但是学长找工作的艰难和我偷偷去面试商汤实习的失败，以及当时看了很多深度学习相关的数学推导（告辞），我直接放弃了，太难了。。。 然后偶然遇到talkdata(b站上up，我还买了他两本笔记XDDDD非广告)的视频，发现居然还有大数据这个方向，当时是想选后端，但是想了想，别人如果也算法劝退，那么估计都会去走后端，那我这之后加上不能实习不得被卷死？所以走了大数据 我的大数据学习路线： 首先你得会Java（一定要会！！！），这部分主要就是Java语法，集合，并发，JVM（基本就是八股文水平，这几块大家可以看其他人怎么学的，然后对照比如JavaGuide、Java3y八股文，理解性记忆 一定要形成自己一套东西，这样你面试时候才能扯！！！！！！！！！），比如举个例子： JVM中GC？ 这块首先你得明确什么是垃圾？两种判断方式的优缺点：计数法，不止循环引用的缺点！，然后可达性分析，具体三色标记法的实现，并发标记情况下三色标记法的问题，然后多标、漏标带来的问题，如何解决，不同的解决的思路就对应着后面的CMS和G1.... （可能有错，我已经很久没看八股文了&nbsp; orz）这些就是需要自己去理解才能串起来，这样你嘴巴才能像机枪，哒哒哒哒哒哒哒哒 这种 串起来 的方法也适用于后面大数据组件的学习！！！ ------------------------ 学完Java八股文后，这里就是大数据和后端的分水岭：如果走后端，那就SSM一套(当然可能会学redis、kafka、mysql )，如果走大数据，那就开始学习大数据组件--------------------------- 我的大数据组件学习顺序： mysql（会sql，leetcode上sql 2020.2月前的题基本都刷完了，会八股文) redis（看了，后面一直没复习，就没用了，简历也没写） hive(看了，后面一直没复习，就没用了，简历也没写) hadoop(MR:&nbsp;原先看了源码，没什么卵用，直接说自己会Spark源码，Yarn：八股文水平，但是注意cgroup和namespace机制，HDFS：八股文水平（美团两篇文章+https://www.imbajin.com/tags/hdfs/ 够够的了！）) spark（core 源码层面） flink（datastream源码层面） kafka（基本原理+高级特性（事务、时间轮）+一点点的源码） hbase （基本原理+基本特性（二级索引）+一点点源码） zk（基本原理+基本操作+zab协议） paxos/raft/zab（看知乎上朱一聪 paxos 整整看了两天的水平，看哭了。。。不推荐面试说paxos，反而说raft更好，推荐知乎丁凯+原论文） 框架学习建议： mysql： 这个我不太行，我就是看完《Mysql必知必会》后刷了好久的sql（其实到面试时，因为自己一直没复习sql，所以还是说sql不太会，各位一定要注意复习啊啊啊！），然后底层的存储引擎基本不怎么了解，事务、锁这些八股文一定要像前面那样，串起来 redis：talkdata说要学，我感觉随便吧，我这种情况基本算是没学 hive：走数仓的同学一定要学。对于有时间的同学，可以稍微了解下底层sql到具体mr任务的实现（快手三面问到了） hadoop：我看了《Hadoop权威指南》（这本书一定不能从头看到尾，里面有很多过时东西，按照上面几个组件挑着看就行），hadoop其实就三块，MR（这块的源码，如果你会Spark源码，那直接跳过这部分，如果你是走数仓那条，那MR源码这块最好要会，毕竟之后数据倾斜一些原理其实从源码上就能看出来什么原因了，我看很多面试官会纠结内存中环形缓冲区怎么实现，具体可以看看），Yarn这块就是调度器的调度机制，以及稍微深一点的cgroup、namespace（ 内存隔离、CPU隔离），HDFS就按照上面资料，重点可以关注：NN、DN结构，作用，读写过程（能说到API最好），读写容错，HA，联邦这些 spark：首先可以看看尚视频（很粗浅的，尽量倍数）有个大概印象，然后看《大数据处理框架Apache Spark设计与实现》（为数不多需要全部看完的书）《Spark技术内幕》（部分）， 基本上看完这两本就会在原有的视频基础上有个拔高（这时候可以跟着刷刷spark一些经典题），至于SparkSQL（如果有时间可以学学，推荐《 Spark SQL内核剖析》)，之后就到源码层面的了，此时就需要《Spark内核设计的艺术》很厚很厚的书，大概800多页，不是全看（注意前面的书，一定不要全看。。。还是那句话挑重点，重点哪里来？面经里来，面经哪里来？牛客里来... ），Spark源码可以关注几个部分：RDD的五大特性、宽窄依赖的实现（reducebykey一定会产生shuffle？？？什么情况不会产生shuffle？）， SparkContext（也就是Driver， TaskScheduler、DAGScheduler、SchedulerBackend各个职责）， shuffle过程（三种shuffle write+一种shuffle read，其实三种write中主要还是BypassMergeSortShuffleWriter+SortShuffleWriter， 剩下那个UnsafeShuffleWriter，要看你spark内存管理掌握如何了，如果可以那就说，如果不可以就不说，面试可不能玩火，言多必失拉低面试官好感），blockManager，Broadcast变量实现，checkpoint实现，Spark内存管理（ 说实话，这部分我也不太熟，我也只了解到每个Executor进程有个MemoryManager，其内部包含MemoryManager，包含:四个memoryPool，两个MemoryAllocator 各自作用。。。）最后就是在这些源码基础上的一些引申题了，比如RDD为什么不可变啊，Spark频繁GC什么问题啊，最后学完Spark一定要问自己一个问题，为什么Spark能够处理TB、PB级别的数据而不会发生溢出？ans：分区、流水线、迭代器模式三个方面去考虑，这样整个数据在框架中怎么流动就基本掌握清楚了 flink：插曲：原先面的flink-runtime团队，很可惜，马哥把我挂了，这也直接把我之后方向也改变了，orz 变数太大了。 flink这块的资料，首推b站上flink官方视频，看完基础部分后看committer崔星灿翻译的《基于Apache Flink的流处理》，还是不用看完，看到连接器哪章就差不多了。然后可以做一做https://github.com/ververica/flink-training-exercises 里面的练习。之后如果感兴趣就可以开始阅读源码了。推荐几个flink源码资料：https://blog.jrwang.me/tags/flink/（*） 、http://www.whitewood.me/ 、http://wuchong.me/、&nbsp;flink官方文章、 https://www.jianshu.com/u/49e6a4e2bf69（如果挂了百度搜索littlemagic）公众号推荐：大数据渣渣瑞、zhisheng，&nbsp;章鱼沉思录。&nbsp;源码这块的话我看了很多，我也不知道哪些是重点哪些不是重点，基本上就是按照&nbsp;*&nbsp;的过程去看的。首先你得知道基本原理，然后对照着&nbsp;*&nbsp;的内容一步步下来，第一次看完后，你绝逼会看很细很细，然后你需要看第二次，这时候你要做抽象，做总结，比如你只要关注某个类，某个类中的成员变量，以及一些重要的方法，像我这样： 最后第三遍整张A4纸，假装你要说给别人听，然后在A4纸上疯狂地说，疯狂的画就行，然后面试遇到面试官就可以哒哒哒哒哒哒哒哒，对于flink中一些论文可以去读读，像C_L、ABS算法还是很巧妙的，之后有些特性就是要完善这些算法的缺点，有时间可以阅读试试，还是能让你变得会扯 之后flink这块的话可以结合源码，然后比如尝试分析出现反压可以怎么去分析，通过Java bin工具或者linux 命令去定位，然后解决。。。 7. kafka： kafka这块其实就围绕几个问题： 为什么使用kafka？然后就高吞吐、高可靠、高可用三点 高吞吐：生产者异步、压缩、批量发送啦、网络模型I/O多路复用高效啦、写入pageCache啦、顺序I/O啦、baseOffset形成跳表啦、零拷贝啦、批量拉取啦，一条龙整上，爽歪歪 高可靠：如何做到不重不漏不乱序？典中典了 高可用：Controller HA、PartitionHA（可以说到ISR、ISR概念，为什么设定ISR、如何保证消费一致性啦.............） 这几个点理解完后基本没啥问题，然后其他问题，可以 看看面经进行查漏补缺， 原谅我是八股文砖家哈哈哈 8. hbase： HBase的学习需要从它的本质（ 多维 排序 稀疏 分布式 Map），架构入手，表分region，region分store，store分memstore，diskstore，然后各个的作用，可能会出现什么操作（region&nbsp;merge、split、memstore的flush），然后到Hbase的写入读取过程，最后rowkey热点问题，如何实现二级索引，事务等等。这个推荐范欣欣《HBase原理与实践》(也是不全看，因为我们没那时间，重点调前面讲过的几点)和 http://hbasefly.com/author/libisthanksgmail-com/他个人博客的评论（ 注意是评论，文章内容就是书籍内容，都一样，评论才精彩！！！可以学到很多） 9. zk： 首先了解下zab协议，然后可以参考下面我总结的这些内容来看 ZooKeeper是一个可用于维护配置信息，命名，提供分布式同步等功能的 高可用分布式协调服务。 为了实现这些功能，其首先设定了自己的存储数据的数据结构Znode Znode主要包含 三个部分 stat: 包含Znode的 版本（ CAS）、 权限（ 读写，创建子节点，删除子节点...）等信息 data：Znode中存储的数据 children：Znode的子节点 节点的 种类主要分成临时节点(不能在其下面创建子节点)，持久节点，顺序节点。临时节点和客户端-服务端的会话有关， 会话结束(不是连接结束，导致结束有宕机、网络超时等原因)则临时节点会被删除，持久节点则不会。）比如0000000001, 0000000002加以区分，这样节点种类就被区分成临时节点、临时顺序节点、持久节点、持久顺序节点（顺序节点假如设置成W0000000001，W0000000002，之后如果全部删除，下一个创建的顺序节点序列号将从W0000000003开始，zk肯定维护了这个序列号） 当然zookeeper还提供了使用这些节点的操作（创建create()、获取子节点getChildren()、获取节点数据getData()、更新数据setData()） 多个Znode会组成一种类似文件系统中 目录树 结构，保存在内存中。内存数据丢失可以靠history回放，同时zookeeper会将这些数据定期保存快照到磁盘中，也能从其恢复。 为什么同时将快照、事务日志落盘，落盘一个不就好了？出于数据粒度的考虑。。。 树的操作有些 约束: 1. 节点只能通过绝对路径访问 2. 不能递归创建、也不能递归删除节点(删除有子节点的节点) 3. 临时节点下不能创建子节点 上面说的 这些功能都以某种形式被分布式应用程序(zk客户端)使用, 这就涉及到zk客户端和zk服务端之间通信？ 除了 正常心跳外就是通过watcher对象。zk客户端在自己所要关注的Znode上注册Watcher对象，一旦Znode的data、children发生变化时( stat中权限改变不会触发NodeDataChangedWatcher)，或者连接状态变化，注册在其上的Watcher对象触发，zk客户端将会收到通知从而做出反应。Watcher是一次性的， 触发后就会被移除，如果还需要继续监听则客户端需 重新注册，zk客户端收到的通知不会包含具体的内容(现在的data、现在的children，只能再次getData、getChildren获取)，而仅仅是 节点路径 ， 连接状态 ， 事件类型(data变化、children变化，节点增删) zookeeper是 高可用 的服务运行在奇数数量的集群上，要 保持高可用 就往往需要多副本，如何保持多副本之间数据的一致 ？zookeeper使用zab算法 zookeeper集群节点分成三种角色leader、follower、observer 。。。 使用observer的原因：。。。 zab算法主要分成4个阶段：leader election + discovery + synchronization(recovery) + broadcast 。。。 实现是3个阶段 只有处在broadcast阶段中集群才能向外提供服务 基于以上的这些，zookeeper实现了上述配置中心，命名服务，分布式锁/队列等功能 如果有空可以使用zk实现个分布式锁。zk操作可以推荐 《从paxos到zookeeper分布式一致性》，前面2pc，3pc，zab理论就别看了，乱的一批给我看懵了。这些理论部分去知乎上看大V文章（比如丁凯，范斌。。。） 10. raft： 看知乎文章+原论文 大数据最好的项目就是实习，所以一定要去实习！没实习那只能b站、github上实时数仓或者离线数仓咔咔往上怼喽，然后再读点源码，秋招应该没啥问题 面试体验： 字节，最佳，整整一星期发意向 快手，hr慢点，其他和字节差不多 阿里，持续一个月，然后gg 腾讯，更加蜜汁操作。。。 华为，大家都知道 最近在赶论文，所以有些内容没写太详细，如果各位有需要的可以在评论区说下，有时间我补充补充。 最后感谢那些帮助我的人（几位师兄，TD2022，秋招小伙伴....），很感谢很感谢！！！！！！！！！！！！！尤其感谢字节跳动-视频架构团队，第一个意向给了我很大的信心，感谢！ 帮助他人，攒人品，保佑盲审过过过过过过！！！毕业顺顺顺顺顺顺利利利利利利利！！！ 更多模拟面试 查看更多 &gt; 模拟面试第 17 名 中国农业银行 模拟面试 有人42分钟前测试并获得了面试报告 模拟面试第 15 名 哔哩哔哩 模拟面试 有人1小时前测试并获得了面试报告 (226) (744) 分享 举报 精华采集 浏览19740</p>