首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

11月数据面试题复习

2 为什么要前后端分离开发?前后端分离开发的优势和劣势? 让专业的人做专业的事情 优势:分工明确,各司其职 劣质:前后端联调需要消耗比较多的时间 3 什么情况下会引起跨域?...1)从 high-level 的角度来看,两者并没有的差别。...当表和小表join时,用map-side join能显著提高效率。...不一定,当数据规模小,Hash shuffle快于Sorted Shuffle数据规模的时候;当数据量大,sorted Shuffle会比Hash shuffle快很多,因为数量大的有很多小文件,不均匀...,甚至出现数据倾斜,消耗内存,1.x之前spark使用hash,适合处理中小规模,1.x之后,增加了Sorted shuffle,Spark更能胜任大规模处理了。

68911

2019 C++开发工程师面试题合集

线程则不然,由于同一进城下的线程之间贡献数据空间,所以一个线程的数据可以直接为其他线程所用,这不仅快捷,而且方便。...2)调用 malloc()函数时,它沿着连接表寻找一个到足以满足用户请求所需要的内存块。 然后,将该内存块一分为二(一块的大小与用户申请的大小相等,另一块的大小就是剩下来的字节)。...4)到最后,空闲链会被切成很多的小内存片段,如果这时用户申请一个的内存片段, 那么空闲链表上可能没有可以满足用户要求的片段了。...若所属自由链表为空,则请求内存池为所属自由链表分配空间;默认情况下,为该自由链表分配20个区块,若内存池剩余容量不足,则分配可分配的最大容量;若内存池连一个区块都无法分配,则调用chunk_alloc为内存池分配一块区块...支持简单数据类型,需要客户端自己处理复杂对象 2)持久性:redis支持数据落地持久化存储;memcache不支持数据持久存储。)

1.3K41
您找到你想要的搜索结果了吗?
是的
没有找到

数据面试题(开发者必看)

数据库常见面试题(开发者篇) 这里写图片描述 什么是存储过程?有哪些优缺点? 什么是存储过程?有哪些优缺点? 存储过程就像我们编程语言中的函数一样,封装了我们的代码(PLSQL、T-SQL)。...我们应该做到:他们想看到什么样的数据,我们就给他们什么样的数据…一方面就能够让他们只关注自己的数据,另一方面,我们也保证数据表一些保密的数据不会泄露出来… 我们在查询数据的时候,常常需要编写非常长的SQL...rowid,方可看见 (3)它与每个表绑定在一起,表亡,该表的rowid亡,二张表rownum可以相同,但rowid必须是唯一的 (4)rowid是18位小写加数字混杂体,唯一表代该条记录在DBF文件中的位置...不可重复读:一个事务读取到另外一个事务已经提交的数据,也就是说一个事务可以看到其他事务所做的修改 注:A查询数据库得到数据,B去修改数据库的数据,导致A多次查询数据库的结果都不一样【危害:A每次查询的结果都是受...⑦多使用commit comiit会释放回滚点… ⑧善用索引 索引就是为了提高我们的查询数据的,当表的记录量非常的时候,我们就可以使用索引了。

1.8K51

入我新美的Java后台开发面试题总结

静儿最近在总结一些面试题,那是因为做什么事情都要认真。面试也一样,静儿作为新美大金融部门的面试官,负责任的告诉大家,下面的问题回答不上来,面试是过不了的。...GC Roots的对象包括如下几种(静儿来新美的时候就被我们架构师问过这个问题):   ⭐️  虚拟机栈(栈桢中的本地变量表)中的引用的对象   ⭐️  方法区中的类静态属性引用的对象   ⭐️  方法区中的常量引用的对象...⭐️  通过explain做查询分析,看看有没有用索引,访问的行数rows   ⭐️  关闭skip_name_resolve,减少逆向DNS解析的消耗   另外还有一些实际写代码过程中深入骨髓的,比如数据动静分离提高...很多人说面试题和实际开发联系不大,觉得没啥用。其实很多活培训两个月都是能干的。人和人之间的差距确实没有明显到你能干我不能干的程度。...还幻想着劝我家男神来我们新美,像以前我在人人的时候一样,每周末来给我收拾工位呢。不来也好,旁边站着一个女神收割机,我压力也是有的。   当一个人站在自己面前,其实自己心里是很清楚的。

77761

快大数据开发框架的构成模块

快大数据开发框架的构成模块 大数据也不是近几年才出现的新东西,只是最近几年才真正意义上变得热门、火爆!...做大数据原生态开发且又推出商业发行版的,行业也就只有快搜索,可能在未来的三五年内也许还会有做大数据原生态开发的出现。...为何大数据的普及度不高,主要是由于大数据的应用开发太过偏向于底层,学习的难度不是一般的,所涉及到的技术面广太大,不是一般人所能够驾驭得了的。...快DKhadoop把大数据开发中的一些通用的,重复使用的基础代码、算法封装为类库,在很大程度上降低了开发的难度。相信这个对于从事开发的人员看了就更容易懂了。...下面,就给大家介绍看一下快的大数据开发框架的模块构成都有哪些: 快大数据一体化开发框架主要由六部分组成:数据源与SQL引擎、数据采集(自定义爬虫)模块、数据处理模块、机器学习算法、自然语言处理模块、

69520

数据工程师(开发面试题(附答案)

我:初始化,资源,数据源,并行化,rdd转化,action算子打印输出结果或者也可以存至相应的数据存储介质 补:具体的可看下图: 2. Spark有哪两种算子?...面试官:还有你刚刚写的那个groupByKey哈 补: 在我们的开发过程中,能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子...你如何从Kafka中获取数据? 我:topic 补:分布式消息系统:Kafka 7. 对于Spark中的数据倾斜问题你有什么好的方案? 我:可以先分析基数造成数据倾斜的维度,将其适当的拆分。...面试官:给你个提示,尝试用树这个数据结构。 补:此处埋一个坑,学完树的数据结构再回来解决。...非大数据领域,我们可以用ZooKeeper来做些什么? 我:ZooKeeper是分布式协调组件,非大数据领域,可以用ZooKeeper来做HA或者存储数据,比如配置信息啥的。

14.8K40

HashMap常见面试题_java面试题汇总

比如某些人通过找到你的hash碰撞值,来让你的HashMap不断地产生碰撞,那么相同key位置的链表就会不断增长,当你需要对这个HashMap的相应位置进行查询的时候,就会去循环遍历这个超级的链表,性能及其地下...关于这个值的设置,在《阿里巴巴Java开发手册》有以下建议: 也就是说,如果我们设置的默认值是7,经过Jdk处理之后,会被设置成8,但是,这个HashMap在元素个数达到 8*0.75 = 6的时候就会进行一次扩容...HashMap的数据结构 在Java中,保存数据有两种比较简单的数据结构:数组和链表。...JDK1.7 首先将数据分为一段一段的存储,然后给每一段数据配一把锁,当一个线程占用锁访问其中一个段数据时,其他段的数据也能被其他线程访问。...①、粒度降低了; ②、JVM开发团队没有放弃synchronized,而且基于JVM的synchronized优化空间更大,更加自然。

34620

数据开发:Hadoop、Spark、Flink三框架对比

目前来说,大数据领域最为活跃的三个计算框架,当属Hadoop、Spark以及Flink这三者。三个框架在不同的大数据处理场景当中,表现各有优势,因此也常常被拿来做比较。...今天我们也来做个Hadoop对比,看看Hadoop、Spark、Flink三框架,各自的优势劣势如何。...3、数据流对比 Hadoop:MapReduce计算数据流没有任何循环,每个阶段使用上一阶段的输出,并为下一阶段产生输入。...Flink:Flink采用连续流式流传输模型,实时对数据进行处理,而不会在收集数据或处理数据时出现任何延迟。...作为主流的三处理框架,这三者在大数据领域都有着自己的优势和劣势,因此最好的方案就是将各自的优势结合起来,实现更高效率地完成大数据处理任务。

2.4K30

出一套高端大数据开发面试题

一千个读者眼中有一千个哈姆雷特,一千名 大数据 程序员心目中就有一千套 大数据面试题。本文就是笔者认为可以用来面试大数据 程序员的面试题。...收集的面试题有以下三个来源: 笔者在准备面试的过程中搜集并整理过的面试题。 笔者在准备面试的过程中自己思考过的新题。 笔者在面试过程中遇到的觉得比较好的题。...Spark的这些特性使得开发人员能够控制数据在不同节点上的不同分区,用户可以自定义分区策略,如hash分区等。...5)内存计算能力的扩展 spark的弹性分布式数据集(RDD)抽象使开发人员可以将处理流水线上的任何点持久化存储在跨越集群节点的内存中,来保证后续步骤需要相同数据集时就不必重新计算或从磁盘加载,大大提高了性能...6)开发速度的提升 构建数据应用的最大瓶颈不是 CPU、磁盘或者网络,而是分析人员的生产率。所以spark通过将预处理到模型评价的整个流水线整合在一个编程环境中, 大大加速了开发过程。

63530

2023秋招大厂-嵌入式开发经典笔试面试题整理

前言:嵌入式其实是一个知识比较杂乱的岗位,软件你要懂,硬件你也要懂;底层要懂,做应用开发的话上层也要懂。...10、线程通讯(锁): (1)信号量(2)读写锁(3)条件变量(4)互斥锁(5)自旋锁 第二章C/C++面试题 1、new和malloc的区别 2、 malloc的底层实现 3、在1G内存的计算机中能否...cache情况下,DMA数据链路为:外设-DMA-DDR-cache-CPU,CPU需要对cache做什么操作,才可以得到数据 14、linux中改变文件属性的命令:chmod 15、linux中查找文件中匹配字符串的命令...) 4、I2C协议时序图 5、单片机的SP指针始终指向:栈顶 6、I2C总线在传送数据过程***有三种类型信号, 它们分别是:开始信号、结束信号和应答信号。...:80 4、面向对象编程的三特性,以及重载的意思。

1.3K10

java开发面试题

union:查询的结果集会合并 不会包含重复项 union all:查询的结果集不会合并 会包含重复项 3、spring的aop通知 4.git和svn的区别 git是分布式的 svn不是分布式的 git把数据按元数据存储...没有一个全局版本号 svn有 svn提交必须先update然后在commit,忘记合并会出现问题 5、left join、right join,join的区别 left join 左链接 以左边为主关联表2,表1数据全部显示...,表2展示与表1交集数据 right join 右链接 以右边为主关联表2,表1数据全部显示,表2展示与表1有交集数据 join 内链接 表1 表2只展示有交集的数据 6、msql函数 char_length...的区别 ehcache是一个纯java的进程缓存框架,运行在jvm上,效率高,速度快,但是缓存共享麻烦,分布式架构麻烦 redis是一个独立程序,通过socket访问到缓存服务,效率比ehcache慢比数据库访问快...Spring有七功能模块,分别是Spring Core,AOP,ORM,DAO,MVC,WEB,Context。

14420

面试题-----五框架总结!!!

请求经过过滤器 3、再被Struts调用,通过Struts2的核心配置文件决定调用某个action 三、hibernate的特点 1、轻量级的框架 2、是持久层框架 3、内置简单的sql语句 4、是实体类与数据库表字段的关系型映射...6、全自动 四、mybatis的特点 1、手动编写sql语句 2、动态实现sql 3、是实体类与sql语句的关系映射 4、也是持久层框架 5、半自动 五、hibernate与mybatis的区别 1、数据库表数量较多...,需要批量处理 推荐使用mybatis框架 2、数据库表结构复杂,推荐使用mybatis框架 3、人员方面不是经常使用hibernate的情况下,使用mybatis框架简单易学 六、mybatis 工作原理...1、加载mybatis全局配置文件(数据源、mapper映射文件等),解析配置文件,MyBatis基于XML配置文件生成Configuration,和一个个MappedStatement(包括了参数映射配置...3、SqlSession对象完成和数据库的交互: a、用户程序调用mybatis接口层api(即Mapper接口中的方法) b、SqlSession通过调用api的Statement ID找到对应的MappedStatement

67440

数据开发工程师面试题以及答案整理(二)

2、当业务场景不需要数据持久化时,关闭所有的持久化方式可以获得最佳的性能以及最大的内存使用量。...所以,Cloudera 建议如果数据被多个系统消费的话,使用kafka;如果数据被设计给Hadoop使用,使用Flume。...项目中遇到什么难题,有没有数据丢失,怎么解决 难题就是数据丢失 rdd怎么划分stage map,filtre为窄依赖, groupbykey为款依赖 遇到一个宽依赖就分一个stage RDD...同时如果数据量十分,可能还会造成OutOfMemoryError。...kafka 重启是否会导致数据丢失 不会 因为kafka会做持久化 spark streaming 重启是否会导致数据丢失 博客:Spark Streaming和Kafka整合是如何保证数据零丢失

56910

2019数据面试题:三范式理解(实例超全解析)

一、数据库第一范式: 数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。...(保持数据的原子性) 数据原子性很好理解,就是表中的字段不可再分。 ? 这是一张简单的员工信息表,其中有工号、姓名、电话三个字段。...二、数据库第二范式: 在满足第一范式的基础上,实体的每个非主键属性完全函数依赖于主键属性(消除部分依赖) 主键:凡是接触过数据库的人,肯定都会知道主键,主键明确标识了每条记录,一般是一个字段,也可以由两个或两个字段组成...** 反3NF 没有冗余的数据库未必是最好的数据库,有时为了提高运行效率,就必须降低范式标准,适当保留冗余数据。...具体做法是: 在概念数据模型设计时遵守第三范式,降低范式标准的工作放到物理数据模型设计时考虑。降低范式就是增加字段,允许冗余。 订单和订单项、相册浏览次数和照片的浏览次数。

3.8K20
领券