今天需要从的 hbase 使用 sql 来查询数据,于是想到了使用 phoenix 工具,在自己的环境里大概试了一下,一下子就通了,就这么神奇。...hbase 服务 cd hbase-1.4.9/bin ....active connection: #0 open jdbc:phoenix:thin:url=http://localhost:8765;serialization=PROTOBUF # 查询表...INTO users (id, username, password) VALUES (1, 'kongxx', 'Letmein'); 1 row affected (0.033 seconds) # 查询数据..., A.A1, A.A2, B.B1, B.B2) VALUES (2, 'a21', 'a22', 'b21', 'b22'); 1 row affected (0.015 seconds) # 查询数据
——《三国志》 我们如果需要使用mysql进行随机取N条这样的操作 我们可以这样写 -- 2.然后查询主表,与我们的tmp_table进行INNER JOIN[内连] SELECT * FROM...`film` AS main_table JOIN -- 1.取出主表主键的最大值,与RAND()相乘[RAND()生成0到1的随机数],然后使用ROUND函数取整获得一个tmp_id (SELECT...`film_id` LIMIT 5; 这个是我认为效率比较高的随机查询了
HBase原生自带了对RowKey的很多种查询策略。...通过这个过滤器可以在HBase中的数据的多个维度(行,列,数据版本)上进行对数据的筛选操作,也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上(由行键,列明,时间戳定位)。...PageFilter 分页过滤器,通过pageSize设置每次返回的行数,这需要客户端在遍历的时候记住页开始的地方,配合scan的startkey一起使用 FilterList 过滤器集合,Hbase...的过滤器设计遵照于设计模式中的组合模式,以上的所有过滤器都可以叠加起来共同作用于一次查询 KeyOnlyFilter 设置过滤的结果集中只包含键而忽略值, FirstKeyOnlyFilter...TimestampsFilter 这里参数是一个集合,只有包含在集合中的版本才会包含在结果集中 由于其原生带有PrefixFilter这种对ROWKEY的前缀过滤查询,因此想着实现的后缀查询的过程中
写作目的 1)正好有些Spark连接HBase的需求,当个笔记本,到时候自己在写的时候,可以看 2)根据rowkey查询其实我还是查询了好久才找到,所以整理了一下 3)好久没发博客了,水一篇 版本 Scala...2.11.1 Spark 2.11 HBase 2.0.5 代码 其中hbase-site.xml为hbase安装目录下/hbase/conf里的hbase-site.xml pom依赖 查询 查全表 package com.bjfu.spark.demo.hbasedemo import com.google.common.collect.Table.Cell import org.apache.hadoop.conf.Configuration...key+" "+"value:"+value) // // } } //释放资源 sc.stop() } } 根据rowKey查询...根据rowkey多个值过滤查询(scala环境)_裴大帅2021_新浪博客
——赫尔芩 之前写过mysql随机查询 今天学到一个新方式: SELECT * FROM user_info ORDER BY rand() ASC limit 1 非常的简单方便 对应mp的写法
Reversing可以有效的使RowKey随机分布,但是牺牲了RowKey的有序性。...Salting(加盐) Salting的原理是在原RowKey的前面添加固定长度的随机数,也就是给RowKey分配一个随机前缀使它和之间的RowKey的开头不同。...多维查询场景 多维查询也就是多条件查询,需要任意维度的组合查询,但是HBase 并不擅长做数据分析,为了保证查询性能,因此通常会在离线侧或者实时侧将多维任意组合的数据指标提前加工好写入HBase 中(即...HBase 本身存储是按照RowKey 字典顺序排序的, 在数据扫描时也是按照startRowKey作为起始值顺序查询出数据。...只能通过扫描全表数据进行然后进行内存分页, 因此这种方式只能数据量较少的情况下使用 二级索引分页:使用es 做索引,通过es分页查询查询出rowKey, 然后查询HBase 中数据, 将scan操作转换为批量
界面操作说明 进入hue中的hbase 进入表的查询界面 界面说明 查询语句 ,表示结束查询,可以不加 主键查询 输入主键 rowkey1,rowkey2 说明:只输入主键查询 例1:00000051...|1538229142 例2:00000051|1538229142,00000051|1538230148 根据主键的前缀查询 row_prefix*, 说明:根据主键的前几位进行模糊查询,默认只显示一条数据...ValueFilter(=,'substring:111') 列值中包含111 ValueFilter(=,'binary:111') 列值等于111 以上过滤器是大部分常用的过滤器,在hue-hbase...以下是我自己整理的一部分参考语法: hbase中有单纯根据列值查询的ValueFilter和根据列名和列值查询的SingleColumnValueFilter,可根据需要选择。...下表中是按照根据列名和列值来进行查询的参考 SQL hue_hbase select col1,col2 [col1,col2] where col1="student" SingleColumnValueFilter
我们在用hbase的api对hbase进行scan操作的时候,可以设置caching和batch来提交查询效率,那它们之间的关系是啥样的呢,我们又应该如何去设置? 首先是我们的客户端代码。...接着我们继续看下图 一次查询20条记录的话,只需要3次RPCs,列数在10列以内的数据,取20条,20/10即可,为什么是3呢,因为还有一次RPC是用来确认的。...这就好说啦,这样我们就可以用来优化我们的scan查询了,在查询的时候,按照查询的列数动态设置batch,如果全查,则根据自己所有的表的大小设置一个折中的数值,caching就和分页的值一样就行。
二、操作说明 查看Zookeeper内部HBase相关数据,有两个主要的渠道:一、通过Hbase shell命令zk_dump查看;二、通过zk_cli.sh查看; 三、zk_dump 1 HBase...is rooted at /hbase 2 Active master address: localhost,60000,1411261739960 3 Backup master addresses...: 4 Region server holding hbase:meta: localhost,60020,1411261739301 5 Region servers: 6 localhost...,60020,1411261739301 7 /hbase/replication: 8 /hbase/replication/peers: 9 /hbase/replication/rs:...10 /hbase/replication/rs/localhost,60020,1411261739301: 11 Quorum Server Statistics: 12 192.168.230.128
最近群里面讨论HBASE的使用场景,以及是会没落,这个还真是一句话说不清楚。本文讲其中一个场景:详单查询。 背景 某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询。...HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快速检索,对于多字段的组合查询却无能为力。...针对HBase的多条件查询也有多种方案,但是这些方案要么太复杂,要么效率太低,本文只对基于Solr的HBase多条件查询方案进行测试和验证。...原理 基于Solr的HBase多条件查询原理很简单,将HBase表中涉及条件过滤的字段和rowkey在Solr中建立索引,通过Solr的多条件查询快速获得符合过滤条件的rowkey值,拿到这些rowkey...之后在HBASE中通过指定rowkey进行查询。
基础用法 SELECT * FROM your_table ORDER BY RAND() LIMIT 1; 但是该方法是将整个表的数据都读取到内存中,然后按照随机顺序排序,最后选择第一条记录。...替代方案 为了提高效率,特别是对于大数据量的表,可以考虑以下替代方案: 基于主键的随机选择: 如果表有自增的主键,可以使用如下方法: SELECT * FROM your_table WHERE id...动态 SQL: 这种方法首先获取表的总记录数,然后选择一个随机偏移量: -- 计算总记录数 SET @total_rows = (SELECT COUNT(*) FROM your_table); -...- 计算随机偏移量 SET @random_offset = FLOOR(RAND() * @total_rows); -- 准备动态 SQL 语句 SET @sql = CONCAT('SELECT...使用随机采样(适用于较新版本的 MySQL): MySQL 8.0.23 及以上版本支持 TABLESAMPLE,可以用于更高效的随机数据采样,但可能不适用于精确的单条记录选择。
最近工作需要使用到Spark操作Hbase,上篇文章已经写了如何使用Spark读写Hbase全量表的数据做处理,但这次有所不同,这次的需求是Scan特定的Hbase的数据然后转换成RDD做后续处理,简单的使用...Google查询了一下,发现实现方式还是比较简单的,用的还是Hbase的TableInputFormat相关的API。...基础软件版本如下: 直接上代码如下: 上面的少量代码,已经完整实现了使用spark查询hbase特定的数据,然后统计出数量最后输出,当然上面只是一个简单的例子,重要的是能把hbase数据转换成RDD,只要转成...注意上面的hbase版本比较新,如果是比较旧的hbase,如果自定义下面的方法将scan对象给转成字符串,代码如下: 最后,还有一点,上面的代码是直接自己new了一个scan对象进行组装,当然我们还可以不自己
SELECT * FROM `table` AS t1 JOIN (SELECT ROUND(RAND() * ((SELECT MAX(id) FROM `t...
——(美国)罗素 都封装好了 /** * 随机取几条 * * @param function 表名::列名 * @return T * @author <achao1441470436@...e.printStackTrace(); } })); return bean; }).collect(Collectors.toList()); } /** * 随机取一条...final UserMapper USER_MAPPER = SpringContextHolder.getBean(UserMapper.class); 然后是mapper里的方法 /** * 随机取一条...-- 随机取一条 --> SELECT * FROM ${table_name} AS
原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重。...单笔查询返回 List 大小约 50 条以下,查询频率为 100 笔 / 天左右,查询响应时间 2s。...技术选型 从数据量及查询要求来看,分布式平台上具备大数据量存储,且提供实时查询能力的组件首选 HBase。根据需求做了初步的调研和评估后,大致确定 HBase 作为主要存储组件。...将需求拆解为写入和读取 HBase 两部分。...写入 HBase 的方法大致有以下几种: Java 调用 HBase 原生 API,HTable.add(List(Put))。
技术选型 从数据量及查询要求来看,分布式平台上具备大数据量存储,且提供实时查询能力的组件首选 HBase。根据需求做了初步的调研和评估后,大致确定 HBase 作为主要存储组件。...check 表(原表字段有 18 个,为方便描述,本文截选 5 个字段示意) 如上图所示,主键为 id,32 位字母和数字随机组成,业务查询字段 check_id 为不定长字段(不超过 32 位),字母和数字组成...查询时,先找到 check_id 对应的 id list,然后根据 id 找到对应的记录。均为 HBase 的 get 操作。 ②将本需求可看成是一个范围查询,而不是单条查询。...process query Step1: 根据查询条件,确定 RowKey 前缀 根据 3.3 RowKey 设计介绍,HBase 的写和读都遵循该设计规则。...测试 从原始数据中随机抓取 1000 个 check_id,用于模拟测试,连续发起 3 次请求数为 2000(200 个线程并发,循环 10 次),平均响应时间为 51ms,错误率为 0。
一个15万余条的库,查询5条数据,居然要8秒以上 搜索Google,网上基本上都是查询max(id) * rand()来随机获取数据。...解决办法只能是每次查询一条,查询5次。即便如此也值得,因为15万条的表,查询只需要0.01秒不到。...WHERE id >= (SELECT floor(RAND() * (SELECT MAX(id) FROM `table`))) ORDER BY id LIMIT 50; 这下,效率又提高了,查询时间只有...我在最开始测试的时候,就是因为没有加上MIN(id)的判断,结果有一半的时间总是查询到表中的前面几行。...完整查询语句是: 代码如下: SELECT * FROM `table` WHERE id >= (SELECT floor( RAND() * ((SELECT MAX(id) FROM `table
随机查询,方法可以有很多种。比如,查询出所有记录,然后随机从列表中取n条记录。使用程序便可实现。...可是程序实现必须查询出所有符合条件的记录(至少是所有符合条件的记录id),然后再随机取出n个id,查询数据库。但是效率毕竟没有数据库中直接查询得快。下面介绍MySQL中怎样随机查询n条记录。...`level`=1 order by rand() limit 1; 此写法,可以将查询出的结果集打乱,limit n条记录后,得到n条随机的记录,这n条记录也是随机顺序的,就是效率有点慢,但是很随机。...`level`=1 ) t) limit 1; #效率极低,比order by rand还低(可能针对每条记录都作了子查询,结果不不连续,很随机) select q.* from question q...然后大于等于此id的记录既是符合条件的随机的记录。上述写法仅针对查询出一条记录。
——马克吐温 之前写过一个,最近感觉不好用 然后写了一个更优雅的 /** * 随机查询 * * @param mapper 持久层DAO * @param limit 随机条数 * @return...limit))); Collections.shuffle(list); return list; } 使用方式同样很简单 两个例子: 调用方传入对应的DAO和条件参数以及limit随机获取的条数即可
最近两天在测需求和写脚本的时候,遇到的两个场景,学会的mongodb的查询用法,分享给大家。...以上脚本可以查询tableA表的field1字段在tableB表中不存在的记录 场景二: 最近在写pytest的接口自动化用例的时候,有一个场景需要对比数据库和缓存的数据是否一致,因为考虑到数据是变化的...,因此不能写死某个id,也有考虑过按照更新时间排序取最新的XX条,后来决定还是采用按照某个条件查询出数据后,随机取多少条进行测试。...从查询的结果中随机返回几条数据 tb.aggregate([ {"$match": {"status": 1}}, {"$sample": {"size": 50}} ]) # 随机返回
领取专属 10元无门槛券
手把手带您无忧上云