前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >python读取hive数据最佳实践

python读取hive数据最佳实践

作者头像
有福
发布于 2018-08-28 06:43:59
发布于 2018-08-28 06:43:59
2.8K00
代码可运行
举报
文章被收录于专栏:极客生活极客生活
运行总次数:0
代码可运行

使用pyhive库来连接hive server2提供的对外接口,使用sql语句来对数据进行查询,并处理返回结果。

安装依赖:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
yum install python-pip gcc gcc-c++ python-virtualenv cyrus-sasl-devel
pip install pyhive
pip install thift
pip install sasl
pip install thrift-sasl

目前大部分公司都使用cdh来安装整个hadoop的处理平台,可以在cloudera manager中查看HiveServer2的配置。

代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# -*- coding: utf-8 -*-
from pyhive import hive

conn = hive.Connection(host='HiveServer2 host', port=10000, username='hdfs', database='default')
cursor = conn.cursor()
cursor.execute('select * from demo_table limit 10')
for result in cursor.fetchall():
    print result

参考:

https://github.com/dropbox/PyHive

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017.11.30 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python操作Hive的两种方法总结
安装依赖包:其中sasl安装可能会报错,可以去https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl下载对应版本安装。
py3study
2020/01/06
7.3K0
0473-如何使用Python3访问Kerberos环境的Hive和Impala
随着Hadoop平台的流行,越来越多的开发语言访问Hadoop平台的组件,比较常见的Java、Scala、Python、R等。在前面的多篇文章中Fayson介绍了Java和Scala访问Hadoop各个组件的方法。对于偏分析类的Python和R语言访问集群的Hive和Impala比较多。本篇文章Fayson主要介绍如何使用Python3访问Kerberos环境的Hive和Impala。
Fayson
2018/12/24
3.6K0
0473-如何使用Python3访问Kerberos环境的Hive和Impala
Python之大数据库hive实战
今天和大家分享的是Python如何连接hive数据库来进行hivesql的查询操作。
Wu_Candy
2022/07/04
1.3K0
Python之大数据库hive实战
Python连接Hive操作数据库
客户端连接Hive需要使用HiveServer2。HiveServer2是HiveServer的重写版本,HiveServer不支持多个客户端的并发请求。当前HiveServer2是基于Thrift RPC实现的。它被设计用于为像JDBC、ODBC这样的开发API客户端提供更好的支持。Hive 0.11版本引入的HiveServer2。
加米谷大数据
2018/07/25
4.7K0
Python连接Hive操作数据库
python 连接 hive
在网上搜索关键字 python hive 的时候可以找到一些解决方案。大部分是这样的,首先把hive 根目录下的$HIVE_HOME/lib/py拷贝到 python 的库中,也就是 site-package 中,或者干脆把新写的 python 代码和拷贝的 py 库放在同一个目录下,然后用这个目录下提供的 thrift 接口调用。示例也是非常简单的。类似这样:
py3study
2020/01/14
2.3K0
Python3环境通过JDBC访问非Kerberos环境的Hive
在前面Fayson介绍了在Python2的环境下《如何使用Python Impyla客户端连接Hive和Impala》,本篇文章Fayson主要介绍在Python3的环境下使用Impyla访问非Kerberos环境下的Hive以及将获取到的结果集转换为Pandas的DataFrame。
Fayson
2018/08/03
1K0
Python3环境通过JDBC访问非Kerberos环境的Hive
[喵咪大数据]HUE大数据管理工具
日常的大数据使用中经常是在服务器命名行中进行操作,可视化功能仅仅依靠着各个组件自带的网页进行,那么有没有一个可以结合大家能在一个网页上的管理工具呢?答案是肯定的,今天就和大家一起来探索大数据管理工具H
喵了个咪233
2018/03/02
2.4K2
[喵咪大数据]HUE大数据管理工具
Python3通过JDBC访问非Kerberos环境的Impala
在前面Fayson介绍了在Python2的环境下《如何使用Python Impyla客户端连接Hive和Impala》及《Python3环境通过JDBC访问非Kerberos环境的Hive》,本篇文章Fayson在Python3的环境下使用Impyla访问非Kerberos环境下的Impala以及将获取到的结果集转换为Pandas的DataFrame。
Fayson
2018/08/03
1.3K0
Python3通过JDBC访问非Kerberos环境的Impala
如何使用Python Impyla客户端连接Hive和Impala
继上一章讲述如何在CDH集群安装Anaconda&搭建Python私有源后,本章节主要讲述如何使用Pyton Impyla客户端连接CDH集群的HiveServer2和Impala Daemon,并进行SQL操作。
Fayson
2018/03/29
10.9K0
如何使用Python Impyla客户端连接Hive和Impala
【详解】HiveThrift服务
在大数据处理领域,Hive 作为数据仓库工具,提供了 SQL 接口来查询存储在 Hadoop 分布式文件系统(HDFS)中的数据。HiveThrift 服务是 Hive 的一个重要组成部分,它允许客户端通过网络接口与 Hive 服务器进行交互,执行 SQL 查询并获取结果。本文将详细介绍 HiveThrift 服务的工作原理、配置方法以及如何使用 Java 客户端连接到 HiveThrift 服务。
大盘鸡拌面
2025/01/22
1390
Win10系统Python3连接Hive配置
由于数据存放在大数据平台的Hive数据仓库中,我需要在Win10系统上利用Python3连接Hive,然后读取数据,进行探索、分析和挖掘工作。
陆勤_数据人网
2020/02/26
1.3K0
用Java、Python来开发Hive应用
在hive配置文件:%HIVE_HOME%/conf/hive-site.xml添加
顾翔
2024/09/10
680
用Java、Python来开发Hive应用
如何在CDH5.16.2中安装Python Impyla
文档编写目的 整理CDH5中安装Impyla的步骤 集群环境 CDH5.16.2 anaconda3 python3.7 组件介绍 Impyla:适用于分布式查询引擎的HiveServer2实现(例如Impala,Hive)的Python客户端。 Impyla依赖包 six bit_array thriftpy thrift_sasl sasl 安装依赖 安装thrift_sasl需要先执行,否则安装会提示缺少sasl.h文件 yum install gcc-c++ python-devel.x86_
Eights
2020/07/10
9860
如何在CDH5.16.2中安装Python Impyla
Python 操作 MariaDB 数据
我们需要导入 MariaDB 的 Python 模块,即 import MySQLdb 才能使用 python 对 MariaDB进行数据的增删减查等操作。
py3study
2020/01/07
1.9K0
Bug死磕之hue集成的oozie+pig出现资源任务死锁问题
这两天,打算给现有的Apache Hadoop2.7.1的集群装个hue,方便业务人员使用hue的可视化界面,来做一些数据分析任务,这过程遇到不少问题,不过大部分最终都一一击破,收获经验若干,折腾的过程,其实也是一个学习的过程,一个历练的过程,我相信优秀的人,都是经历过无数磨难成就的,并且有着坚持不放弃的心态,迎接各种挑战,如果你总是遇到困难就放弃,那么你永远也不能成为最优秀的人,废话不多说了,下面开始进入正题: 框架版本如下: Centos6.5 Apache Hadoop2.7.1 Apac
我是攻城师
2018/05/14
1K0
Hue安装
Hue和hive等安装不同,需要进行编译安装,所以安装起来较为复杂。具体安装步骤:
数据仓库晨曦
2024/01/08
3950
Hue安装
「EMR 开发指南」之通过 Python 连接 Hive
Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。 本节将演示如何使用 Python 代码来连接 HiveServer2。
岳涛
2023/11/22
6351
「EMR 开发指南」之通过 Python 连接 Hive
猿创征文|Python基础——Visual Studio版本——第六章 MySQL操作
输入顺序:host连接地址,port连接端口号,user连接用户名,password连接密码,db连接数据库,charset连接的编码格式。
红目香薰
2022/11/30
4640
猿创征文|Python基础——Visual Studio版本——第六章 MySQL操作
Python基础——PyCharm版本——第九章、MySQL操作(核心4)
如果pip版本不够【python -m pip install --upgrade pip】,先更新pip到最新版本。
红目香薰
2022/11/29
2820
Python基础——PyCharm版本——第九章、MySQL操作(核心4)
Python数据持久化-mysql篇
pymysql模块对python3的支持比较好 安装命令:pip install pymysql
潇洒坤
2018/09/10
1.1K0
Python数据持久化-mysql篇
相关推荐
Python操作Hive的两种方法总结
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验