• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

python连接hive

武飞扬头像
张hanwen
帮助1

  一、需要安装下载的包

1、下载pyhive、thrift和sasl三个包(pip install就好)

2、目前遇到的问题:

        sasl安装问题:

(1)sasl安装需要到相关网站下载whl之后找到和python适配的版本进行安装,安装网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl学新通https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl

学新通

 安装完这个把他放在放入你的终端目录里面去,之后用pip install xxx.whl

(2)有的电脑会提示缺失了与此有关的依赖项或库文件,需要安装一个Visual C Build Tools,详细参考:https://go.microsoft.com/fwlink/?LinkId=691126学新通https://go.microsoft.com/fwlink/?LinkId=691126

二、进行查询和连接(例子)

  1.  
    # 一个例子
  2.  
    import pandas as pd
  3.  
    from pyhive import hive
  4.  
    import thrift
  5.  
    import sasl
  6.  
    conn = hive.Connection(host="xxx.xxx.xx.xxx", port=10000, username="你的用户名")
  7.  
     
  8.  
    # 执行查询操作
  9.  
    cursor = conn.cursor()
  10.  
    cursor.execute("SELECT x.* FROM 表名 x WHERE date_format(start_date, 'yyyy-MM-dd') >= '2021-12-31'")
  11.  
    results = cursor.fetchall()
  12.  
     
  13.  
    # 将结果保存
  14.  
    df = pd.DataFrame(results)
  15.  
    print(df)
  16.  
     
  17.  
    # 关闭连接
  18.  
    cursor.close()
  19.  
    conn.close()
学新通

三、下一步:之后会尝试的其他接口

1、使用pyodbc或jaydebeapi库:这两个库提供了ODBC和JDBC驱动程序的Python接口,可以被用于连接Hive库。

2、使用pyspark库:如果你已经使用Spark作为处理框架,你可以使用pyspark库来连接到Hive,进行SQL查询、数据导入/导出等操作。

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhiejjcg
系列文章
更多 icon
同类精品
更多 icon
继续加载