前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >金融科技:数据导入技术

金融科技:数据导入技术

作者头像
陆勤_数据人网
发布2022-03-29 08:34:47
9160
发布2022-03-29 08:34:47
举报
文章被收录于专栏:数据科学与人工智能

金融科技行业,我接触的主要数据格式:

  • 1 csv格式或者xlsx格式,轻量级的数据格式
  • 2 SAS软件数据格式,通过SAS软件处理和保存的数据
  • 3 数据库表格数据,关系数据库或者数据平台的数据表
  • 4 第三方数据API调用传送数据json格式

金融科技行业的数据科学工作,不管是探索,还是分析,还是建模,我们要先导入数据

如何有效地导入数据呢?我的经验分享如下:

  • 1 首先,清楚数据的格式
  • 2 其次,选择合适的技术栈
  • 3 第三,编写代码导入数据
  • 4 最后,数据检视

01

导入csv格式或者xlxs格式数据

1.1 Python语言

使用pandas库的read_csv函数导入csv和read_excel函数导入xlxs格式 参考代码

代码语言:javascript
复制
import pandas as pd
germancredit1 = pd.read_csv('germancredit.csv')
germancredit2 = pd.read_excel('germancredit.xlsx')

1.2 R语言

使用readr包的read_csv函数导入csv格式 使用readxl包的read_excel函数导入xlsx数据格式 参考代码

代码语言:javascript
复制
library(readr)
credit_data1 <- read_csv('germancredit.csv')

library(readxl)
credit_data2 <- read_excel('germancredit.xlsx')

02

SAS软件保存的数据

2.1 Python

使用pandas库的read_sas函数。 参考代码

代码语言:javascript
复制
import pandas as pd
iris = pd.read_sas('iris.sas7bdat')
iris.head()

2.1 R语言

使用haven包的read_sas函数。 参考代码

代码语言:javascript
复制
library(tidyverse)
iris_data <- read_sas('iris.sas7bdat')
iris_data %>% 
    slice_head(n = 10)

03

数据库表

3.1 Python语言

使用pyodbc库从数据库导入数据表,需要在Win系统或者Linux先配置好ODBC。 或者 使用针对特定数据库读写操作的库。 例如:

  • 1 使用psycopg2库访问和获取PostgreSQL数据库的数据表。
  • 2 使用pyhive库访问和获取大数据平台Hive数仓的数据表

3.2 R语言

使用RODBC包从数据导入数据表,需要在Win系统或者Linux先配置好ODBC。 或者 使用针对特定数据库读写操作的包。 例如:

  • 1 使用RPostgreSQL包访问和获取PostgreSQL数据库的数据表
  • 2 使用RMySQL包访问和获取MYSQL数据库的数据表

04

第三方数据返回的json格式

4.1 Python语言

使用pandas库的read_json函数。 参考代码

代码语言:javascript
复制
import pandas as pd
iris_data = pd.read_json('iris.json')
iris_data.head()

4.2 R语言

使用jsonlite包的fromJSON函数。 参考代码

代码语言:javascript
复制
library(jsonlite)
iris_data <- fromJSON('iris.json')
iris_data %>% head()

数据导入是开始数据工作的第一步。

开个好头,让数据工作顺利推进。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01
    • 导入csv格式或者xlxs格式数据
      • 1.1 Python语言
      • 1.2 R语言
  • 02
    • SAS软件保存的数据
      • 2.1 Python
      • 2.1 R语言
  • 03
    • 数据库表
      • 3.1 Python语言
        • 3.2 R语言
        • 04
          • 第三方数据返回的json格式
            • 4.1 Python语言
            • 4.2 R语言
        相关产品与服务
        文件存储
        文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档