金融科技:数据导入技术

数据科学与人工智能

共 1975字,需浏览 4分钟

 · 2022-01-23

金融科技行业,我接触的主要数据格式:

  • 1 csv格式或者xlsx格式,轻量级的数据格式

  • 2 SAS软件数据格式,通过SAS软件处理和保存的数据

  • 3 数据库表格数据,关系数据库或者数据平台的数据表

  • 4 第三方数据API调用传送数据json格式

金融科技行业的数据科学工作,不管是探索,还是分析,还是建模,我们要先导入数据

如何有效地导入数据呢?我的经验分享如下:

  • 1 首先,清楚数据的格式

  • 2 其次,选择合适的技术栈

  • 3 第三,编写代码导入数据

  • 4 最后,数据检视

01

导入csv格式或者xlxs格式数据

1.1 Python语言

使用pandas库的read_csv函数导入csv和read_excel函数导入xlxs格式
参考代码

import pandas as pd
germancredit1 = pd.read_csv('germancredit.csv')
germancredit2 = pd.read_excel('germancredit.xlsx')

1.2 R语言

使用readr包的read_csv函数导入csv格式
使用readxl包的read_excel函数导入xlsx数据格式
参考代码

library(readr)
credit_data1 <- read_csv('germancredit.csv')

library(readxl)
credit_data2 <- read_excel('germancredit.xlsx')

02

SAS软件保存的数据

2.1 Python

使用pandas库的read_sas函数。
参考代码

import pandas as pd
iris = pd.read_sas('iris.sas7bdat')
iris.head()

2.1 R语言

使用haven包的read_sas函数。
参考代码

library(tidyverse)
iris_data <- read_sas('iris.sas7bdat')
iris_data %>% 
    slice_head(n = 10)

03

数据库表

3.1 Python语言

使用pyodbc库从数据库导入数据表,需要在Win系统或者Linux先配置好ODBC。
或者
使用针对特定数据库读写操作的库。
例如:

  • 1 使用psycopg2库访问和获取PostgreSQL数据库的数据表。

  • 2 使用pyhive库访问和获取大数据平台Hive数仓的数据表

3.2 R语言

使用RODBC包从数据导入数据表,需要在Win系统或者Linux先配置好ODBC。
或者
使用针对特定数据库读写操作的包。
例如:

  • 1 使用RPostgreSQL包访问和获取PostgreSQL数据库的数据表

  • 2 使用RMySQL包访问和获取MYSQL数据库的数据表

04

第三方数据返回的json格式

4.1 Python语言

使用pandas库的read_json函数。
参考代码

import pandas as pd
iris_data = pd.read_json('iris.json')
iris_data.head()

4.2 R语言

使用jsonlite包的fromJSON函数。
参考代码

library(jsonlite)
iris_data <- fromJSON('iris.json')
iris_data %>% head()

数据导入是开始数据工作的第一步。

开个好头,让数据工作顺利推进。

关于金融科技行业的数据格式数据导入,请添加我的微信,一起讨论。

伙伴们所在公司若有金融科技行业数据科学岗位的招聘,请引荐给我,谢谢。


我是陆勤,在金融科技行业从事数据科学工作,也是一名终身学习者。我工作过的内容主要包括数据清洗和准备、风控评分模型、数字营销模型、风控策略分析、数据建模环境构建和维护等。我可以提供智能风控和数字营销的咨询与服务。欢迎你添加我微信,一起讨论金融科技的数据科学和数据人才。


金融科技专辑:

1 金融科技:金融科技与数据科学概述

2 金融科技:技术栈

3 金融科技:业务线

4 金融科技:数据建模框架

5 金融科技:建模工作环境

浏览 35
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报