您现在的位置是:网站首页> 编程资料编程资料
Pandas数据集的分块读取的实现_python_
2023-05-26
390人已围观
简介 Pandas数据集的分块读取的实现_python_
所谓“分块”,顾名思义,就是将数据集分成几块进行读取,比如有105条数据,一次读取10条,读取11次才能全部读完。以下提供两种分块读取的方法,两种方法各有优劣。
一、直接用分块方式读取数据集文件(更直接)
分块读取数据集文件是指用read_xxx()方法读取存储数据的文件时采用分块的方式,这里以.csv文件为例,在read_csv()中加入chunksize参数即可实现分块读取:
reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName', 'skillLables'], chunksize=10)此时,返回的reader不是DataFrame,而是一个可迭代对象(iteration),需要注意的是,这个可迭代对象不能用下标访问。 下面遍历这个对象:
for r in reader: print(r)
遍历结果如下图所示:

这种分块读取方式比较直接,但是由于一开始就定义了分块大小,后续处理起来不够灵活。因此提供了第二种读取方法。
二、先将数据集读取为可迭代对象,再分块读取(更灵活)
这种方法将数据集文件读取为时可迭代对象不定义分块,用分块的方式读取read_csv()方法返回的可迭代对象。实现第一步要在read_csv()方法中指定参数iterator为True:
reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName'], iterator=True)以下是用分块方式遍历reader,注意使用到的get_chunk()方法和里面的参数,参数定义分块大小,可以灵活调节:
while True: try: print(reader.get_chunk(10)) except StopIteration: break
总结
综上所述,两种方法都能用pandas实现数据的分块读取,对于数据量较大的数据集还是比较实用的。两种方法的优劣体现在直接性和灵活性上,可以根据实际需求自行选择。
到此这篇关于Pandas数据集的分块读取的实现的文章就介绍到这了,更多相关Pandas数据集分块读取内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
相关内容
- 利用Python批量导出mysql数据库表结构的操作实例_python_
- Python中不同图表的数据可视化的实现_python_
- Pandas中的unique()和nunique()区别详解_python_
- Python实现梯度下降法的示例代码_python_
- Pygame transform模块入门介绍_python_
- 详解opencv去除背景算法的方法比较_python_
- OpenCV黑帽运算(BLACKHAT)的使用_python_
- 十一个案例带你吃透Python函数参数_python_
- Blender Python编程快速入门教程_python_
- Blender Python编程实现批量导入网格并保存渲染图像_python_
