Pandas并不是什么场景都适用啊,应该灵活变化!可以参考H2O.ai维护的一个项目,告诉您,除了pandas,还有很多武器可以玩。
待评估软件
项目目前已收录Python/R/Julia中13种的工具 ,随着工具版本迭代、新工具的出现,该项目也在持续更新,其它工具如AWK、Vaex、disk也在陆续加入到项目中。
7种Python工具 dask pandas datatable cuDF Polars Arrow Modin 2种R工具 data.table dplyr 1种Julia工具 DataFrames.jl 3种其它工具 spark ClickHouse duckdb
分别测试以上工具在在0.5GB、5GB、50GB数据量下执行groupby、join的效率,
比较以下各种需求的效率,
详细代码,见每个柱子图上方,
比较以下各种需求的效率,
详细代码,见每个柱子图上方,
可以看到Python中的Polars、R中的data.table、Julia中的DataFrame.jl等在groupby时是一个不错的选择,性能超越常用的pandas,详细 ,
同样可以看到Python中的Polars、R中的data.table在join时表现不俗,详细 ,
R中的data.table、Python中的Polars、Julia中的DataFrame.jl表现连续出色,后续可以用起来,常用的pandas并无亮点~
更多好文❤️❤️: @pythonic生物人