整理数据非常消耗时间,不过也有许多工具被开发出来让这关键的一步变得稍微可以忍受。python 社区提供了许多库让数据变得清晰有序——从格式化 dataframe 到匿名化数据集。
告诉我们你觉得有用的库——我们一直致力于优化放入mode python notebooks中的库。
dora
dora是为探索性分析而设计的。特别是自动化分析中最痛苦的部分——比如特征选取和提取,可视化,还有你能猜到的——数据清洁。数据清洁相关的函数可以:
读取含有缺失数据和没有标准化的数据表
给缺失数据赋值
标准化变量
开发者:nathan epstein
更多资料:https://github.com/nathanepstein/dora
datacleaner
号外号外,datacleaner 清洗你的数据——不过只有在你的数据是 pandas dataframe 实例的时候。开发者randy olson说:“datacleaner 不是魔法,它无法神奇的解析你没有结构的数据。”
它可以删除含有缺失数据的行,或者利用列的众数或中位数填充缺失数据,将非数值型变量转化为数值型变量。这个库很新,但考虑到dataframe 是 python 数据分析的基本数据结构,这个库还是值得试试看的。
开发者:randy olson
更多资料:https://github.com/rhiever/datacleaner
prettypandas
dataframe 很强大,但是它们无法制作出你可以直接给你的老板看的表。prettypandas 利用了pandas 风格 api 将 dataframe 转换成可以演示的表格。产生数据摘要,设置风格,调整数据格式,列和行。附加福利:强健,可读性高的使用文档。
开发者:henry hammond
更多资料:https://github.com/hhammond/prettypandas
tabulate
tabulate 可以让你仅仅用一个函数调用生成小型耐看的表格。非常适合于通过调整小数点列对齐,数据格式,表头和其他让表格可读性更高。
它有一个超酷的功能是可以让表格输出成不同的格式:html, php 或者 markdown extra,这样你可以用其他的工具或语言继续在使用你已经表格化的数据。
开发者: sergey astanin
更多资料:https://pypi.python.org/pypi/tabulate
scrubadub
健康领域和金融领域的数据科学家常需要匿名化数据集。scrubadub可以将 私人信息 (pii) 从文本从移除。例如:
姓名 (名词)
email地址
网络链接
电话号码
用户名/密码组
skype 用户名
社会保险号
文档很好的演示了通过哪些途径你可以自定义 scrubadub 的行为,例如定义新的 pii 或者保留特定的 pii。
开发者:datascope analytics
更多资料:http://scrubadub.readthedocs.io/en/stable/index.html
arrow
让我们实话实说:在 python 里处理日期和时间是很痛苦的。当地时区无法被自动识别。得用好几行不那么让人舒服的代码来转换时区和时间戳。
arrow 旨于解决这个问题并且填补这个功能空白,从而让你可以用更少的代码和引入库来完成对日期和时间的操作。跟 python 的标准时间库不同的是,arrow 默认自动识别时区和 utc。你可以只用一行代码来完成时区转换或者分析时间字符串。
开发者:chris smith
更多资料:http://arrow.readthedocs.io/en/latest/
beautifier
beautifier 的任务很简单:清洗 url 和 email 地址并让它们看起来更漂亮。你可以通过域名和用户名来解析 email ; 通过域名和参数来解析url。(utm 或者标记)
开发者:sachin philip mathew
更多资料:https://github.com/sachinvettithanam/beautifier
ftfy
ftfy (fixes text for you) takes in bad unicode outputs good unicode. basically, it fixes all the junk characters. “quotesâ€x9d becomes quotes; uìˆ becomes ü;
ftfy (fixes text for you)将杂乱的unicode转化为可识别的unicode。简单的说,它处理所有的垃圾字符。“quotesâ€x9d 变成 quotes; uìˆ 变成 ü;
开发者:luminoso
更多资料:https://github.com/luminosoinsight/python-ftfy
