一、数据处理的能力
数据装载:目前支持从Excel/CSV/TEXT/JSON/Pandas.DataFrame 以及各类关系型数据库(比如Mysql)导入数据;
物种学名:能够将各种手写的拉丁名转化为规范的学名格式,并可以在线批量获取 POWO, IPNI, 中国生物物种名录上相应物种的最新分类阶元、分类处理、物种图片、发表文献、相关异名等信息;
日期与时间:可以对各类手工转录的日期和时间,进行严格的校验、清洗和转换,并可根据需要输出不同样式;
经纬度:可以对各类手工转录的经纬度,进行严格的清洗、校验和转换;
中文行政区划:可以对各种自然语言表达的中文县级及其以上的行政区划进行高品质的匹配、校正和转换;
选值:能够自定义各种字段的选值和转换关系,并根据转换关系,自动完成现有值的规范化;
数值和数值区间:可以对各类数值或数值区间,进行自动化的清洗、校正和转换;
拆分与合并:ipybd 不仅可以对数据列进行各种合并和拆分,还可以将单列、多列或整个表格的数据列映射为各类 Python dict list 对象或者 JSON Object 和 Array,从而为各种数据分析和互联网平台的数据交换工作提供灵活的格式转换支持。
标签打印:能够生成带有条形码样式的标签文档以供打印。
数据输出:经过处理的数据,可以输出为Excel/CSV文件或者直接更新至相应的数据库之中。
二、生成工具的能力
框架是生成工具的工具 ,ipybd 定义了一套简洁的语义,可以帮助用户快速的定制出个性化的数据转换模型。这些模型能够根据相应任务的需要,将以上各种数据处理能力自由拼接和组合,以实现数据集的自动化清洗和转换。
同时 ipybd 数据模型还具有良好的泛化能力,定义的模型不仅可以处理特定的数据集,还可以应用到同种类型不同数据源的处理任务之中。此外ipybd 数据模型同样支持数据处理能力的个性化扩展,用户自定义的数据处理方法也能够应用到数据模型的定义之中。
三、数据统计分析的能力
ipybd 基础数据结构完全基于 Pandas.DataFrame 构建,因此其原生支持 Pandas 完备的数据统计和分析功能。同时,pandas 作为 Python 数据分析生态中的核心库,其丰富的应用生态体系也为 ipybd 拓展生物多样性相关的分析能力提供了坚实的开发基础。
详细使用说明请见 GitHub 下载地址中的相应说明。
本软件由国家标本平台(NSII)资助。