现在数据的价值日趋重要,各个公司也一直强调要提高各个环节的数据的质量,可是很多业务部门只是一个数据小白,当他们辛辛苦苦把数据整理好之后提供给其他部门,或者提供给IT部门要求实现一些系统功能时,经常会遇到当头棒喝“你们提供的数据不是结构化的数据”,这就让很多人有点懵了,这些数据明明都是用Excel整理的,还有各种格式,怎么这个数据就不是结构化数据呢?结构化数据应该是什么样的呢?
什么是结构化数据?
1、结构化数据主要是在数据存储和数据处理过程中结构设计比较合理的数据,它要求数据的结构都是由行和列构成的;
2、每一列都表述数据所描述对象的要素,属性和行动
3、每一行都代表一个数据库所描述的对象
那什么是非结构化数据?
如果行和列的数量不固定,即不能由固定的行和列组成的二维结构数据表来表示和存储的数据,则被统称为非结构化数据,常见的非结构化数据包括办公文档,文本,图片,视频等;
Excel文档算不算结构化数据呢?
Excel文档如果是按照上述的结构化的数据的方式显示的,可以很方便的导入信息系统中,那就是结构化的数据,但是如果Excel文档中使用色块,合并单元格,备注等方式加工相应文档,此部分数据就不属于结构化数据,
为什么需要结构化数据?
结构化数据规则统一,系统可以很快速的进行比较,分析,统计等。而非结构化数据很难进行类似的操作,实现相关的数据加工成本更高。