0°

超大文本数据的数据处理方法及流程

本发明涉及一种处理方法,尤其涉及一种大文本数据处理方法。

背景技术:

随着公司业务量的增加,公司内部每日需要处理的数据量也在不断剧增,因此在数据存档的时候存储的文件也会大大增加,有的文件大小甚至超过了4G。而众所周知,电脑硬盘分区文件系统格式FAT32并不支持大于4G的文件,而且在将大文件直接读到内存时,需要加载很大的内存,容易导致电脑或者服务器空闲的内存一下子耗尽或者直接造成内存溢出的现象。即使在电脑内存足够大的情况下,从内存中筛选出需要数据的效率也是十分缓慢的。因此,开发一种高效率的大文本数据处理方式具有重要的现实意义。

技术实现要素:

为了解决上述技术所存在的不足之处,本发明提供了一种大文本数据处理方法。

为了解决以上技术问题,本发明采用的技术方案是:一种大文本数据处理方法,其整体步骤为:

步骤一、将大文本解析成流;

步骤二、在文件流中建立游标机制;

步骤三、读取文件数据存储到数据库。

步骤一中,采用边读边解析的方式将大文本解析成流。

步骤三中,在读取文件时通过步骤二建立的游标机制来分段读取文件数据并保存到数据库中。

大文本数据包括以txt、excel、svg、xml格式存储的数据文件。

本发明可以解决大文件难加载,以及解析时占用大量内存从而导致内存溢出的问题;边读取边解析的处理方式,严格控制了内存的加载量,使其在占用小内存的同时高效解析文件;通过游标机制分段提取文件中的数据,具有十分高效的处理效率。

附图说明

图1为本发明的整体流程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1所示的一种大文本数据处理方法,大文本数据包括以txt、excel、svg、xml格式存储的大文本数据文件,本方法的主要步骤如下:

步骤一、采用边读边解析的方式将大文本解析成流;首先通过扫描的方式,遍历文件中的所有行,允许对每一行进行处理,而不保持对它的引用,这样可以很有效的控制解析文件时占用的内存,同时避免重复读取,可以大幅度提升读取效率;通过严格控制内存的使用,保障大文件解析的可行性与解析的高效性。

步骤二、在文件流中建立游标机制,从而大大提高了读取数据的效率。游标(Cursor)是处理数据的一种方法,为了查看或者处理结果集中的数据,游标提供了在结果集中一次一行或者多行前进或向后浏览数据的能力,可以把游标当作一个指针,它可以指定结果中的任何位置,然后允许用户对指定位置的数据进行处理。

步骤三、利用游标机制依次分段读取数据,读取的部分根据条件筛选需要的数据存储到数据库。最后判读是否读取完毕,若读取完了则结束,若未读取完则循环读取。

本发明的具体实施方式为:

1、通过DPS数据整理系统获取文件,然后加载文件形成文件对象。

2、调用文件解析函数,采用边读取边解析的方式将大文本解析成流。

3、在文件流中建立游标机制作为读取时的效率保障。

4、通过调用序表函数,把解析的文件流处理成序表;这个过程是分段进行读取处理的,采用游标机制保障了在此读取时占用小内存且高效率。

5、通过入库函数把序表进行入库处理;数据库可以调用自动生成的数据库表,或者是手动创建的数据库表(建议手动根据业务去创建数据库表)。

6、通过游标机制来判断文件是否读取完毕,如果读取完毕,结束当前流程;如果还未处理完,循环上面的操作。

本发明采用边读边解析的处理方式,可以有效解决大文件难以处理的难题;同时在读取文件流时形成游标,通过游标分段的方式提取文件中的数据,具有十分高效的处理效率。

上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

技术特征:

1.一种大文本数据处理方法,其特征在于:所述方法的整体步骤为:

步骤一、将大文本解析成流;

步骤二、在文件流中建立游标机制;

步骤三、读取文件数据存储到数据库。

2.根据权利要求1所述的大文本数据处理方法,其特征在于:所述步骤一中,采用边读边解析的方式将大文本解析成流。

3.根据权利要求2所述的大文本数据处理方法,其特征在于:所述步骤三中,在读取文件时通过步骤二建立的游标机制来分段读取文件数据并保存到数据库中。

4.根据权利要求1或3所述的大文本数据处理方法,其特征在于:所述大文本数据包括以txt、excel、svg、xml格式存储的数据文件。

技术总结

本发明公开了一种大文本数据处理方法,其步骤为:将大文本解析成流;在文件流中建立游标机制;读取文件数据存储到数据库。本发明可以解决大文件难加载,以及解析时占用大量内存从而导致内存溢出的问题;边读取边解析的处理方式,严格控制了内存的加载量,使其在占用小内存的同时高效解析文件;通过游标机制分段提取文件中的数据,具有十分高效的处理效率。

技术研发人员:江山;吴志勇;王宇

受保护的技术使用者:广州迈安信息科技有限公司

文档号码:201711222445

技术研发日:2017.11.29

技术公布日:2018.04.20

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论