使用python对数据进行计算分析,数据文件一般需要进行导入并处理为可直接使用的格式。
打开: 使用python的内置函数open(),会创建一个file对象。使用该对象的方法可以对文件进行操作。
file_object = open(file_name)
例如 file_object = open(‘E:\pythonProject\datingTestSet.txt’)
对数据处理常使用的方法
读取: file.readlines(),无参数输入
功能:读取所有行并返回列表
该列表使用for…in…结构处理;
字符串处理:
移除:strip()方法,用于移除字符串头尾指定的字符;
语法:str.strip([chars]),chars为指定的字符,
返回新字符串。
分割:split()方法,根据指定分隔符对字符串进行分割。
语法:str.split(),默认为所有的空字符。包括空格,换行(\n),制表符(\t)
返回字符串的分割列表。
访问列表:列表索引从0开始,使用 方括号+索引 直接访问
例如 …index = 0
for line in file_object.readlines(): # 依次读取每一行
line = line.strip() #去掉每行的头尾空白
list_from_line = line.split(‘\t’)
return_matrix[index,:] = lis_from_line[0:3]
index +=1
file_object.close()
python处理txt文件(所有句号替换为换行)
1.因为遇到需要大量处理相同格式的数据,这里用到python的一个小脚本来处理
首先。需要处理的文件大致上是如下格式:
在这里插入图片描述

f = open(“1.txt”, “r+”)
lines = f.readlines()
for line in lines:
strlist = line.replace(“。”, “\n”)
for value in strlist:
# print(value)
with open(“2.txt”, “a”) as file1:
file1.write(value)
可以看出来,这都是一些电话号码,然后里面全部都是以中文的句号结尾
2.使用脚本来实现
思路如下:将需要处理的数据放入一个文本文档,将此文本文档放入脚本相同文件夹下。使用python的文件读写操作,将该文本文档以r+方式全部读出。针对拿到的字符串进行替换操作,将句号全部替换为换行符\n,最后写入一个新的文件即可

结果:
