Excel数据对比的实践与研究
摘要: 给出使用Excel进行数据对比的方法与技巧,熟练使用这些方法与技巧可以较快得到标准统一的数据,为下一步处理数据提供良好基础。
关键词: Excel;数据对比;方法与技巧
中图分类号:TP399文献标识码:A文章编号:1671-7597(2011)0410098-01
0 引言
在实际工作中,常需要收集各种数据,但常由于操作人员对Excel理解不够,造成数据与现实数据不一致。本文给出对比两组数据时常用的方法与技巧,希望有助于常接触数据的人尽快练就一双对付数据的“火眼金睛”。
1 数据对比的前提
1.1 理解文本与数值
1)文本指的是不能进行数学运算的数据,在数值计算函数中使用这些数据时,会被当成数值“0”。
2)数值指的是可以进行数学运算的数字或时间与日期等数据,这些数据可以直接进行加、减、乘、除,并且在数值计算函数中使用。
3)文本转换成数值的方法:① 通过加0或乘1转换。如单元格A1中有文本“123”,那么在单元格B1中输入公式“=A1+0”或“=A1*1”,即可在单元格B1中得到数值“123”。另外也可以通过复制单元格A1,然后选中B1,使用“选择性粘贴”-“加”,再确定,就可以完成转换。② 通过记事本转换。先从表格中复制需要转换成数值格式的文本数字,粘贴到记事本中,接着复制记事本的内容,再粘贴到Excel中属于常规或数值格式的单元格中,即可完成转换。③ 使用函数Value转换。如单元格A1中有文本“123”,那么在单元格B1中输入公式“=Value(A1)”,即可得到数值“123”。
4)数值转换成文本的方法:① 通过增加符号“"”转换。直接在数值前面增加符号“"”,可以把数值转换成文本。② 通过记事本转换。把需要转换的数值单元格中的数据复制粘贴到记事本中,再从记事本中复制粘贴到已设置为文本格式的单元格中。③ 通过连接空字符串转换。如单元格A1中有数值“123”,那么在单元格B1中输入“公式=A1&”,即可在单元格B1中得到文本属性的“123”。
1.2 认识非打印字符
1)非打印字符指的是ANSI字符集中代码为0到31的字符(不包含空格),常存在于从其他软件导出来的表格中,可以通过函数CHAR录入或通过函数CODE获取其代码。使用函数LEN测试文本的长度,可以确定是否存在非打印字符,而把表格中的非打印字符复制粘贴到记事本中,会出现一个黑色实心的小方块或可视的符号。
2)处理办法:① 在所有非打印字符都不需要的时候,可以直接使用函数CLEAN清除,需注意的是函数CLEAN是无法清除空格的。② 需要保留部分非打印字符,或者需要把部分非打印字符转换成另外的字符的时候,可以把表格内容复制粘贴到Word文档中,使用Word的高级查找替换功能进行替换,再复制粘贴到电子表格中,也可以使用字符处理函数LEFT、RIGHT、MID或SUBSTITUTE等对这些非打印字符进行处理。
1.3 注意形近字
1)形近字就是形状非常接近的字符,常见于手工录入的姓名、地址等数据之中。
2)处理办法:在对比两个字符串时,如果其长度相同,并且也不存在非打印字符,此时则要考虑到是否存在形近字,一般可以通过放大字号,细心进行逐字对比即可发现不同之处,也可使用MID函数截取单字进行逐字对比。
2 数据对比的方法
2.1 函数法
1)使用函数LEN进行对比。用于对比字符串长度,特别是身份证号、学号之类的标准数据可以通过此方法进行对比,并且可以发现其中是否存在非打印字符。
2)使用函数EXACT与“=”进行对比。用于对比数量较少或差别较小的数据,此时一般需要先排序,并且最好在数据之前增加序号一列。
3)使用函数VLOOKUP进行对比。一般不讲究顺序、以及数据量较大时均可使用此函数进行对比,用法较为灵活。
2.2 观察法
1)对格式的观察,主要针对的是文本与数值格式,只有格式一样了,才能比较内容,此时一般只能进行观察,或根据需要直接把全部数值与文本进行的互换。
2)对内容的观察,主要指形近字,在使用以上多种方法均找不出原因的时候,一般则需要放大字号进行观察或逐字进行对比。
3 数据对比的技巧
3.1 统一格式。如果处理的数据大部分是数值或文本数字的,这时先考虑文本与数值格式是否用对,或对全部数据进行统一的格式转换再进行其他的处理。
3.2 连接对比。把数据连接起来再进行对比。比如,需要检查学生某一学年学期学习了某些课程以及成绩等,此时需把学年、学期、课程及成绩等连接起来进行对比;或者检查班级、学号、姓名等信息时,可以把相关信息连接直来处理。
如图,比较A至D列的学生信息与F至I列的学生信息,公式如下:
1)E2=A2&B2&C2&D2,下接至E8;
2)J2=F2&G2&H2&I2,下接至J8;
3)K2=VLOOKUP(J2,E:E,1,0),下接至K8。
可以发现,其中K4、K7出现错误提示,说明了F4:I4、F7:I7中有与前面不一致的内容(一个是性别有误,一个是学号有误)。
3.3 拆分对比。对于不容易发现的形近字或篇幅较长文本的对比,可以使用函数MID把字符串拆分成单字进行对比。如图,其中A1、A2为要对比的内容,A3:A13为对A1的拆分,B3:B13为对A2的拆分,C3:C13为对比结果,可以发现最后两个字不相同,公式如下: