CAD图纸文本信息提取与处理技术研究
摘 要:CAD图纸文本信息对于设计人员高效工作和企业的信息化管理都具有重要作用。本文对国内CAD图纸文本信息提取的现状进行了介绍,探讨和分析了CAD图纸文本信息提取和处理的具体过程。
关键词:CAD图纸;信息提取;处理技术
中图分类号:TP399 文献标识码:A 文章编号:1674-7712 (2014) 12-0000-01
随着计算机技术的发展,计算机辅助技术(CAD)开始广泛应用在机械制造设计中,AutoCAD软件是目前应用比较广泛的一款绘图设计软件。虽然CAD软件给设计人员带来了便利,极大的提高了设计效率,但是在目前的信息化管理中遇到了一些难题。设计人员在绘图之后会得到大量的CAD图纸文件,当设计人员需要对图纸相关信息进行查阅时,过多的图纸文件增加了设计人员的查找困难。此外,产品设计图纸中除了主要的图形外,还包括标题栏信息、明细表信息等文本信息。企业的信息化管理中会应用到这些文本信息,然而大多数企业的文档管理系统不能够直接对CAD图纸文本信息进行读取。因此,在直接读取无效的情况下只能够采用传统的手工输入,这就大大的降低了工作效率。而且信息收集的差错率比较高,数据不便于实时更新、查阅和共享,这会制约企业的信息化管理的发展。本文针对这一问题,分析了目前国内一些CAD图纸文本信息提取的现状,并着重探讨通过AutoCAD二次开发技术,来实现CAD图纸文本信息的提取和处理
一、CAD图纸文本信息提取与处理技术现状概述
目前我国对CAD图纸信息提取的方式主要有两种:模块式和自由表格式。模块式是针对某种特定的标题栏和明细表进行定义,然后进行针对的匹配识别。模块式具有提取效率高、提取错误率低等优点。但是因为模块式的设计针对某种特定标题栏和明细表,所以不同的企业以及不同的图纸类型都不能够共用同一个模块设计,具有一定的局限性。自由表格式克服了模块式的局限性,它在分析标题栏和明细表的结构后,采用虚拟表格法来读取图纸的文本信息。这样就能够对不同类别的标题栏和明细表进行识别,但是信息提取的算法比较复杂,提取准确度和提取效率都不是很高。
在我国CAD图纸信息提取技术发展中,许多学者做出了不同的贡献。1999年,北京科学院的吴宾锐通过对说明文字控制的调整,使文字和图形分离开来,从而可以对文字进行单独的处理。2000年,浙江大学的石教英等学者提出了利用表格矩阵法来提取图纸中的文本信息。通过矩阵方式可以区分各种类型的标题栏和明细表,从而对文本信息进行有效的读取。2004年,南京工业大学的祁正新等学者对DXF文件进行了研究,在将图纸文件转换为DXF文件的基础上来提取图纸的文本信息。
二、CAD图纸文本信息提取与处理
在CAD图纸文本信息提取技术中,有很多种开发方式,本文将介绍以VB.NET作为支撑平台,对SQL Server和Excel进行操控,从而获取图纸的文本信息的方法。在整个文本信息提取过程中,首先是将每张CAD图纸的文本信息进行提取,生成Excel报表,然后将这些报表进行汇总,得到总体Excel报表。再在SQL Server数据库中添加总体Excel报表,整理后就可以得到标准格式的零件明细表,方便工作人员进行查阅。
(一)CAD图纸文本信息提取
一般在CAD图纸上的文本信息主要有两种方式,一种是借助文本字符串来表达信息,另一种是借助属性块来表达信息。下面针对不同的方式介绍明细表中信息的提取方法。
提取文本字符串格式中的信息时,需要考虑到单行文本和多行文本的不同,同时还要考虑到多行文本内的格式代码,单行文本和多行文本字符串的位置都应该设置在左下角。在提取信息时,首先用For Each...In语句来寻找CAD模型空间中的实体对象,借助GetCorner方法在图形中选定明细表的位置区域。然后用IndexOf方法来获取文本字符串的格式代码,用InsertionPoint属性来获取文本字符串的坐标,还需要用ObjectID属性来获取文本对象的ID号。这些获取的参数是确定文本字符串身份信息的。其次,借助VB.NET的Array数组,将明细表文本字符串以及坐标值、ID值按照顺序进行排列,从而确定文本字符串在明细表中的具体位置。最后,将这些排列后的文本字符串数组写入到Excel列表中,注意字符串的位置要跟明细表中的位置一致。
提取带有块属性格式的明细表比提取文本字符串格式的简单一些,它对明细表区域的寻找方法都是一样的。但是它不需要对信息进行整理排列,可以直接通过块的GetAttributes来获取块的内容数组,然后直接将该数组写入到Excel列表中。
(二)CAD图纸文本信息处理
在成功提取CAD图纸文本信息后,需要对信息进行处理。首先,采用编写好的代码将多个Excel列表进行汇总,生产一个Excel总列表,方便后面处理。然后,将Excel总列表导入到SQL Server数据库中,导入方式主要有向导导入式和程序导入式两种,向导式导入是数据库自带的,程序式导入需要编写代码。最后,将数据库中的数据按照零件类型等进行分类,确定自制件、标准键以及外购件等不同类别数据。然后将同类数据进行整理,形成标准格式的零件明细表,以便工作人员的后期查阅。
三、结束语
提取和整理CAD图纸文本信息,对于企业的信息管理和后期的数据查阅都具有重要作用。本文介绍了国内CAD图纸文本信息提取的现状,再在VB.NET平台的基础上分析了CAD图纸文本信息提取和处理的具体过程。随着企业信息管理要求的提高,如何更有效的提取和处理CAD图纸文本信息仍然是一个研究重点。
参考文献:
[1]伊国栋.工程图纸中标题栏单元信息提取与识别技术研究[J].中国机械工程,2003.
[2]何改云.明细栏信息提取及处理技术的研究[J].组合机床与自动化加工技术,2005.
上一篇:浅析我国计算机的应用发展