基于双向聚类方法的中医治疗中风病方剂配伍规律知识发现
摘要:目的 深入探索方剂的制方要素,总结方药证治规律,找到对其中药理起关键作用的核心药/药组,为方剂配伍理论研究、药性理论研究、中医临床用药研究提供新方法和现代技术手段。方法 从《中国方剂数据库》和《方剂现代应用数据库》中获取治疗中风病的方药文本数据源,经预处理、信息抽取后构建方药矩阵,引入双向聚类方法对方-药两方面数据同时聚类。结果 预处理后得到有效记录648首,共计6913味药,生成了100×648“方-药”矩阵,最后得到4组聚类指标,高描述度代表方共8首,总结出针对不同证型配伍用药特点及各证型辨证论治的治则治法及各型常用药对药组。结论 本方法适用于中医方剂数据库中方-药知识发现,可有效抽取所需方药信息,梳理出方药证治规律。
关键词:中风;方剂;配伍;数据挖掘;双向聚类;聚类分析;知识发现
DOI:10.3969/j.issn.1005-5304.2013.11.007
中图分类号:R2-05;R277.733 文献标识码:A 文章编号:1005-5304(2013)11-0016-04
医学信息量的不断增长催生了一项目前在医学信息学领域的活跃分支——医学数据挖掘/知识发现。在该领域中,聚类方法是一项核心技术,是探索性数据分析和模式发现的一种重要手段[1]。聚类分析是一个将数据集划分为若干类的过程,其结果是使得同一类内的对象具有较高的相似度,而不同类中的对象是不相似的[2]。在统计分析和模式识别领域,聚类已被广泛研究,提出了大量的理论和方法,并取得了丰硕的研究成果[3]。
基金项目:辽宁省教育厅科研课题(L2012345)
双向聚类(biclustering)源于Hartigan[4]提出的同时聚类算法,是一种对数据矩阵中的实例和变量同时进行聚类的新型数据分析方法,可同时使用对象及其属性来提取它们的联合信息,对稀疏和高维矩阵尤其有效,在应用上具有很多优势[5]。该方法在生物医学领域的首次应用见于基因表达谱的分析,随后在微阵列和生物信息学中得到广泛应用[6-8]。而将双向聚类方法应用于中医信息分析则刚刚起步,相关研究较少,笔者以中风病中医治疗组方配伍规律知识发现为例,对该领域内方-药两方面数据进行双向聚类,在对复方聚类的同时反映其配伍信息,以揭示其组方配伍规律。
1 资料与方法
1.1 数据来源
源数据采自中国中医科学院中医药信息研究所开发的《中国方剂数据库》和《方剂现代应用数据库》。预处理采用BICOMB(http://)多库融合平台,检索策略为“主治=中风”,年代不限,命中记录情况为《中国方剂数据库》中1758条、《方剂现代应用数据库》中91条。套录后转换为文本格式的待处理源数据。
1.3 数据预处理
纳入资料标准:主治病证中明确出现针对中风、半身不遂、偏枯、神识昏蒙、言语蹇涩、口眼歪斜及其同义词或近义词等主症,或与已知的中风病因病机符合的方剂。排除资料标准:所治症状可明确为其他因素所引起偏枯、偏瘫等,无主症或主症不符合,以及属于治疗外感表证和类中风的中风方剂。
经标准过滤及整理后,共得到有效记录648条。首先对文本进行处理得到方名和药物组成两项信息,再对部分药名后不相关信息进行清洗,最后对药名进行规范和统一。本文涉及的中药异名,主要参考《中药学》[9]及《中药大辞典》[10]进行规范处理。
1.4信息抽取
使用BICOMB的提取功能[11]进行方名和药名的识别和抽取。通过频次分析,初步归纳出不同药物在诊疗中使用情况。为确定核心药频次阈值,使用Donohue[12]根据齐普夫定律推导出的高频低频词界分公式进行计算。
其中,I1为词频为1的词个数,T为高频词中的最低频次数。再使用BICOMB系统的进行药方和药名统计,构建“方-药”向量矩阵,矩阵的行为高频药名,列为相关方号。
1.5 双向聚类
采用gCluto对上述矩阵的行和列同时聚类。将之前导出的高频矩阵导入gCluto中,聚类算法采用重复二分法(repeated bisection),类数量设置先后测试了从10(默认)到2,本着ISim(表示类间的紧密程度)尽量高而Esim(表示类间的离散程度)尽量低的原则,经对比发现4类效能最佳。相似性函数(similarity function)采用相关系数。判别函数(criterion function)采用I2。
聚类结果的类内和类间特征以描述度和区分度属性表示。根据各类对象中描述度(descriptive)较高同时区分度(descriminating)较低的原则来筛选效能最佳的各类代表方,作为方证对应判别的主要依据。
2 结果
2.1 预处理结果
预处理后得到有效记录648条,如:NO.1[方名]化风丹。[药物组成]白附子,天麻,羌活,防风,抚芎,人参,陈皮,石菖蒲,荆芥,甘草。NO.2[方名]化风丹。[药物组成]白附子,天麻,防风,荆芥,羌活,独活,人参,细辛,川芎,木香。NO.3[方名]化滞丸。[药物组成]荆三棱,蓬莪术,桔梗,大黄,陈皮,半夏,白术,旋覆花,鳖甲,葶苈子,紫苏叶,木香,沉香,麦芽,槟榔,舶上茴香,硼砂。
2.2 统计结果
Cluster 0类:191号方-龙珠丹(描述度2.3%):[药物组成]川乌,虎骨,牛膝,败龟,全蝎,白芷,附子,枫香脂,踯躅花,独活,藿香叶,僵蚕,麻黄,当归,白花蛇,地龙,萆薢,金毛狗脊,天麻,川芎,凌霄花,犀角,没药,朱砂,牛黄,麝香,乳香,龙脑。
Cluster 1类:567号方-再造丸(描述度7.8%):[药物组成]蕲蛇肉,全蝎,地龙,僵蚕,穿山甲,豹骨,麝香,水牛角浓缩粉,牛黄,龟甲,朱砂,天麻,防风,羌活,白芷,川芎,葛根,麻黄,肉桂,细辛,附子,油松节,桑寄生,骨碎补,威灵仙,萆薢,当归,赤芍,片姜黄,血竭,三七,乳香,没药,人参,黄芪,白术,茯苓,甘草,天竺黄,制何首乌,熟地黄,玄参,黄连,大黄,化橘红,青皮,沉香,檀香,广藿香,母丁香,冰片,乌药,豆蔻,草豆蔻,香附,两头尖,建曲,红曲。
Cluster 2类:341号方-独活汤(描述度5.8%):[药物组成]独活,芍药,远志,薏苡仁,甘草,麻黄,丹参,陈皮,熟地黄,桂枝,菊花,人参,防风,茯神,山萸肉,天门冬,厚朴,牛膝,五加皮,羚羊角,麦冬,山芋,白术,秦艽,黄芪,川芎,附子,石膏,升麻,防己,地骨皮,石斛。
Cluster 3类:207号方-夺命还真丹(描述度3.0%):[药物组成]天麻,人参,木香,白术,菟丝子,藁本,独活,川芎,僵蚕,黄芩,全蝎,半夏,熟地黄,蔓荆子,甘草,桂枝,生地黄,地骨皮,薄荷,黄连,菊花,防风,茴香,知母,杜仲,茯苓,柴胡,桔梗,陈皮,枳壳,石膏,当归,羌活,白芍,麻黄,细辛,蛤蚧,金箔。
gCluto生成的可视化矩阵中,水平方向为高频药物聚类,垂直方向为这些药物的方聚类。方药矩阵中的四类树结构对应生成的山峰图见图2。
3 讨论
3.1 方药对应判别
将高描述度代表方和该类结果中的高区分度方进行药物组配比对,并结合可视化矩阵的类内药物聚类树结构分布,挖掘该类方中的核心药/药组,最后查阅文献进行方解和功效分析,梳理出方药证治规律。
以Cluster 0为例,将191号方-龙珠丹与类内区分度最高的341号方-独活汤进行组配比对,得到独活、牛膝、麻黄等药物为非该类代表药,排除在外。方解如下。
191号方-龙珠丹出自《杨氏家藏方》卷一,316号方-金汞灵丹出自《续易简》卷四,此二方都有祛风化痰、活络通经、开窍止痉的功效,主治风中经络,口眼斜。主要成分有犀角、牛黄、麝香、朱砂等,该配伍应用的代表方为安宫牛黄丸。方中牛黄、麝香为主药。牛黄味苦甘,性凉,气味芳香,具有清心豁痰、开窍、凉肝、熄风解毒的功效;麝香辛散温通,为开窍之首药,与牛黄配合突出了清热解毒、芳香开窍的特点。药性上,牛黄与麝香一温一凉、相反相成。朱砂镇静安神通心窍,龙脑芳香开窍,能化痰堕痰,辅佐主药加强镇心、定惊、安神的作用。
同类内描述度次之的316号方由牵正散加味转化而来,其主要成分为白附子、僵蚕、全蝎等。主要针对风痰阻络、经隧不利之证,祛风化痰、通络止痉。方中白附子辛甘而热,功能祛风化痰,为君药;全蝎、僵蚕有祛风搜风、通络止痉之功,其中全蝎长于通络止痉,僵蚕优于化痰驱络中之风,共为臣药。三药合用,药少力专,使风除痰消,经络通畅,则病证可愈。
其余方也都侧重于祛风化痰通络,共同点为都重用牛黄、麝香、龙脑、白附子、僵蚕、全蝎等祛风化痰、开窍通络的药物。该类方药适用于痰热腑实、风痰上扰证,体现了清热化痰、熄风开窍、急下通腑的治法治则。痰热腑实、风痰上扰证为本虚标实、上盛下虚之证,虽有本虚之证,但以风、痰、火等标实之候为主。此时邪盛,证偏实,按急则治其标的原则,当治以熄风化痰通络、清热通腑之法,速去其邪。
其余类别均可按此法进行比对分析。
3.2 证治配伍规律
①外风初中经络证:治法治则为祛风扶正、活血通络,标本兼顾。组方以祛风通络、辛温发散药为主,配伍养血调血活血益气药。代表方为夺命还真丹、保命延寿烧酒方、大秦艽汤。常用药对为:半夏+陈皮、羌活+防风、苍术+白芷、当归+川芎等。②痰热腑实风痰上扰证:治法治则为清热化痰、熄风开窍、急下通腑。组方以侧重祛风化痰通络。代表方为龙珠丹、金汞灵丹、安宫牛黄丸。核心药/药组为:朱砂+麝香+牛黄、僵蚕+全蝎+白附子等。③气虚血瘀证:治法治则为益气活血。组方侧重用补气药,并伍以活血化瘀药。代表方为再造丸、神效活络丸、大活络丹。核心药对为:大黄+黄连、熟地黄+肉桂等。④肝肾亏损,阴虚风动证:治法治则为滋补肝肾、熄风潜阳。组方重用牛膝、杜仲等补益肝肾药,辅以丹参等益气养血药,攻补兼施,标本同治。代表方为独活汤、茯苓菊花浸酒。核心药对为:附子+干姜、远志+石菖蒲、牛膝+杜仲等。
结果表明该方法可成功抽取中医方剂数据库中的方药信息、结合不同证型配伍用药特点探索方剂制方要素,梳理出中医中风病方药证治规律。
4 结语
目前,中医药信息处理与分析中的数据挖掘方法种类繁多,本研究试用双向聚类方法探索疾病最为广泛有效的治疗方法和组方用药规律,从多维角度分析了中风病中医方药间的聚类关系,总结出针对4类证型的中风证治规律,是中医药数据挖掘领域的一次新的尝试,希望对后续研究起到抛砖引玉的作用,并预期为方剂配伍理论研究、药性理论研究、中医临床用药研究提供新方法和现代技术手段。
参考文献:
[1] 刘春鹤,赵玉虹,张相苏.试以双向聚类法分析肩周炎治疗热点研究[J].中国科技信息,2012(19):107-108.
[2] 崔雷.医学数据挖掘[M].北京:高等教育出版社,2006:56-68.
[3] 赵恒.数据挖掘中聚类若干问题研究[D].西安:西安电子科技大学,2005.
[4] Hartigan JA. Direct clustering of a data matrix[J]. Journal of the American Statistical Association,1972,67(337):123-129.
[5] Banerjee A, Dhillon IS, Ghosh J, et al. A generalized maximum entropy approach to bregman co-clustering and matrix approximation[J]. Journal of Machine Learning Research,2007,8:1919-1986.
[6] Kluger Y, Basil R, Chang JT, et al. Spectral biclustering of microarray data:Coclustering of genes and conditions[J]. Genome Research,2003,13(4):703-716.
[7] Cho H, Dhillon IS, Guan Y, et al. Minimum sum squared residue based coclustering of gene expression data[C]∥Proceedings of the 4th S/AM International Conference on Data Mining(SDM’04).2004:114-125.
[8] Cho H, Dhillon IS. Co-clustering of human cancer microarrays using minimum sum-squared residue co-clustering[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2008, 5(3):385-400.
[9] 高学敏.中药学[M].北京:中国中医药出版社,2007.
[10] 南京中医药大学.中药大辞典[M].2版.上海:上海科学技术出版社, 2006.
[11] 崔雷,刘伟,闫雷.文献数据库中书目信息共现挖掘系统的开发[J].现代图书情报技术,2008,24(8):70-75.
[12] Donohue JC. Understanding scientific literature:a bibliographic approach[M]. Cambridge:The MIT Press,1973:49-50.
(收稿日期:2013-01-27,编辑:华强)