贝叶斯网络结构学习及其应用研究_黄解军

第29卷第4期2004年4月武汉大学学报#信息科学版

Geomatics and Information Science of Wuhan U niversity V ol. 29No. 4Apr. 2004

文章编号:1671-8860(2004) 04-0315-04文献标识码:A

贝叶斯网络结构学习及其应用研究

黄解军 万幼川 潘和平

1

1

1

(1 武汉大学遥感信息工程学院, 武汉市珞喻路129号, 430079)

摘 要:阐述了贝叶斯网络结构学习的内容与方法, 提出一种基于条件独立性(CI) 测试的启发式算法。从完全潜在图出发, 融入专家知识和先验常识, 有效地减少网络结构的搜索空间, 通过变量之间的CI 测试, 将全连接无向图修剪成最优的潜在图, 近似于有向无环图的无向版。通过汽车故障诊断实例, 验证了该算法的可行性与有效性。

关键词:贝叶斯网络; 结构学习; 条件独立性; 概率推理; 图论中图法分类号:T P18; T P311

贝叶斯网络学习是贝叶斯网络的重要研究内容, 也是贝叶斯网络构建中的关键环节, 大体分为结构学习和参数学习两个部分。由于网络结构的空间分布随着变量的数目和每个变量的状态数量呈指数级增长, 因此, 结构学习是一个NP 难题。为了克服在构建网络结构中计算和搜索的复杂性, 许多学者进行了大量的探索性工作[1~5]。至今虽然出现了许多成熟的学习算法, 但由于网络结构空间的不连续性、结构搜索和参数学习的复杂性、数据的不完备性等特点, 每种算法都存在一定的局限性。本文提出了一种新算法, 不仅可以有效地减少网络结构的搜索空间, 提高结构学习的效率, 而且可避免收敛到次优网络模型的问题。

述, 在具体问题领域, 内部的变量关系形成相对稳定的结构和状态。这种结构的固有属性确保了结构学习的可行性, 也为结构学习提供了基本思路。贝叶斯网络结构学习是一个网络优化的过程, 其目标是寻找一种最简约的网络结构来表达数据集中变量之间的关系。对于一个给定问题, 学习贝叶斯网络结构首先要定义变量及其构成, 确定变量所有可能存在的状态或权植。同时, 要考虑先验知识的融合、评估函数的选择和不完备数据的影响等因素。

1. 2 贝叶斯网络结构学习的方法

近10年来, 贝叶斯网络的学习理论和应用取得了较大的进展。目前, 贝叶斯网络结构学习的方法通常分为两大类:¹基于搜索与评分的方法, 运用评分函数对网络模型进行评价。通常是给定一个初始结构(或空结构) , 逐步增加或删减连接边, 改进网络模型, 从而搜索和选择出一个与样本数据拟合得最好的结构。根据不同的评分准则, 学习算法可分为基于贝叶斯方法的算法[3, 7]、基于最大熵的算法[8]和基于最小描述长度的算法[1, 2]。º基于依赖关系分析的方法, 节点之间依赖关系的判断通过条件独立性(CI ) 测试来实现, 文献[9, 10]描述的算法属于该类算法。前者在DAG 复杂的情况下, 学习效率更高, 但不能得到一个最优的模型; 后者在数据集的概率分布与DAG 同构的条件下, 通常获得近似最优的模型[11],

1 贝叶斯网络结构学习的基本理论

1. 1 贝叶斯网络结构学习的内容

贝叶斯网络又称为信念网络、概率网络或因果网络。它主要由两部分构成:¹有向无环图(directed acyclic graph, DAG) , 即网络结构, 包括节点集和节点之间的有向边, 每个节点代表一个变量, 有向边代表变量之间的依赖关系; º反映变量之间关联性的局部概率分布集, 即概率参数, 通常称为条件概率表(conditional probability table, CPT) , 概率值表示变量之间的关联强度或置信度。贝叶斯网络结构是对变量之间的关系描

收稿日期:2004-01-23。

项目来源:国家自然科学基金资助项目(60175022) 。

[6]

316武汉大学学报#信息科学版2004年

但运用该方法要求样本数据集具有一定的规模。同样, 条件互信息I (X , Y |Z) 定义为:

I (X , Y |Z) =

X, Y, Z

2 贝叶斯网络结构学习的启发式算

2. 1 算法的原理

贝叶斯网络结构学习是通过对给定数据集的学习和训练, 寻找一种最佳的网络来表达变量之间的依赖关系, 即确定变量之间的因果连接集合。本文提出一种贝叶斯网络结构学习的启发式算法, 其基本思路是基于给定数据集, 通过CI 测试, 有效地修剪完全潜在图, 得到一个最优的无向结构或最小潜在图。在给定其他变量子集的情况下, 任何两个变量X 和Y 之间的条件独立性可以通过概率表中的边缘概率和条件概率来判断, 而概率表由给定的数据集直接计算得出。

定义1 如果给定某一问题领域的各个变量, 用一个节点表示其中的一个变量, 由任意两个节点之间的无向边连接构成的图模型, 称为完全潜在图(potential graph, PG) 。

定义2 如果变量X 、Y 和变量集Z 之间存在以下关系:P (X |Z ) =P (X |Y , Z) , 即在变量集Z 已知的条件下, 变量Y 的状态和概率不会造成对变量X 的影响, 称为在给定变量集Z 的前提下, X 条件独立于Y, 记为I (X L Y |Z ) 。

定义3 设X 、Y 和Z 为有向无环图中3个互不相交的节点子集, 如果从X 中一个节点到Y 中一个节点的所有路径之间, 存在节点W 满足下列条件之一:¹W 具有收敛箭头, 且W 或任何W 的子节点不包含在Z 中; ºW 没有收敛箭头, 而且W 存在于节点集Z 中。则称在给定条件集Z 的情况下, X 与Y 为d -分割, 记为D 。

定理1 对网络结构中的节点集X 、Y 和Z, 当且仅当P (X |Y , Z ) =P (X |Z ) 时,

D 成立。

E p (X , Y, Z) #

(2)

p (X |Z) p (Y |Z)

lg

先假设所有的节点之间存在连接, 节点X 和Y 之间连接的潜在性运用条件互信息来计算。在通常情况下, 设定一个较小正实数的阈值E , 当I (X , Y |Z) [E 时, 称X 与Y 被条件集Z 进行d -分割, 即在给定Z 的条件下, X 条件独立于Y, 从而删除X 与Y 之间的连接。经过n (n -1) /2次CI 测试, 最后由完全潜在图修剪成稀疏的理想潜在图。2. 2 算法实现

1) 初始化完全潜在图。

根据给定的具体问题和数据实例, 建立全连接图, 即假设任意两个变量之间都存在依赖关系, 用连接边表示变量之间的关联性, 则可构成完全潜在图。数学模型表示为:

PG =(V, L, 5)

式中,

V ={V 1, V 2, , , V n }L ={(V i -V j ) |V i , V j I 连接边L 的数量为:

|L |=n (n -1) /2

与变量X 相邻的变量数, 初始化有:

A X =V \{X }因此, |A X |=n -1, 其中n =|V |。

2) 融合先验知识。

对于网络中任意两个变量X 和Y, 根据专家知识或先验常识, 设定:

(1) L 0={(X , Y ) }, 表示变量对(X , Y ) 之间存在无向连接的集合;

(2) L 1={(X , Y ) }, 表示变量对(X , Y ) 之间不存在无向连接的集合;

(3) T p 表示初始贝叶斯网络中任意变量的最大父节点数, 可以通过专家知识或先验常识设定一个整数T p

3) 潜在图修剪。

输入完全潜在图, 通过CI 测试, 若CI 测试为真值, 用符号(X L Y |Z) 表示, 变量集Z 的节点数用t p 表示。设C (X , Y ) 表示变量X 和Y 的最小d -分割集, 其算法如下。

(7)

设A X 表示变量X 的直接邻近集, |A X |表示

(8)

V }

5={

(4) (5) (6) (3)

定理2[11] 在依赖模型M 中, 设X 、Y 和Z 为互不相交的子集, 条件独立性(X L Y |Z ) 满足

对称性、分解律和交换律等属性。

定理3[11] 满足对称性、分布律和交换律的依赖模型M, 从完整图中删除任意条件独立性成立的连接(X , Y) , 则产生一个惟一的最小I -map 。

根据信息论, 两个离散随机变量(对应于节点) 的X 和Y 具有联合概率函数p (X , Y) 和边缘概率函数p (X ) 、p (Y), 其平均互信息I (X , Y) 定义为:

I (X , Y) =E p (X , Y) lg (1)

p (X ) () Y

第4期黄解军等:贝叶斯网络结构学习及其应用研究317

for (t p =0; t p

let X =V i , Y =V j , U =V \{X , Y}if((X , Y ) I L 0) , then

set (X , Y) =t p , |A Y |>t p 设Z =(A X G A Y ) \{X , Y}, 计算条件互信息I (X , Y |Z) //结合联合概率表及式(1) 、式(2) 计算if I (X , Y |Z ) [E 即(X L Y |Z ) 成立then 删除X 和Y 之间的连接A X =A X \{Y}, A Y =A

Y

X 与Y 条件独立, 即X 与Y 之间的连接边不存在。在该实例中, 取置信度为95%, 当|Z |=0时, 计算互信息I (X , Y ) , 可删除连接边(1, 2) 、(1, 3) 、(1, 6) ; 同样, 当|Z |=1和|Z |=2的情况下, 根据条件互信息I (X , Y |Z ) , 进行V 2检验, 可删除(1, 8) 、(3, 5) 、(4, 7) 、(7, 8) 等连接边, 结果可得到最小潜在图(图2的无向版) 。运用因果发现算法并结合先验知识, 确定节点之间连接的方向, 构成汽车故障诊断网络, 从而为汽车故障的诊断与维护提供科学依据。

\{X }

图1 汽车故障诊断的完全潜在图

F ig. 1 Fully P G of A utomobile Diag nost ic N etwork

设d -分割集C (X , Y) =Z else set

在以上算法中, 从完全潜在图开始, 由于完全潜在图包含n (n -1) /2条边, 需要n (n -1) /2次CI 测试, 对连接边进行修剪。但是, 先验知识和专家知识的融入可以有效地减少CI 测试, 特别是在网络结构稀疏的情况下, 效果更加明显。由定理2和定理3可知, 算法获得的网络结构为数据集的最小I -map , 但要求样本数据达到一定的规模, 才能保证网络模型的准确性。同时, 算法的效率取决于数据集包含的属性个数和样本规模。

图2 汽车故障诊断的网络模型

F ig. 2 M odel of Automobile Diagnostic N etw ork

该方法不仅可以减少计算的复杂度, 还可以综

3 实例分析

以汽车故障诊断为例, 采用10000个样本记录的数据集, 该领域问题用8个变量及其状态表示为:¹油压(正常、低、无) ; º风扇带(紧、松、断裂) ; »电池(满、弱、失效) ; ¼温度(正常、高、极高) ; ½系统正常(是、否) ; ¾汽车边灯(正常、熄灭) ; ¿汽车前灯(正常、熄灭) ; À引擎器(正常运行、停止运行) 。先根据变量定义, 将8个变量分别用8个节点表示, 建立任意两个节点之间的连接, 构成完全潜在图(见图1) 。基于样本数据, 计算相关的概率参数, 构成联合概率表, 通过边缘概率和条件概率计算条件互信息I (X , Y |Z) 。在给定置信度的基础上, 可运用V 2检验来判断条件独立性[12]。若计算值I

(, Z V 2/n , Z 合考虑样本数据和专家知识, 具有因果分析、关联

分析和时序分析等功能, 可应用在故障诊断、分类聚类、可靠性评估等领域。但要求数据集包含的变量为离散变量, 若出现连续变量, 则需要对数据进行预处理, 即离散化; 样本数据必须是完备的数据集, 样本规模足够大, 且样本数据量越大, 得到的网络结构越好, 但样本规模将影响到计算效率。

4 结 语

本文算法从完全潜在图出发, 利用专家知识和先验常识, 设定相关参数, 有效地减少网络结构的搜索空间。通过CI 测试, 确定变量之间的依赖性, 将全连接无向图修剪成最优的潜在图, 近似于有向无环图的无向版。实例证明了该算法的可行,

318武汉大学学报#信息科学版

2004年

的情况, 该算法的有效性还有待于进一步验证。同时, 算法对样本规模的灵敏度以及对不完备性数据的学习也是今后研究的内容。

参 考 文 献

1 Bouckaer t R R. Belief Networks Construction U sing the

M inimum Descriptio n Leng th Principle. L ectur e Notes in Computer Science, 1993, 747:41~482

Lam W,

Bacchus F.

L earning Bayesian Belief

N etw orks:A n Approach Based on the M DL Principle. Computational Intelligence, 1994(10) :269~2933 Cooper G, Herskovits E. A Bayesian M ethod fo r the

Induction of Bayesian N etw orks from Data. M achine L earning, 1992(9) :309~3474

Sing h M , Efficient 5

Valtor ta M.

Construction of Bayesian

Journal

of

N etw ork Str uctures from Data:A Brief Survey and an

Algorithm.

International

Approx imate Reasoning , 1995(12) :111~131Chickering D M.

Learning Equiv alence Classes of

Journal of M achine

Bayesian Network Structur es.

Journal of Patter n Recognition and Artificial Intellig ence, 2000, 14(7) :941~962

Geig er D,

Chickering D.

Learning

7 Heckerman D,

Bayesian Netwo rks:T he Combination of K no wledge and Stat istical Data. M achine L earning, 1995, 20(2) :197~243

8 Herskov its E. Computer -based Pr obabilistic Netwo rks Co nstruct ion:[Ph. D Disser tatio n]. Califor nia:Stanford U niversity , 1991

9 Spirtes P , Glymour C, Scheines R. An Algo rithm for Fast Recovery of Sparse Causal Graphs. Social Science Co mputer Review, 1991(9) :62~72

10 Cheng J, Bell D A, L iu W. An A lgorithm for Bayesian

Belief N etwork Construction from Data. A I &ST AT . 97, Flor ida, 1997

11 Pearl J. Probabilistic Reasoning in Intelligent System:

Networks of Prausible Inference. M or gan K aufman, 1988

12 Lui s M , de Campos, Huete J. A New Approach for

L ear ning Belief N etw orks Using Independence Criteria. International Jour nal of A ppr oximate Reasoning, 2000, 24(1) :11~37

第一作者简介:黄解军, 博士生。研究方向为数据挖掘与数据仓库等。

E -mai l:hjjtk@21cn. com

San Fr ansisco:

L earning Research, 2002(2) :445~498

6 Pan H P, L iu L. F uzzy Bayesian N etw orks ) a Gener al

For mali sm for Representatio n,

Infer ence and Learn -I nternat ional

ing with Hybrid Bayesian Networ ks.

Bayesian Network S tructure Learning and Its Applications

H UANG Jiej un 1 WAN Youchuan 1 PAN H eping 1

(1 School of Remote S ensing an d Information Engineering, Wuhan University,

129Luoyu Road, Wuhan 430079, China)

Abstract:This paper discusses the purposes and methods of Bayesian netw ork structure learning ,

then proposes a new algorithm for this task. Based on a fully connected potential g raph, w e enter the ex pert know ledge and prior knowledge in order to reduce the query space of the structures. By using CI (conditional independence) tests, it can be pruned a fully connected potential graph to a best PG, w hich is expected to approximate the undirected version of the underly ing directed g raph. The experimental results of fault diagnosis in automobile are provided to illustrate the feasibility and efficiency of the new algorithm.

Key words:Bayesian netw ork; structure learning; conditional independence; probabilistic reasoning ; g raph theory

About the first author:HUA NG Jiejun , Ph . D candidate, m ajors in data mining and data warehou se. E -m ail:hjjtk @21cn. com

(责任编辑: 晓平)


相关文章

  • 基于贝叶斯的文本分类
  • 南京理工大学经济管理学院 课程作业 课程名称:作业题目:姓 学 成名:号:绩:任课教师评语: 签名: 年月日 基于朴素贝叶斯实现文本分类 摘要贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类.本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义. ...

  • 手机垃圾短信过滤系统的设计和实现
  • 开发案例 手机垃圾短信过滤系统的设计和实现 袁瑞芬 (东莞理工学院计算机学院,东莞523808) 摘 要:针对目前手机垃圾短信过滤的几种方法,分析与比较这些方法的优缺点,在此基础上,介绍 贝叶斯过滤方法的原理,讨论基于贝叶斯推理方法的过滤技术在手机垃圾短信过滤中的优点和适用性,重点介绍贝叶斯推理方法 ...

  • DX3004模式识别与人工智能--教学大纲
  • <模式识别与人工智能>课程教学大纲 一.课程基本信息 课程代码:DX3004 课程名称:模式识别与人工智能 课程性质:选修课 课程类别:专业与专业方向课程 适用专业:电气信息类专业 总 学 时: 64 学时 总 学 分: 4 学分 先修课程: MATLAB程序设计:数据结构:数字信号处理 ...

  • 贝叶斯网络的Matlab工具箱
  • 广西工学院鹿山学院 毕业设计(论文) 英文翻译 系别:电子信息与控制工程系 专业班级:自动化081 姓名:田丰源 学号: 20082329 指导教师:黄玲 职称:讲师 二〇一二年五月十八日 贝叶斯网络的Matlab工具箱 凯文·墨菲 计算机科学系I 美国加州大学伯克利分校 加利福尼亚大学伯克利分校, ...

  • 贝叶斯定理在遗传病概率计算中的误用
  • 贝叶斯定理在遗传病概率计算中的误用 丁志芳 西南大学三亚中学,海南572022 摘要:贝叶斯定理适用于有先验概率的随机事件:人类个体层次的遗传病由于无先验概率而不能运用贝叶斯定理:单基因遗传病的某一个正常个体可能是纯合体也可能是杂合体,概率计算中应分开来进行. 关键词:贝叶斯定理; 概率; 隐性遗传 ...

  • 贝叶斯决策方法及其应用
  • 2014年10月 第10期第35卷 韶关学院学报·自然科学 Journal of Shaoguan University ·Natural Science Oct.2014 Vol.35No.10 贝叶斯决策方法及其应用 王明辉 (韶关学院数学与信息科学学院,广东韶关512005) 摘要:风险决策存 ...

  • 贝叶斯估计对比于经典估计的优势分析与其局限性
  • 贝叶斯估计对比于经典估计的优势分析与其局限性 经典估计和贝叶斯估计 经典估计理论是通过一个随机抽样过程,从总体中随机抽取一定数量的样本,再结合总体分布或总体分布族提供的的信息,推断出总体分布或总体特征,在整个推断过程中,使用到了总体信息和样本信息. 贝叶斯估计在推断总体的过程中,不仅使用到了总体信息 ...

  • 纳什均衡与我们的生活
  • 摘要: 纳什均衡是博弈论的一个重要术语,以约翰・纳什命名.纳什均衡就是在人有限非合作博弈中的所有参与人的最优策略组合.由于一个博弈的纳什均衡解可能只有一个,也可能有多个,于是关于纳什平衡点精炼的问题逐渐被提出,而每一种精炼都是为了剔除某种不合理或者脆弱的纳什平衡点,从而就产生了子博弈纳什均衡.贝叶斯 ...

  • 博弈论的理论精华及其现实意义_胡希宁
  • DOI:10.14119/j.cnki.zgxb.2002.02.009 第6卷第2期中共中央党校学报 JournalofthePartySchooloftheCentralCommitteeoftheC.P.C. Vol.6,No.2博弈论的理论精华及其现实意义 胡希宁1贾小立 2 (1.中共中央 ...

© 2024 范文中心 | 联系我们 webmaster# onjobs.com.cn