放射性核素内污染所致剂量快速估算
应用Visual Basic 6.0,参考《电离辐射防护与辐射源安全基本标准》(GB 18871-2002)、ICRP 71号报告、Basic Safety standards of the International Atomic Energy Agency、放射性核素摄入量及内照射剂量估算规范(GB/T16148-2009)以及核事故应急情况下公众受照剂量估算的模式和参数(GB/T 17982-2002)中的估算方法及剂量转换系数进行软件编制。开发适用于核与辐射突发事件所致放射性核素内污染的快速剂量估算软件。
核与辐射突发事件发生时,环境中可能存在大量的放射性物质,这些放射性物质可通过食入、吸入等照射途径使职业人员和公众受到辐射照射,若不及时进行检测和医学处理,将对健康造成极大的危害,甚至危及生命[1]。因此剂量估算是事故早期的医学处理和干预最为重要的一环。
《电离辐射防护与辐射源安全基本标准》(GB 18871-2002)、ICRP 71号报告、Basic Safety standards of the International Atomic Energy Agency、放射性核素摄入量及内照射剂量估算规范(GB/T16148-2009)以及核事故应急情况下公众受照剂量估算的模式和参数(GB/T 17982-2002)针对职业人员和公众提供内照射估算的基本方法和剂量转换系数。本研究旨在建立内污染估算软件,供职业人员及公众使用。比起常规计算更快速准确。尤其当事故中释放核素种类较多,现场滞留情况复杂时,软件计算更为实用。
1. 材料与方法
1.1 内照射所致待积有效剂量计算
GB 18871-2002是我国现行防护标准,内容上主要分为行为准则和剂量限值两部分。评价一年内个人有效剂量是否遵守年有效剂量限值,依据公式(1)。其中可默认外照射所致有效剂量为零。内照射所致的待积有效剂量为吸入所致的待积有效剂量与食入所致的待积有效剂量之和。
(1)
式中, 为在一年内贯穿辐射致个人的有效剂量,Sv; 和 分别是同一年内g年龄组人员食入和吸入单位活度放射性核素j以后产生的待积有效剂量,Sv; 和 分别是在同一期间内食入和吸入的放射性核素j的摄入量[2]。
GB 18871-2002的附表分别列出了91种元素不同人群的剂量转换系数。依据公式(2),个人空气采样方法计算吸入摄入量,公式(3)计算吸入待积有效剂量,公式(4)计算食入待积有效剂量。
(2)
(3)
(4)
公式(2)中, 为核素j摄入量的时间积分值,Bq; 为放射性核素的浓度,Bq·m-3; 为核素的半衰期,h; 为时间,h; 为人员呼吸率,m3·s-1,UNSCEAR建议的 值,成人为0.83m3·h-1,1岁以下、1-2岁、3-7岁、8-12岁和13-17岁分别取为0.13、0.23、0.37、0.60、0.77 m3·h-1。
公式(3)中, 为吸入核素j所致待积有效剂量,Sv[3]。
公式(4)中, 为食入核素j所致待机有效剂量,Sv; 为处理后的食物f中所含放射性j的浓度,kBq/kg; 为每天消费食物f的质量,kg/d; 为摄入的天数,d。公式来自于IAEA-TECDOC-1162。
1.2 选取剂量转换系数所使用的推荐缺省值
GB 18871-2002中附表B3和B7列出了职业人员和公众吸入途径的单位摄入量所致待积有效剂量。选用剂量转换系数需要使用者选择肺呼吸类别、活度中值空气动力学直径(AMAD)、年龄等信息参数。本研究制作的软件提供相关推荐缺省值,以便公众使用。
GB 18871-2002针对公众,对应三种不同的肺吸收类别,每种核素给出不同的剂量转换系数。仅当放射性核素的化学形态未知时,除硒、碘、铯、钍四种元素的缺省推荐值分别为F、F、F和S外,其余元素的缺省推荐值均取M[4]。
职业人员吸入剂量转换系数分别依据两种不同的AMAD值给出。应用个人空气采样方法进行剂量估算时,若没有关于粒子大小的专门资料,可假定AMAD为5mm[5]。肺吸收类别根据核素不同化合物提供推荐值[2]。
1.3软件设计
软件应用Visual Basic 6.0进行编制,设计流程图(图1)。软件主要分为两大界面,职业照射和公众照射,每一界面都分为信息输入、已输入信息和计算结果三个框架。软件附带275个文本文件,记录不同核素不同信息参数时的剂量转换系数。
信息输入框架主要由Text、Combo、Command和单选框控件组成。使用者可根据顺序依次输入或选择信息。在职业照射的AMAD和公众照射的肺吸收类别单选框中,分别有焦点推荐选择,仅在使用者没有专门资料时使用。当点击确定按钮时进入已输入信息框架,点击继续输入按钮时信息输入框架中除年龄外的所有信息清空,以供重新输入或继续输入下一核素信息。
已输入信息框架由List和Command控件组成。List中显示上一步中选择的内容,可选择任意一条信息点击删除。完成后点击计算。
计算结果框架中显示上一步List中列出的所有核素食入和吸入的有效剂量叠加结果。
为保证计算所需参数都具备,在信息输入框中,有检验功能,不符合要求会弹出提示框,使用者需按照提示要求输入,直至所有参数输入完毕。
2. 结果
根据上述计算方法和软件设计思路完成本软件。本软件包括一个可执行文件和一个文件夹,打包后可在不同系统,不同计算机上使用,以Windows 7系统演示本软件操作,图2为公众人员吸入待积有效剂量估算的界面。
内照射剂量系数法有多种不同公式,本研究针对不同的方法验证本软件的估算结果。
针对吸入所致内照射剂量,根据文献福岛核事故期间测定中国城市空气中的铯-134活度浓度区间为0.02-0.20mBq/m3,峰值浓度为0.78mBq/m3,峰值测得时间为2011年4月2日,测得地点为北京市密云县[6],假定滞留时间为12小时,通过软件估算,根据提示选取参数信息,得出吸入铯-134导致儿童待积有效剂量大致为:1岁,1.34×10-8mSv;5岁,1.80×10-8mSv;10岁,2.98×10-8mSv;15岁,4.54×10-8mSv;公众成人,5.13×10-8mSv。职业人员吸入铯-134导致待积有效剂量为:7.46×10-8mSv。使用IAEA-TECDOC-1162中的吸入待积有效剂量估算方法,如下公式(5)进行对比验证,成人吸入所致的待积有效剂量为2.8×10-7mSv。
(5)
式中, 为吸入产生的待积有效剂量,mSv; 为放射性核素i在空气中的平均浓度,kBq/m3 ; 为放射性核素i的剂量转换系数,(mSv·h -1)·(kBq·m-3)-1,ICRP推荐的成人在较轻活动时的呼吸率为1.5 m3/h; 为受烟羽的照射时间,h;n为所考虑的放射性核素个数。
针对食入所致内照射剂量根据文献福岛核电站后北京昌平地区菠菜样品中碘-131活度的最大值为2.76Bq/kg[7],若成人摄入量为0.1kg/d,软件估算结果食入所导致的待积有效剂量为7.0×10-5mSv。使用核事故应急情况下公众受照剂量估算的模式和参数(GB/T 17982-2002)中的公式(6)进行验证,取成人蔬菜摄入量43kg/a,得出食入被污染菠菜所致待积有效剂量为5.5×10-5mSv。
(6)
式中, 为食入核素j所致待机有效剂量,Sv; 为处理后的食物f中所含放射性j的浓度,kBq/kg; 为每天消费食物f的质量,kg/d; 为摄入的天数,d。
基于K-means的关键词提取方法在设备分类中的运用
利用文本分类技术对设备进行分类目前遇到的最大困难是,信息处理量的急剧增加造成分类过程中设备特征项维数的大幅增加,使得对设备的分类变得愈加困难,且效率愈来愈低。而关键词提取是提高文本分类效率的常用方法。本文根据设备文本描述的特点,以预先假定的初始关键词及其特征项词频来构建向量空间模型(VSM),在此基础上利用K-means算法将文本中的关键词提取出来。实验表明,基于K-means的关键词提取不仅大幅度地提高了设备分类效率,且分类准确性也得到了提高。
仪器设备分类的重要性在于能实现规模采购、精细管理、合理维修等目的,如不进行科学合理的分类管理,势必造成人力、物力和财力的巨大浪费。就笔者所从事的设备管理工作来看,目前的政府集中采购,是先将用户所提交的设备进行集中,然后再进一步进行分类,当每一类达到一定规模后即可进行招标采购。这一分类过程目前是采用计算机对设备进行文本分类[1-2]。但随着设备数量及种类的增加,以及分类算法中设备样本的增加,文本分类中通常采用的向量空间模型(VSM)[3],因向量维数可能涉及训练集中的所有词汇,而使得计算机需要处理的数据量非常巨大,从而限制了文本分类方法在设备采购中的应用。由此也可以看出,对向量维数实施降维是实现文本分类效率提升的必要前提 [4]。
为此,本文提出一种基于K-means聚类的关键词提取方法。由于关键词是对文档内容的高度概括,能全面反映文档的内容和主题[5],所以关键词提取可以有效地实现降维。本文将以各部门工作中应用十分广泛的设备说明文本为例,通过关键词提取来提高分类效率。显然,若将每一类文档的关键词挖掘出来, 会给计算机快速高效检索及有效组织资源等带来极大帮助[6]。.
1. 基于K-means聚类的关键词提取思路
典型的设备文本时依照一定的顺序层次进行说明,有的由现象到本质,有的由主到次,有的按事物的性质、功用、原理等顺序来说明。包括设备名称、功能及参数等等。如某部门提交的电脑说明书,如图1所示,就是一种典型的说明文体。其中,“主板”、“处理器”、“内存”、“硬盘”、“显卡”、“声卡”、“网卡”、“显示器”等词能够很好地反映“计算机”这一设备的特征,可将其视为图1所示文本中的关键词。
可以发现,以上述计算机说明文本为例,作为关键词,都是一些频繁出现在各种计算机说明文本中、用于对计算机进行描述的词。其特征表现在:(1)在同类设备说明书中大量出现,且词的用法变化较少。相反,非关键词,由于使用人的不同,以及计算机型号的不同,其用法上差别也会相当大。如图1文本中的“英特尔酷睿”这类描述设备参数的词,在另一个电脑说明书中,就可能被描述为“AMD A85X”。也就是说,图1文本中的关键词“处理器”、“内存”、“硬盘”等词在各种电脑说明书中呈现时,其变化一般要小于图1文本中描述词部分的“酷睿”、“四核”等词。(2)对关键词进行描述的词可作为关键词的特征词。某些出现频率较高的特征词,可以反映出某一类关键词。而类似于图1文本第8项中的 “液晶”、“宽屏”、“亮度”、“响应”等词,就会在对“显示器”这个关键词进行描述时出现的频率较高,所以“液晶”、“宽屏”、“亮度”、“响应”等词可以称作显示器的特征词。
利用上述特征(1)的关键词与非关键词出现的频率不同,将高频词假定为初始关键词,基于初始关键词构建某类文本的向量空间模型,在此基础上利用特征(2)使用K-Means算法进一步聚类出关键词。
品名:计算机(商用机)
配置项目及要求
⑴主板:英特尔 H81 Express芯片组及以上,板型结构:M-ATX,支持系统电压、温度、风扇运行侦测。⑵处理器:英特尔酷睿i5,核心数量:四核,主频:3.2GHz 6 MB 三级高速缓存。⑶内存:1*4G DDRIII 1600内存及以上。 ⑷硬盘: 1TB 7200 rpm SATA 6Gb/s,类型:SATA串行,转速: 7200转/分钟。 ⑸显卡:芯片组:NVIDIA GeForce 705,显存容量:1G DDRIII。 ⑹声卡: Realtek ALC887,声道数:7.1声道。 ⑺网卡: 集成10/100/1000以太网卡+Dell 无线-N 1705 2.4GHz + 蓝牙 4.0。⑻显示器:尺寸19寸非宽屏,面板:液晶面板,分辨率:1600*900,响应范围:5ms,亮度:200cd/m2,LED背光。⑼保修:原厂三年免费上门保修服务。⑽其他:提供系统备份恢复功能;可同时保留系统出厂备份和用户自定义备份;可设置管理员密码,防止非法备份与恢复。
|
图1 计算机类设备的说明文本
Fig.1 A text description of computer equipment.
2. 基于K-means聚类的关键词提取模型
2.1 K-Means算法[7]
K-Means 算法是一种常用的聚类算法。它是基于划分的一种算法,基本思路为:对给定的聚类数目 ,首先随机创建一个初始划分,然后采用迭代方法通过将聚类中心不断移动来尝试改进划分。
设数据集合
个聚类中心分别为
用 表示聚类的 个类别。有如下定义。
定义1 两个数据样例之间的欧式距离为:
定义2 属于同一类别数据样例的算术平均为:
定义3 目标函数为:
K-Means算法描述如下:
输入:聚类个数 以及包含 个数据样例的数据集合;输出:满足目标函数值最小的 个聚类算法流程:
(1)从 个数据样例中任意选择 个样例作为初始聚类中心。
(2)循环下述流程(3)到(4),直到目标函数 取值不再变化。
(3)根据每个聚类样例的均值(中心样例),计算每个样例与这些中心样例的距离,并且根据最小距离重新对相应样例进行划分。
(4)重新计算每个聚类的均值(中心样例)。
2.2 关键词提取算法步骤
2.2.1 以初始关键词构建文本空间向量模型
(1)初始关键词的给定
所谓的初始关键词是指在关键词提取出来前假定的一些关键词。对于初始关键词的给定,首先将同属一类的所有文本合并为一个大文本,如,现有计算机类文本102篇、打印机类文本87篇、交换机类文本76篇、……,将上述计算机类文本、打印机类文本和交换机类文本按照类别各自合成一个大文本,最终各类文本各有一篇大文本,有几大类就有几篇文本。
其次,将文本的词频求出。目前很多文本分类研究都采用经典的TF_IDF方法来求词频[8],该方法使得在越少类别文档中出现的特征词,其权重越大,这样就可以将那些不具备类别区分能力的词,如“的”、“地”,以及英文的”a””an”等词排除。
再次,按照词频的大小由高到低排序。我们发现大部分类别的文本中,词频最高的8%~10%的词中含有了80%~90%的关键词,图2证实了这一点。该图为人工统计的结果,横轴表示词频最高的词占整个文本的比例,纵轴表示所选出的词中关键词占整个文本的关键词的比例。所以我们将文本中词频最高的前10%的词作为初始关键词。
图2 高频词与关键词关系
Fig.2 High frequency words and keywords relationship
(2)向量空间模型的给定
在信息检索领域中, 向量空间模型(VSM) [3]最为简洁有效, 影响力也最大。不论是关键词提取还是文本分类,都需要首先建立文本的向量空间模型。在某些情况下,对关键词进行描述的、被称为特征项的词,其自身也有可能是该类文本的关键词。那么,如何寻找这种关键词的特征项呢?事实上,对关键词进行描述的特征项既可能紧随关键词之后,也可能出现在关键词之前,表现为和关键词之间的固定搭配关系。如图1所示的“宽屏”这个词,其前面的“尺寸”就是“宽屏”这个关键词的特征词。因此,为了将关键词尽可能提取出来,我们将以每一个初始关键词为基础,将其周围词作为特征词。在某一个初始关键词周围出现的特征词频率越高,该初始关键词就越具备某类关键词特征。我们将这些特征词的词频作为空间向量的项,这样就形成了该类文本的空间向量模型。初始关键词的确定和向量空间模型的给定具体如下。
对某个类的所有文档进行计算,以每一个初始关键词 为中心计算出其前后初始关键词 、 之间的词,也就是特征项出现的频率 ,其中 为第 个初始关键词, 为初始关键词周围的第 个词。据此每类文档构成如下的二维矩阵,一个类文本集可以表示成一个 的词。文本矩阵 :
(3)
其中每一列 代表一个关键词及其周围特征词的一个组合,每一行 代表特征词在各个初始关键词中的权值, 表示第 个词在第 个初始关键词周围出现的权重。
2.2.2 值的设置
空间向量模型(VSM)[3]构建好后,在进行K-means聚类算法前需要先确定聚类数 [9]。K-means聚类对初始聚类中心极为敏感,如果初始聚类中心选择不当,算法很容易陷入局部最优解,而非全局最优解。
对于 值得多少,我们采用经验法,聚类的个数 一般小于样本个数的平方根[10],因此,一般可以取初始点为文本总数的平方根。在这里我们选择初始关键词数的平方根作为 值。
2.2.3 利用K-means聚类算法求出关键词
初始关键词中包含了许多非关键词,我们采用K-Means算法进一步排除一些非关键词,以达到提取关键词的目的。利用K-means聚类算法得到聚类中心点,去除相同的词后,即获得文本的关键词。图3显示了两个文档截图的比较,一个是一篇典型的计算机类文档,另一个是用K-Means算法对计算机类文本进行关键词提取后的文档。
浙江省教育厅科研项目(立项编号:Y201432308);浙江省社会科学界联合会研究课题成果(2014Z052);
|