久久99国产亚洲高清-久久99国产亚洲高清观看首页-久久99国产亚洲精品观看-久久99国产一区二区-久久99国产一区二区三区-久久99国产综合精品

生物醫學事件觸發詞識別研究

2021-05-25 5371 生物醫學論文

0引言

為了提高對海量文本信息管理的自動化程度,許多研究學者在事件抽取領域投入了大量的精力.在生物醫學領域內,做好事件觸發詞的識別是事件抽取中比較關鍵的一步,有必要對生物醫學事件觸發詞的識別進行深入研究.在進行生物醫學事件抽取研究中,針對通用的特征很難找到,且對語料的要求和依賴性對總體識別準確率的影響.本文通過對生物醫學的領域知識進行學習,把事件抽取的過程簡化為分類問題,經過文本信息的預處理、事件觸發詞的識別、事件元素識別、后處理,其中在事件觸發詞識別的過程中,采用支持向量機(SVM)多分類任務來處理.通過實驗,該方法有效地實現了觸發詞的識別與抽取.

1生物醫學事件抽取的相關知識

1.1信息抽取

面對海量的信息,能夠對信息進行自動分類、提取和重構,使人們快速從中獲得有價值的信息,這就稱為信息抽取技術,傳統的信息抽取系統在實現方法上與其他自然語言處理問題的研究方法類似,并且籠統地劃分為基于機器學習的統計方法和基于分析的方法.

1.2機器學習

機器學習是人工智能領域的一個重要研究方向,它能夠讓我們從數據集中受到啟發,利用計算機來彰顯數據背后的真實含義,是機器學習的目的.分類是機器學習的主要任務.

1.3生物醫學事件抽取

事件抽取實質上是指基于實體層面的信息抽取,它既抽取指定的一些動作,還抽取動作與實體之間的關系.

1.4SVM

SVM是建立在統計學習理論(STL)的VC維理論和結構風險最小原理的基礎上的,它是根據有限的樣本信息在模型的復雜性之間尋求一個最佳的折中,來獲得好的推廣能力.SVM的基本思想主要是在向量空間中找到一個決策平面,找到的平面能“最好”地分割兩個分類中的數據點.而SVM分類方法就是在訓練集中找到具有最大類間界限的決策平面.假設給定ωTχnew+b,標準支持向量機使用線性決策邊界來給新的對象進行分類.將落在這條線一邊的對象分類為tnew=1,另一邊對象分為tnew=-1(特別注意類別標記為{1,-1}).由此可知支持向量機對一個新測試點χnew的判定函數定義為tnew=sign(ωTχnew+b).學習的任務包括基于訓練數據選擇ω和b,這里我們主要是通過尋求最大化間隔的參數來實現的.

1.5句法分析

句子是由詞通過特定的形式組織起來的,如果能夠從句子中發現不同詞語間的句法關聯,那么我們就能夠更好的理解句子的含義.經過句法分析,我們就可以從字符串中去找到語義結構,那么如何找到一個合適的分類決策成為句子分析的主要挑戰.Gdep(GENIADependencyparser)是由日本東京大學的KenjiSagae開發的專門針對生物醫學文本的依存分析器,它是在GENIA語料庫下訓練的.

1.6評測方法

準確率(P)和召回率(R)是衡量評測效率的兩個重要指標.其中準確率衡量的是系統尋找到真正相關事件的可靠程度,而召回率衡量的則是系統尋找到相關事件的能力,二者緊密相關,缺一不可.要尋找的事件的集合用A表示,系統找到的事件的集合用B表示,則準確率P=A∩BA,召回率R=A∩BB,其中:|•|表示集合的大小;F表示準確率和召回率的調和平均數,用公式表示為:F=2PRP+R.由于調和平均數強調的是較小的那個值,所以F更容易被較小的值影響,偏向較小值的方向,所以F值更適合對準確率P和召回率R來評價.

1.7語料

本文采用的是標注的語料集,是BioNLP’13中GE(GeniaEvent)任務的語料集.GE語料中有“全文”和“摘要”兩個集合,全文是指新標注的全文論文,通過這種方法來增加語料的多樣性,這樣可以使訓練后的系統具有更強的泛化能力.全文主要由標題、摘要、方法和結果等部分組成,不同的部分所具有的目的也完全不同,從而造成獲取到不同的信息類型.摘要中的數據與BioNLP’09中的評測數據相同.

2基于SVM方法的生物醫學事件觸發詞識別

事件是指關于某一主題的一組相關描述.事件抽取的任務主要分為元事件抽取和主題事件抽取.本文借鑒了基于HMM的生物醫學命名實體的識別與分類、基于多類型特征的生物醫學事件觸發詞識別中介紹的方法來對生物醫學事件的觸發詞進行識別.當前觸發詞的識別方法主要有三類:基于規則的方法、基于字典的方法和機器學習的方法.本文利用豐富的上下文信息、語義信息,首先通過組織各種不同類型的信息,然后把它們統一表示為SVM下的特征,最后利用多分類方法解決觸發詞識別的問題.

2.1語料預處理

BioNLP’13中的GE語料是以全文的一部分或每個摘要作為一組,每一組中都包含:“.txt”、“.a2”和“.a1”三個文件.例如:在文檔號為“PMC-1310901-00-TIAB.txt”、“PMC-1310901-00-TIAB.a1”、“PMC-1310901-00-TIAB.a2”文件中.這三個文件中,txt、a2和a1分別表示摘要原文本的內容、摘要文檔中觸發詞和摘要文檔中已標記的蛋白質.

2.1.1語料格式BioNLP共享任務(ST)數據使用格式類似于2009和2011年的BioNLP共享文件格式.在語料格式表示中,文本文件是分開注釋的.所有注釋文件格式遵循的相同基本結構,每一行包含一個注釋,每個注釋ID出現在第一行,其余的注釋隨類型的不同而變化.

2.1.2語料預處理流程由于在總體事件中,跨句事件低于1%比例的事實情況,而同時在尋找跨句事件的過程中,通常也會引起過多的噪音.鑒于這些情況,我們在本文中只對一個句子中的事件進行詳細研究.所以需要預處理GE語料.

(1)首先對GE語料中各文檔的txt文件進行分句處理.

(2)由于在GE語料中,a2及a1文件中的觸發詞、蛋白質都是標明的位置,如T84Binding28452850binds表示觸發詞“binds”在這個文檔中某種事件的標識為T84,類型為“Binding”,所處理的對象是以文檔中起始位置開始記錄的第2845個字符一直到其后面的5個字符之間的所有字符串.所以通過對文檔分句后,就要重新計算這些觸發詞、蛋白質的位置,并讓它們轉化為分句處理后在各自句子的位置.

(3)由于按詞語進行分析是Gdep分析器的主要功能,并且部分蛋白質是由兩個或更多的詞構成,因此在進行句法分析前,我們需要先替換蛋白質,統一以“protein+序號”的形式將語料中給出的蛋白質替換掉,然后再對分句處理后的語料進行分析.

(4)用Gdep句法分析器進行句子的分析處理后,每個句子中的每個詞的依有關系及依有關系子節點,另外還有詞干化結果、詞性等相關信息就會清晰呈現出來.

(5)分析Gdep得出的結果,弄懂每行的基本信息,可以看出句子中的每一個詞分別占一行.每個詞的基本信息都在對應行清晰顯現.通過觀察分析可知:該詞的依存關系中父節點的位置是每行倒數第二個位置上的數字,該詞在句子中所處的位置則是該行最前面的數字.

(6)建立候選詞詞典.候選詞詞典在建立的過程中通常會引入大量噪音,進而特征的可用性就會隨之降低.鑒于此種情況,候選詞詞典中只放入訓練集中出現的觸發詞,即將所有a2文件的觸發詞抽取到一個文件中,這樣就建立了候選詞的詞典.而對于候選詞,則必須要先在觸發詞詞典中進行匹配,然后才能進行提取特征.

2.2提取上下文特征

提取上下文特征主要是從處理后的語料中得到的.其原理是根據候選詞本身以及其所在的位置、詞干化和詞性等特征進行提取.其具體的特征主要有:

(1)詞特征.它主要包括候選詞詞干化的結果、候選詞本身和候選詞詞性以及詞袋特征.其中N窗口表示與候選詞左側和右側相距最遠為N個詞的距離.由經驗得知,N=5時效果最佳.所以實驗中窗口的大小我們也采用N=5.

(2)特定位置特征.對觸發詞的識別有重要影響的還有判斷候選詞周圍特殊位置的詞.如果候選詞“transcription”左邊的第一個為“T-box”,右邊的第一個詞為“factor”.我們就會把該特征記錄為“Candicate_left=T-box”“Candicate_right=factor”.同樣也會考慮左右第二個詞.由經驗可知,如果考慮太多位置,則會引入更多噪音,同時還會出現數據稀疏問題.

(3)N-gram特征.N-gram特征更多的是考慮周圍詞與候選詞的關系.由于這個特征,從而使得特征的可辨識度得到了進一步提高,同樣是由經驗可知,2-gram和3-gram時效果最好.如對于“Down-regulationofinterferonregulatorfact4geneexpressioninleukemiccellsduetohypermethylationofCpGnotifsinthepromoterregion.”的候選詞expression來表示,它的3-gram特征則表示為“3-gram-left=4geneexpression”,它還可以表示為“3-gram=geneexpressionin”或“3-gram-right=expressioninleukemic”.

(4)與給定蛋白質的距離特征.已標識的蛋白質對于判斷是否為觸發詞能起很大作用.因此我們可以利用蛋白質及候選詞之間的單詞個數(距離信息),通過下邊的公式將兩者間的距離特征變為特征值.在score(d)=iemax(d,β)-β+0.01公式中的d表示的是候選詞與蛋白質之間的距離,β作為閥值進行調節,從而確定出β取什么值時F的效果最好.

2.3提取語義特征

在語料預處理過程中,我們已經通過Gdep句法分析器進行了分析,分析結果可以用語義上下層關系表示出來,從而得到一個樹形結構,即依存分析樹,因而可以利用語義信息進行特征的提取。

2.3.1語義特定位置特征由于父節點只有一個,而子節點可能有多個,考慮到語義特定位置的特殊性,需要提取子節點和父節點兩種特征.對子節點只提取子節點特征,而對父節點則需要提取父節點和父節點的父節點特征.

2.3.2語義N-gram特征為避免出現數據稀疏的現象,只取N=2時的特征,這里不僅需要考慮詞,還需要考慮是否有依存關系.比如對于候選詞“silencing”的2-gram特征表示為:

①不考慮依存關系的子節點方向的特征為:“semantic-2gram=silencingthe”和“semantic-2gram=silencingof”;

②不考慮依存關系的父節點方向的特征“semantic-2gram=ofsilencing”,考慮依存關系的父節點方向特征“semantic-2gram-dependency=ofPMODsilencing”;

③考慮依存關系的子節點方向的兩個特征分別為:“semantic-2gram-dependency=silencingNMODthe”和“semantic-2gram-dependency=silencingNMODof”.

2.3.3根路徑特征由上例的依存分析樹圖1可以看出,“rootremainedcauseofsilencingoflevelProtein206”是存在于root與指定蛋白質“Protein206”之間的一條路徑,基于主要的節點都在這條路徑上,我們可以把它看作是句子中的一條關鍵路徑.我們之所以把該詞和其父節點是否在根路徑上作為一個特征,是因為通過在訓練集中的統計發現:觸發詞本身或其父節點出現在根路徑上對于觸發詞的判別有很大作用.例如“silencing”這一候選詞的根路徑特征可表示為:“semantic-in-rootpath=1”和“semantic-father-in-rootpath=1”.

3實驗結果與分析

3.1實驗

在BioNLP’13的GE語料中,我們發現有Geneexpression(基因表達)、Transcription(轉錄)、Proteincatabolism(蛋白質分解代謝)、Phosphorylation(磷酸化)、Localization(定位)、Binding(綁定事件)、Regulation(調控)、Positiveregulation(正向調控)、Negativeregulation(負向調控)這9種類型.如果我們把在候選詞中出現的每個詞都看作候選詞,然后對它的語義特征和上下文等特征進行提取,將觸發詞的識別作為一個多分類的過程任務,則需要分成10類,因為這里還要考慮到判斷該候選詞是否為觸發詞這一任務,所以多了1類.我們用SVMlight工具進行分類訓練。為了便于比較與說明,在這里我們將上文中提到的各種特征進行重新劃分和分類:SF類特征、Base類特征和RP特征.其中Base類特征表示上下文特征,SF則表示除根路徑外的語義特征,RP表示的是根路徑特征.為了對本文方法的有效性進行評估,對目前文獻中提出的主題詞抽取方法進行了對比分析.不同算法下的性能對比Fig.2Performancecomparisonchartofdifferentalgorithms

3.2實驗分析

中可以看出,我們的系統在簡單事件上取得了很好的效果,在4種系統中F值最高.在所有事件的比較中,我們的準確率很高,F值較最好的FAUST系統有一些差距,但與同樣基于分類方法的UTurku系統和MSP-NLP系統相比,本文的SVM-BASED系統的結果要好很多.

4結束語

本文在前人關于生物醫學文獻的事件抽取進行研究的基礎上,提出了基于SVM的生物醫學事件觸發詞識別探索.在生物醫學信息領域,觸發詞表示的是實體間的復雜關系,大部分觸發詞的識別都將轉化為觸發詞分類問題.基于SVM方法的生物醫學事件觸發詞的識別是能夠基于訓練集自動學習的.它主要是利用特征集訓練出觸發詞識別的分類器,從而進行觸發詞的識別.本文主要研究了目前生物醫學事件抽取的研究背景、主要方法,闡述了生物醫學事件抽取的相關理論,并對語料進行處理,利用SVM方法訓練出模型進行觸發詞的識別,這種方法具有較強分類能力.由于本文主要是基于標注數據進行研究的,而在實際的生活中,標注數據的代價很大,所以利用未標注的數據進行觸發詞的識別是以后工作研究的重點。

作者:魏培文 段德全 孫印杰 毛文濤 單位:河南師范大學

chinese熟女老女人hd视频| 一二三四在线观看视频韩国| 宝宝都湿透了还嘴硬疼怎么回事| 男人猛躁进女人免费播放| 在线观看无码AV网站永久免费| 久久久亚洲熟妇熟女ⅩXXX直播| 亚洲综合无码一区二区| 久久久久琪琪去精品色无码| 亚洲一区在线日韩在线尤物| 久久久久精品国产亚洲AV蜜桃 | 四虎影视在线观看2413| 国产99久久亚洲综合精品| 丝袜AV在线丝袜AV天堂| 国产成人亚洲精品无码VR| 无码人妻久久一区二区三区APP| 国产乱码精品一品二品| 亚洲AV无码精品狠狠爱| 精品人妻AV一区二区三区不卡| 亚洲性无码AV在线DVD| 狼人在线二线三线区别大吗| 中文精品久久久久人妻不卡| 欧美VIDEOSDESXO孕交| WWXX在线观看免费| 日韩欧美亚洲国产精品字幕久久久| 丰满的人妻沦为玩物在线| 天天想你在线视频免费观看高清版| 国产成人无码18禁午夜福利免费 | ★浪潮av无码一区二区| 男同桌上课用手指进去了好爽| chinese人妻无码人妻| 日本边做边吃奶AⅤ视频免费 | 啊轻点灬大巴太粗太长视频| 日韩精品无码综合福利网| 高H禁伦餐桌上的肉伦NP| 深灬深灬深灬深灬一点| 国产精品亚洲А∨天堂免| 亚洲AⅤ永久无码精品AA| 精品国偷自产在线视频| 伊人久久东京AV| 欧美精品人人做人人爱视频| 被黑人捅入子宫射精小说| 熟妇人妻午夜寂寞影院| 久久久久久久亚洲AV无码| 亚洲AV综合色区无码二区偷拍 | 老熟女另类XXX精品视频| 91精品人妻一区二区| 人人妻人人澡人人爽人人精品电影 | 暗呦交小U女国产精品视频| 色噜噜影院狠狠狠噜| 国产精品永久久久久久久久久| 亚洲AV无码一期二期三期少妇| 夫妇交换聚会群4P疯狂大战| 小妖精太湿太紧了拔不出| 精品国色天香一卡2卡3卡 | 欧美成人精品1314www| 波多野结衣一区二区免费视频| 婷婷国产成人精品视频| 欢迎来到精灵の森林1到四集 | 女人为啥摸几下就让进了| 刺骨PO不吃肉干嘛| 小荡货奶真大水真多紧视频| 久久国产精品娇妻素人| 91精品人妻一区二区| 搡老女人老91妇女老熟女oo| 国产性自爱拍偷在在线播放| 一本久久A久久精品亚洲| 欧美视频一区二区图文| 公园小树中老年交易图片| 亚洲成AV成人片在线观看| 鲁一鲁AV2019在线| 波多野结衣放荡的护士| 午夜不卡AV免费| 久久综合九色综合网站| 波多野结衣在线观看av| 午老司机午夜福利视频| 久久99精品久久久久久蜜芽| AV无码爆乳护士在线播放| 婷婷精品国产亚洲AV麻豆不片| 精品熟女少妇AV免费观看| A级毛片成人网站免费看| 脱岳裙子从后面挺进去电影| 久久精品国产亚洲AV高清热| JESSICAJAMES护士性| 无遮挡粉嫩小泬久久久久久久| 久久久久国产精品熟女影院| 拔萝卜打牌不盖被子| 亚洲 欧美 变态 另类 综合 | 337P日本欧洲亚洲大胆在线| 少妇爆乳无码专区网站| 精东传媒2021精品密友第一季| 999久久久国产精品| 无码AⅤ最新AV无码专区| 久久久无码精品亚洲日韩精东传媒| 把腿张开老子臊烂你的小说| 亚洲AV无码专区在线电影APP| 免费无码又爽又高潮视频 | 一起碰一起噜一起| 色婷婷综合和线在线| 精品综合久久久久久98| 八戒八戒在线WWW观看| 亚洲AV喷水无码XXX| 欧美黑人XXXX性高清版| 国产偷窥熟女精品视频| 69久久夜色精品国产69| 无码人妻出轨与黑人中文字幕| 久久久国产精华液| 成人精品一区二区三区电影| 亚洲国产精品一区第二页| 欧美精产国品一二三产品| 国产精品日韩专区第一页| 在线观看AV无需播放器| 少妇激情一区二区三区视频| 久久国产精品成人无码网站| 菠萝蜜视频高清在线观看| 亚洲国产欧美在线成人| 欧美熟妇激情一区二区三区| 国产午夜成人无码免费看| 999久久久精品国产消防器材| 无码人妻丰满熟妇啪啪| 国产麻豆剧传媒精品国产AV| 中文字幕人妻丝袜成熟乱九区| 天堂А√在线地址中文在线 | 中文字幕AV无码专区第一页| 调教秘书跪趴撅起来打光屁股作文| 麻豆人人妻人人妻人人片AV| 国产精品国产三级国产AV浪潮 | 视频一区二区三区在线观看| 狼人无码精华AV午夜精品| 国产黑色丝袜在线视频| 30分钟无遮挡机机对机机| 亚洲6080YY久久无码产自国| 欧美性猛烈XXXX极品少妇| 精产国品一二三产区区別| 粗大的内捧猛烈进出无码| 一边摸一边抽搐一进一出视频| 天天做天天爱天天综合网| 免费A级毛片无码免费视频| 国产区图片区小说区亚洲区| JJZZJJZZ高潮喷水妇女| 亚洲婷婷五月综合狠狠| 天堂俺去俺来也WWW色官网| 免费AV一区二区三区无码| 国产亚洲AV浪潮A∨尹人Av| 把腿张开老子CAO烂你| 艳妇乳肉豪妇荡乳AV| 无遮挡又爽又刺激的视频| 青草伊人久久综在合线亚洲观看 | 永久免费啪啪的网站入口| 无码少妇精品一区二区免费动态| 欧美黑人又粗又大久久久| 娇妻被黑人杂交呻吟| 高清播放器欧美大片| 0D0D肥胖老太婆| 亚洲国产精品久久精品| 天堂√最新版中文在线地址| 欧美日韩一区二区在线视频精品| 久久99国产乱子伦精品免费| 国产精品女同久久久久电影院| XXXX性BBBB欧美| 永久免费AⅤ无码网站在线观看| 小烂货夹得好紧太爽了H苏妖精| 日本丰满熟妇BBxBB| 奶大灬舒服灬太大了一进一出| 精产国品一二三产区M553麻豆| 国产V片在线播放免费无码| 99久久国产宗和精品1上映| 亚洲色成人四虎在线观看| 欧美人与动交视频播放| 久久久久精品国产亚洲AV电影| 国产欧美日韩综合精品二区| 宝贝把腿张开我要添你下边动态图| 正在播放国产剧情亂倫| 亚洲精品国产A久久久久久| 无码人妻精品一区二区蜜桃不卡| 日本VA欧美VA精品发布| 男男GV白嫩小受GV在线播放| 久久精品九九热无码免贵| 国产亚洲日韩一区二区三区| 丰满熟妇大肉唇张开| 暗交小拗女一区二区| 波多野结衣AV无码| 日本适合十八岁以上的护肤品男| 日韩AV片无码一区二区三区不卡| 日韩精品一区二区亚洲AV观看| 亚洲中文字幕日本无线码| 国产成人久久综合第一区| 可以差差差的视频无掩盖| 五十路熟妇无码AV在线| 野花日本中文免费完整版4| JAPANRCEP老熟妇乱子伦视频| 国产乱子伦农村叉叉叉| 久久精品99无色码中文字幕| 欧洲亚洲国产成人综合色婷婷| 无人区码一码二码三码在线 | 欧美VPSWINDOWS极品| 日本在线观看哔哩哔哩视频| 亚洲国产AⅤ成人精品无吗| 国产AV无码精品色午夜| 精品成品国色天香卡一卡三| 少妇亚洲XXXX|