基于統(tǒng)計(jì)的技術(shù)自動(dòng)化程度是
基于統(tǒng)計(jì)的技術(shù)和基于視覺特征的技術(shù)在多數(shù)情況下都涉及對(duì)待抽取內(nèi)容本身進(jìn)行區(qū)域劃分等處理,需要進(jìn)行人工干預(yù),因此,操作人員的主觀行為可能會(huì)造成區(qū)域劃分不合理,從而直接影響信息抽取的效果?;谀0宓募夹g(shù)需要依賴于表示待抽取位置的節(jié)點(diǎn)串,通常需要針對(duì)某一類待抽取對(duì)象進(jìn)行分析和標(biāo)記,總結(jié)出一個(gè)統(tǒng)一的模板節(jié)點(diǎn)串。盡管利用模板來抽取信息較為便捷,但生成模板的過程卻需要大量的人工操作。基于DOM樹結(jié)構(gòu)的技術(shù)針對(duì)Web網(wǎng)頁(yè)本身的結(jié)構(gòu)優(yōu)勢(shì),通過對(duì)網(wǎng)頁(yè)樹進(jìn)行對(duì)比操作,就可以確定頁(yè)面內(nèi)主題信息的位置進(jìn)而實(shí)現(xiàn)信息的抽取,極少受到操作者主觀因素的影響。
基于統(tǒng)計(jì)的復(fù)雜性是
基于統(tǒng)計(jì)的技術(shù)在理論上易于實(shí)現(xiàn),但其難點(diǎn)在于確定一個(gè)合理的閾值。閾值的確定方法會(huì)對(duì)主題對(duì)象的確定產(chǎn)生直接的影響,并且對(duì)于不同種類的對(duì)象必須分別討論閾值?;谝曈X特征的技術(shù)對(duì)對(duì)象的分塊更加注重可視化信息的組織形式?;贒OM樹結(jié)構(gòu)的技術(shù)不需要再對(duì)抽取對(duì)象進(jìn)行分塊處理,可以直接通過對(duì)比得出主題信息區(qū)域,但卻需要對(duì)每個(gè)對(duì)象都進(jìn)行同樣的處理,沒有充分利用已有的結(jié)果總結(jié)出針對(duì)同類相似對(duì)象進(jìn)行處理的統(tǒng)一方法?;谀0宓募夹g(shù)免去了對(duì)同類對(duì)象的重復(fù)操作,針對(duì)相似對(duì)象總結(jié)出統(tǒng)一的抽取模板,但在模板的生成方法和模板通用性方面還有待于改善。
標(biāo)簽: 基于統(tǒng)計(jì)的 技術(shù)自動(dòng) 自動(dòng)化程度是