一直以來,專利檢索界流行一種觀點(diǎn),就是語義檢索就是一個(gè)黑盒子,這種觀點(diǎn)認(rèn)為
語義檢索是由計(jì)算機(jī)控制的,計(jì)算機(jī)基于同義詞聯(lián)想,獲得一個(gè)檢索員所不知道的檢索邏輯,然后返回檢索員所不能預(yù)料的一堆檢索結(jié)果。
一般人眼中的語義檢索是這樣的
筆者5年前自己初學(xué)Patentics的時(shí)候也同樣存在這種認(rèn)知偏差,后來筆者自己摸索學(xué)習(xí),多次請教Patentics的開發(fā)者裘鋼博士,逐漸糾正了自己的這種錯(cuò)誤認(rèn)知,并且在使用語義輔助排序的道路上越來越爽。
但是,筆者仍然在許多場合,聽到或看到一些朋友還在拿語義檢索不可靠或者語義檢索漏檢嚴(yán)重之類的論述來指控的語義排序不值得信任,甚至有不少進(jìn)行專利檢索教學(xué)的老師也在課堂上(現(xiàn)場課堂和網(wǎng)絡(luò)課堂)向?qū)W生們講授這樣的觀點(diǎn)。筆者不知道這些老師們自己有沒有深入學(xué)習(xí)過Patentics的檢索邏輯和檢索方法,如果是缺乏調(diào)查,先入為主去評判,那就屬于一種意識形態(tài)了。
語義排序≠語義檢索
不知大家注意到?jīng)]有,我們這里要強(qiáng)調(diào)的是語義排序,而不是通常所稱的語義檢索,許多不了解這個(gè)檢索邏輯的朋友在剛開始接觸的時(shí)候,對r/和r/ and b/或者說rdi/,rdi/ and a/這樣的檢索字段沒有搞清楚,理解不透徹,先入為主地認(rèn)為只要包含語義兩個(gè)字就是語義檢索,就是一個(gè)不可控的黑盒子
不知道大家注意到?jīng)]有,老彭這里要強(qiáng)調(diào)的是,語義排序只負(fù)責(zé)排序,語義排序不負(fù)責(zé)檢索,
把語義排序翻譯成人話
給我一堆結(jié)果,看不過來,不知道先看哪個(gè),能不能讓電腦幫我排個(gè)序?
那問題來了,專利檢索結(jié)果(樣本總量)是誰決定的呢?其實(shí)語義排序的邏輯是,樣本總量由布爾檢索式?jīng)Q定
大家注意到了吧,語義排序不排斥布爾,語義排序不是瞎檢索,也不是隨便弄一堆樣本出來瞎排序,而是對用戶給定的樣本進(jìn)行重排序。
排序不會改變樣本總量,只是為了讓用戶在**短的時(shí)間內(nèi)看到**想看的專利,樣本總量用戶可以自由給定。可以直接丟一堆專利號進(jìn)去,也可以自己編寫復(fù)雜的布爾檢索式。隨便你(? ?_?)?
我們來做個(gè)實(shí)驗(yàn)
在中國發(fā)明和實(shí)用新型申請庫中進(jìn)行檢索,
ab/導(dǎo)航,這個(gè)檢索式的意思是,“獲得摘要中包含導(dǎo)航這個(gè)詞的專利”(假設(shè)檢索結(jié)果是46438件)
我們再來看r/手機(jī) and ab/導(dǎo)航這個(gè)檢索,大家認(rèn)為這個(gè)檢索式在Patentics中的檢索結(jié)果是多少呢?
很多人在此處犯的**個(gè)錯(cuò)誤,就是認(rèn)為r/手機(jī) and ab/導(dǎo)航這個(gè)檢索式的檢索結(jié)果一定少于46438件。實(shí)際上 并非如此。
上圖可以看到,r/手機(jī) and ab/導(dǎo)航這個(gè)檢索式的命中數(shù)量和ab/導(dǎo)航這個(gè)檢索式的命中數(shù)量是一樣的。
但是,細(xì)心的朋友應(yīng)該已經(jīng)察覺到了,**頁的結(jié)果不太一樣
因?yàn)?
r/手機(jī) and ab/導(dǎo)航這個(gè)檢索式,使得Patentics按照手機(jī)這個(gè)概念,對摘要中包含導(dǎo)航這個(gè)詞的46438件專利進(jìn)行了重排序,讓這些專利中,與手機(jī)這個(gè)概念**為接近的“積極分子“能夠*被檢索員看見,讓檢索員優(yōu)先閱讀,避免碰運(yùn)氣,瞎看,浪費(fèi)時(shí)間。
當(dāng)然,有人開始抬杠了,系統(tǒng)如果對手機(jī) 這個(gè)概念加工不完善,不就不能實(shí)現(xiàn)你所說的重排序了嗎?沒錯(cuò),道理上的確是這樣。但是,頂多也就還是那么多樣本,檢索員不得不全看一遍,**差也和布爾之后的碰運(yùn)氣閱讀是一樣的水平。
事實(shí)上,類似Patentics的自學(xué)習(xí)機(jī)制是非常完善的,專利中出現(xiàn)的新概念以及概念詞之間的聯(lián)系,都會被系統(tǒng)及時(shí)識別并進(jìn)行關(guān)聯(lián)。漏掉或者誤解一個(gè)概念的可能性都是比較低的,從概率上來講,這比只用布爾檢索,獲得一大堆結(jié)果之后,隨機(jī)閱讀瞎看的效率來的高多了。
專利檢索好比考試,樣本就是學(xué)生,要篩選出數(shù)學(xué)**棒的學(xué)生,就讓他們做數(shù)學(xué)試卷,要篩選出物理**棒的學(xué)生,就讓他們做物理試卷,語義排序依據(jù)r/就是這張?jiān)嚲?,試?*不可能影響考生人數(shù),試卷存在的意義,只是從這么多考生中,篩選出成績*的那位考生。至于考生人數(shù),是由報(bào)名人數(shù)決定的,布爾檢索,就是那個(gè)報(bào)名條件。你可以怪題出的不好,也可以怪報(bào)名條件太苛刻,但把考生人數(shù)的多少歸咎于試卷,就是認(rèn)知錯(cuò)誤。來源:老彭侃知產(chǎn)作者:彭文波