論文降重其實是一件很簡單的事,摸清套路後完全不需要花費太多精力。但是知乎上目前好像沒有技術帖講清楚,所以我分享一下具體經驗。
由于知網價格很高,終稿之前一般都是用其他查重網站查重。這裡給出一個評測文章,介紹了十個查重網站,很有參考價值。
我根據這個帖子體驗了幾個查重網站,最終發現确實是papertime和paperfree最為價廉物美。這兩個網站貌似是同一家公司的,都送新用戶10000 字,所以我們可以用包括但不限于父母、叔叔阿姨、爺爺奶奶等全家人的手機号注冊新用戶,然後就再也不用花錢了。
根據給出的重複對象來源可以看出這個網站的算法和重複率比較靠譜。構成鮮明對比的是格子達,給出的重複文獻來源可以與我寫的句子八杆子搭不到邊。
最後根據經驗,如果在paperfree/time能降到10以下,在知網應該就穩了。我個人從初稿的20%降到現在的3.76%。
(更新:同份文本在學校知網檢測的結果為1.2%,可能是因為知網的單句檢測算法不如papertime嚴格。其實還有下降空間,隻不過沒必要再改了…)
值得一提的是,這兩個網站都可以在線改重。對比紅/黃句和重複文獻來源以及句子相似度,可以針對性地修改,邊改邊查效率非常高。
手把手降重攻略
一、首先摸清楚查重的算法。Papertime的算法是:
總體相似度 = 相似字數 / 檢測字數
被系統自動識别出來的非正文部分(如目錄,标題,公式,圖表,參考文獻等)不參與檢測,檢測字數一般略小于論文字數。
相似字數 =(句子1字數 * 句子1相似度 句子2字數 * 句子2相似度 ...... 句子n字數 * 句子n相似度),句子相似度範圍0.00~1.00,綠色句子相似度按照0計算。
紅色句子為重度相似(80%~100%),建議修改;橙色句子為輕度相似(50%~80%),可酌情修改;綠色句子表示沒有檢測到相似語句。
簡單歸納:
(其中i句相似度>50%為有效,<50%記作0)
簡單理解:查重時把文章分解為一個個小句,根據某個算法算出單句相似度。把其中相似度大于50%的句子的相似字數加總再除以論文總字數即為重複率。
單句相似度這個概念似乎比較玄學,網站沒有明确說明算法,但是我們也可以簡單理解一下,大概就是“我寫的某個句子和已有文獻句子的相同字數占該句子總字數的百分比”之類的東西。
最重要的一個信息是:相似度>50%的句子才會被标黃,相似度>80%的句子會被标紅。相似度<50%的被标綠并且相似度被計為0.
二、那我們的降重目标就很清晰了,一共有兩個途徑:
①降低每句相似字數,以降低總相似字數;
②把句子的相似度降低到50%以下,那麼這句相似字數直接就變為0了。
我們發現這兩個途徑其實一樣。但是②的效果更顯著,因為能直接把句子變綠(要堅強)從而大幅降重,所以對于大多數句子,我們的目标顯然是用方法②把他變綠。。。
當然還有一些句子非常堅強,比如“根據圖2-1我們可以看到,...”這種句子就比較難綠,但是總體而言難綠的句子不多,所以把重複率降到5%以下是不難的。
三、具體措施
我們目前看到的大多數降重思想都局限在方法①,即沒有目的地用同義詞替換、把字句被字句轉換等方法盡力降低相似字數。但是有了科學思想的指導,我們的修改方向就更清晰了。
1.首要争取對象——50出頭
像這種相似度50%出頭的黃色句子是首要争取對象,因為隻要改幾個字就能變綠,從50直接變成0,因而在降重工程中最受歡迎(大家都争着綠他,很是可憐)。
改成“這進一步說明了IIT現象更易發生于初始要素禀賦相近的國家間”後,綠化成功。
2.短句合并成長句增加分母
這種定義引用類的紅色句子,相似度88%,應該無可救藥了吧?但是查重分解句子是會根據标點的,我删去句子後面的逗号,将短句連成長句以增加該句的分母,對語序做了調整,最終竟然硬生生把這句定義給綠化成功了(請叫我綠化小達人)。
修改後的句子:“SITC分類規定的相同組别中具有一定生産或消費替代程度的産品的雙向流動”,綠化成功√。我也不知道這樣一改相似度怎麼就降到50%以下了,但是這種思路可以借鑒,就是短句并長句增加分母。同理也可以通過擴句增加分母,其精髓在于用自己的語言稀釋幹貨(注水綠化法),以降低相似度。如“A導緻了B”改成“C帶來的A導緻了D現象的産生最終造成B的結果”,其中C和D可以扯得越長越好,這樣句子相似度會大大降低。
3.長句分解為短句棄卒保帥
總有些專業詞組幾乎不可能修改,而且在句子中占的比重過大,需要戰略性地放棄修改這些部分,把他們獨立成一個短句分離出去以方便後面句子的綠化工程。例如:
Nuno 和Faustino(2009)運用面闆數據模型對葡萄牙和金磚國家貿易中的産業内貿易水平影響因素進行的實證分析表明,一國資源禀賦的數量與該國産業内貿易發展程度存在負相關性。
這個長句子開頭部分的“Nuno 和Faustino(2009)...”一堆字符是無法改變的(名字換成中文也同樣被人寫過了),非常占空間,即便把後面的内容加長很多也很難把整個句子的相似度降到50%以下。這個時候可以放棄小部分的降重,把前半句改成獨立的句子“Nuno 和Faustino(2009)同樣對IIT影響因素進行了研究。”後面也改寫成獨立的句子“他們應用面闆數據模型進行的實證研究發現,在葡萄牙與金磚國家的雙邊貿易中,初始的自然資源對該國對外貿易的IIT指數具有負面的影響效應”。這樣雖然前面的句子依然重複,但是舍棄了大段無法改變的重複字符後,後面的句子就有了被綠化的可能,整體的重複率還是會降低。
4.無可救藥型直接删去
下面這個紅色的句子估計被無數人用過了,大家也很可能已經嘗試過用各種姿勢♂綠他,于是知難而退,索性直接删掉,也不影響文章的意思。
四、經驗總結
總之在線改重功能非常好用,但是仍存在該網站和知網查重率不一緻的問題,在一些情況下查重率偏差很大。
重複率有差異的原因主要在兩處:一是算法嚴格程度差異;二是網站背後的數據庫大小差異。知網本科論文查重與其他網站的最大區别在于知網pmlc有【大學生論文聯合對比庫】,這個數據庫收錄了各學校曆年的畢業論文。如果大量引用被知網數據庫收錄而未被其他網站收錄的語段,那麼在其他網站檢測出的重複率就會顯著低于知網重複率。但是如果主要内容都是自己認真寫的,那麼知網查重結果和其他網站結果不會有太大差别。事實上由于其他網站為了彌補數據庫較小的問題,通常會采用更加嚴格的算法使重複率往接近知網的方向修正,因此認真寫的論文在知網的重複率很可能比其他網站更低。(案例A:某同學前幾天私信我說paperpass重複率39%,但是他說自己真的是認真寫的。我就建議他在學校知網上試一次,結果出來竟然是6.9%(當然在用知網查之前他自己也修改過一些)!這說明在某些情況下paperpass的算法過于嚴格)相信大多數同學還是堅持原創,那麼用paper系列肯定能滿足需求了,降到5~10%不是什麼難事。
對于大量借鑒的同學來說,在paper系列網站在線改重也是有幫助的。上面的降重技巧也同樣可借鑒。
,