(一)研制背景
國內外學術界存在的學術誠信危機現現象
近年來惡劣學術不端事件時有發生,給整個學術界的聲譽造成了極壞的影響。學術界長期形成的科學、誠實、追求真理的象牙之塔的形象受到社會大眾的質疑。有人認為學術界本來是社會道德的最后一道防線,可惜,現在這最后一道防線已經被攻破,學術界面臨前所未有的學術誠信危機。
清華大學***教授偽造個人學術成果、北京大學***教授著作涉嫌抄襲他人作品、中國政法大學***教授涉嫌論文抄襲以及漢芯偽造研究成果等媒體曝光事件,無不撕扯著學人們的脆弱的心。這些事件不但發生在學界,而且涉及全國最著名的學術研究機構,有的甚至涉及科學院、工程院院士,經媒體報道后,產生的殺傷力是可想而知的。同時,人們還一致認可這樣的觀點,即目前曝光的只是冰山的一角。
學術不端的問題不僅在中國,在世界范圍內,同樣是一個令學界頭痛不已的學界“腫瘤”。如2002年曝光的簡•亨德里克•舍恩造假事件[1], 簡•亨德里克•舍恩在世界著名的貝爾實驗室工作,他先后在《科學》和《自然》等世界第一流學術期刊上發表十幾篇論文,被認為是未來的諾貝爾獎得主。然而同行們卻無法重復他的實驗結果,因為他實質上是個造假天才。
還有大家都知道的“韓國黃禹錫造假事件”。韓國首爾大學教授黃禹錫及其合作者在“干細胞”研究中存在假造論文,編造實驗結果等問題,結果名譽掃地,最終被撤銷教授職務并辭退。
學術誠信引起各國政府及管理部門的高度關注
為了能有一個良好的學術環境,學術界已經開始行動,同時也引起國際國內有關政府部門的高度關注。世界主要學術大國或大的學術機構大都成立了有關科研誠信的管理機構。如美國的NSF。我國科技部于2006年發布11號部長令,2007年在科技部成立“科研誠信管理辦公室”。科技部聯合教育部、中國科學院、中國工程院、國家自然科學基金委員會、中國科學技術協會等部門,成立科研誠信建設聯席會議及科研誠信咨詢委員會。
教育部發布了《關于加強高等學校學術道德建設的意見》、《關于樹立社會主義榮辱觀,進一步加強學術道德建設若干意見》等一系列文件。科學院與工程院分別發布了院士科研道德自律行為準則。2005年3月,國家自然科學基金委監督委員會發布了《對科學基金資助工作中不端行為的處理辦法(試行)》。
學術不端行為涉及到學術活動的全過程,包括學術研究、學術出版、項目申報、成果鑒定、職稱評定、研究生培養等諸多環節。目前,在世界范圍來看,發現與規范學術不端現象,主要還是靠教育與個人舉報,缺乏有效的技術輔助手段,同時由于涉及到各種復雜的經濟利益,導致往往投入巨大,成果甚微,甚至于出現“愈演愈烈”的趨勢。無論是期刊出版界、大學、研究院所、還是出版主管部門、科研主管部門、教育主管部門都迫切需要一個高效的技術措施來幫助管理部門來檢查與懲治學術不端現象。
博士、碩士研究生教育是培養高層次科技人才的重要手段。研究生的教育質量是關系到科教興國戰略能否得到實施的關鍵。十年樹木,百年樹人。要想從根本上遏制學術不端行為,還要從學生時代樹立正確的科學觀與誠信觀。目前,研究生培養過程中存在的學術不端行為異常嚴重,卻未能得到有關方面的高度重視。在”愛護與保護”的帽子下,使得研究生培養中的誠信問題越演越烈。千里之堤,潰于蟻穴。建筑科研誠信的萬里長城,必須從研究生乃至大學生教育開始。 研究生培養中涉及到學術不端行為的主要方面。如期刊論文發表、學術會議論文、參加科研項目,最后學位論文撰寫與答辯等過程。在這些環節中都涉及到各種誠信問題。
遏制學術不端行為的有效措施
學術文獻不端現象是重要的學術不端行為之一,文本復制(抄襲)是學術不端文獻的重要特征。在上世紀70年代,就已經開始計算機程序復制的檢測研究工作。90年代后,隨著互聯網技術的發展,信息內容迅速增多,復制粘貼變得越來越容易與普遍。隨著內容管理與版權保護的需要,文本復制的檢測研究也得到進一步發展,陸續提出數字指紋、VSM等檢測方法[2]。目前國外已經有一些系統在提供使用。如論文作業抄襲檢查平臺TurnItIn,由 iParadigms開發,已經應用于多所高校及科研機構,包括美國加州大學伯克利分校、杜克大學、德國漢堡大學等。 由CrossRef與iParadigms共同開發的抄襲檢測平臺CrossCheck,于2008年6月19日正式啟動。 Thomson和Elsvier宣布將應用CrossCheck進行投稿論文檢測。加拿大Sciworth公司開發的MyDropBox,提供學生作業抄襲檢測服務。MyDropBox使用Microsoft搜索技術,可以檢測互聯網資源、可公共存取的部分數據庫資源(PubMed、FindArticles等)以及機構內部文檔[3]。
中國學術“學位論文學術不端行為檢測系統”
中國學術從2006年開始正式立項研發學術不端文獻檢測系統。在三年的工作中,歷經算法研究、原型系統開發、大規模數據測試、性能測試、系統集成測試等多個階段的艱苦工作,目前已經達到大規模實用化的成熟程度。
(二)研發目標與要求
定義
“學位論文學術不端行為檢測系統”(簡稱“TMLC”)主要為檢測研究生培養過程中,研究生學術論文發表及學位論文中出現的不端行為提供輔助工具。
研發目標
研究生培養階段是學術不端行為的第一次誘發期與躁動期。在這一時期,一方面要對其加強科研誠信教育,同時采取技術措施對非誠信行為進行監督,將不良的學術風氣扼殺在搖籃之中,不僅對于提高研究生培養質量,而且對于整過學術環境的凈化都會起到根本性的作用。如果不能從研究生培養環節遏制學術不端行為,大批帶有不端治學態度的研究生畢業后,不斷涌入各級研究機構,不端行為就將形成“長江之水,滔滔不絕”,就不能從根本上扭轉不端行為不斷惡化的事態。
TMLC系統要能夠達到實用化要求,還必須要滿足以下條件:
1、比對庫及資源范圍廣
TMLC系統的檢測范圍要能夠基本完整覆蓋中文科技學術文獻。TMLC系統比對庫的完整性是其能夠實用化的基本保障。完整性不僅表現在僅僅收錄學位論文的全面,并且還要盡可能涉及學術文獻其他領域,比如科技期刊、會議、報紙、、專利、標準等文獻資源,并且還要求有較長時間階段的回溯。否則,無法對檢測結果做出正確有效的判斷與決策。
2、檢測識別精準快捷
TMLC系統要有較高的不端文獻識別能力。對于各種不端文獻類型均有較好的分辨能力。檢測能力與水平是TMLC實用的關鍵。存在不端問題的文獻一定要能夠檢測出來,同時不能誤檢出大量沒有問題的文獻。即要有較高的檢測正確率與較低的誤檢率。
3、實現全文比對
TMLC必須能夠支持全文比對。幾乎所有國外有關檢測系統只進行題錄摘要層次的檢測,但科技成果最終的體現表現在文獻的文字闡述當中,如果實現全文比對,則能更加精準判斷學術不端現象,才能達到大規模實用的要求。
4、支持線上實時檢測
TMLC系統要能夠進行在線實時檢測。即系統要有較好的技術性能。鑒于檢測需要進行大量的運算,國際上已有檢測系統一般對實時檢測大都支持的不好,尤其在文章較長時更是如此。TMLC系統要能夠同時支持待檢超長文獻檢測與超長文獻進入比對數據庫。
(三)學術不端文獻分類
學術不端行為的劃分是一個政策性極強的工作,同時也涉及許多法律問題。迄今位置,國內外還沒有一個被廣泛接受的標準。
我國學術不端行為的表現形式(此處列出中國科協科技工作者道德與權益工作委員會提出的我國學術不端行為的七種表現形式,以供參考)
*抄襲剽竊他人成果。
*偽造篡改實驗數據。
*隨意侵占他人科研成果。
*重復發表論文。
*學術論文質量降低和育人的不負責任。
*學術評審和項目申報中突出個人利益。
*過分追求名利和助長浮躁之風。
學術文獻不端行為具體表現形式
實際上,學術不端行為存在于學術活動的全過程。學術文獻出版中的不端學術文獻由于其公開性,被廣泛傳播,以及發表后可能會引展出的一系列問題,使其與其他不端類型相比,更尤其嚴重。學術不端文獻的特征分析是其計算機自動檢測的基礎。學術期刊論文發表中學術不端文獻可以大致分為以下五種:
*抄襲
*一稿多投
*一個學術成果多篇發表
*不當署名
*偽造、篡改。
1. 抄襲
《辭海》關于抄襲解釋:“竊取別人的文章以為己作”。關于剽竊的解釋為:“抄襲,竊取他人的文字以為己作”。可見,抄襲與剽竊為同義語。通常認為學術抄襲就是:使用他人作品的內容而“不注明來源”,即不承認該內容來源于他人的作品,而把他人作品的內容據為已有。可以看出,抄襲是一種復制行為,然而復制不都構成抄襲。如合法的轉載不能認為是抄襲。
是否注明來源就不構成抄襲呢?世界各國著作權法中都規定了合理引用的權利。如為評論而引用有版權的作品視為合理引用。我國著作權法規定:“為介紹、評論某一作品或者說明某一問題,在作品中適當引用他人已經發表的作品”視為合理使用。王毅在《論抄襲的認定》[4]一文中指出“合理性”的三個重要特征:“新作必須區別于原作”;“新作必須獨立于原作”;“原作的引用必須適宜于新作”。
有的文獻大段大段的復制別人的內容,雖注明了出處,是否不構成抄襲?然而目前未有關于引用數量的一致意見。據國外專家介紹,對于期刊論文,認為有超過10%的內容相同,即構成抄襲。還有專家要求更嚴,甚至不能有完全相同的句子。根據我國的實際情況以及中文的特點,我們認為以期刊論文為例,如有30%以上的文字復制可以認定為抄襲。
為便于識別抄襲,我們從抄襲的形式上可以將其進一步分類。如可以分為文字抄襲與非文字抄襲。文字抄襲,就是拷貝粘貼別人作品的文字內容。非文字抄襲又可分為思想性抄襲與數據圖表抄襲。抄襲別人的論點、概念、原理、方案等都屬于思想性抄襲。根據抄襲來源可以分為只抄襲一篇文章的單源抄襲與從多篇文章中拼湊的多源抄襲。根據抄襲段落的特點可以分為抄襲同一段落的單段抄襲與抄襲多個段落的多段抄襲。
抄襲有一個很有趣的現象,就是被抄襲源有時也是抄來的,因此有時需要追根溯源,才能查到抄襲源頭。有時會發現正常引用的文獻卻是抄襲來的。 還有一種情況是自我抄襲。在學術文獻中,存在大量學者在自己的文章中大量復制自己其他文章中的內容。自我抄襲應引起足夠的重視。
2. 一稿多投
同一作者將同一篇論文投給兩家或兩家以上學術刊物同時發表或先后發表稱為一稿多投。一稿多投浪費了有限的出版資源、編輯與審稿專家的寶貴時間,違反了學術傳統,侵害了期刊社的專有出版權。同時也損害了期刊的聲譽與讀者的利益。
由于作者與編輯部之間的溝通問題,導致完全相同的文章,幾乎相同時間在不同的媒體上重復發表是一種客觀的一稿多投。客觀的一稿多投雖然其主觀惡意較少,但不容忽視。
作者由于追求發表量而故意一稿多投是一種主觀的一稿多投行為。其特點為:內容大部分相同,只有局部不同,如行文次序調整,或文章名稱略有不同,在不同媒體上重復發表。
判斷一稿多投的基礎是能夠確定作者是相同或是不同的。只有相同的作者才有一稿多投問題,否則就是抄襲。
3. 一個學術成果多篇發表
一個學術成果多篇發表是指將一篇論文拆成幾篇發表、一次性成果多次反復使用、同一成果被拆分成多篇文章發表、同一實驗被分成多種角度闡發。其主要特點是作者相同,多篇文章主題完全相同,內容大部分重復,只有少部分不同。 一個學術成果多篇發表是作者過度追求發文量的必然結果。其結果是既降低了學術質量,也損害了讀者的利益。
4. 不當署名
在他人作品上署名。包括故意署名與被動署名兩種情況。前者是署名者未參加有關研究工作卻為了某種目的故意在別人作品上署名,或侵占他人成果,使應該署名者不能署名或署名靠后,或提高署名者的成果數量。后者是指原作者為了提高作品的評價或發表機會擅自在作品上署上知名作者的姓名。
不當署名情況相當嚴重,然而目前卻缺少很好的技術手段精確檢測。目前TMLC系統對前三種情況均可以較好的處理,但對于不當署名還只能提供一些線索供參考。
不當署名的存在有其復雜的社會因素。如導師在學生的成果上署名,領導在下屬的成果上署名,集體成果的署名等,有時就連專家也難以判定。
5. 偽造、篡改
偽造就是不以實際觀察和試驗中取得的真實數據為依據,偽造虛假的觀察與實驗結果。包括偽造研究數據,研究結果。比如虛構發表作品、專利、成果。為了提高文章發表機會甚至有人偽造論文獲得國家重點基金資助。
篡改指科研人員在取得試驗數據后,按照期望值隨意篡改或取舍數據,以符合自己的研究結論,一般有主觀取舍數據和篡改原始數據等形式。
偽造與篡改目前還難以用計算機來自動檢測。
學位論文學術不端行為具體表現形式
學位論文本身主要的問題在抄襲、偽造與篡改,沒有一稿多投、一個學術成果多篇發表、不當署名等問題。但通常,作為學位論文工作的一部分,許多學生還被要求發表若干期刊文章,才能獲得學位。因此,一個全面的學位論文的檢測工作還必須包括有關的期刊文獻的檢測。
(四)TMLC系統主要建設任務
TMLC系統建設是一個系統工程,涉及檢測方法設計、比對數據庫建設、規范數據庫建設、大規模數據測試、系統性能測試等多個環節。
檢測系統框架建設
系統主要包括比對數據庫、事實數據庫庫、復制檢測器、事實分析器四個部分。一篇待檢測文章提交到系統后,首先由復制檢測器分析,并將分析結果與比對數據庫中的已有文檔進行文字比對,對于文字復制比例大的可疑文章,再利用事實分析器進行作者、機構、基金、參考文獻等事實的核查分析。最后由專家對機器檢測的情況進行審核并給出最終檢測報告。
比對數據庫建設
比對數據庫是TMLC系統的基礎與核心。一個完善的比對數據庫有如下要求:
首先,元數據必須全面完整。文獻數據收錄的文獻要盡可能的全,著錄信息完整,如準確的作者、機構、出版時間等。
其次,比對數據庫必須是全文數據(文本數字化),否則無法做到全文抄襲比對檢測。
第三,更新必須及時。如果新文獻更新滯后時間過長,就無法保證檢測結果的正確性。
規范文檔事實數據庫建設
無論是抄襲、一稿多投,還是不當署名、一個成果多次發表都需要嚴格界定作者的身份,因此,學者規范事實數據庫就成為不端文獻檢測系統的不可或缺的重要資源。它用于確認作者唯一性,甄別自抄、抄襲等。
由于存在機構改名、更名、合并等多種復雜的機構變更情況,因此必須要有機構規范數據庫用于確認成果歸屬,確認作者。同樣,出版物規范數據庫可以很好的處理期刊更名、改名、合并等情況,確認引用關系。通過引文數據的規范,進而可以用于區分引用性復制與抄襲。
規范文檔事實數據庫可以廣泛應用于評獎、評價、鑒定、項目驗收、項目申報、論文發表等各個方面的相關審核工作。
中國學術的工作基礎
中國學術經過多年的努力工作,完成了中國學術文獻網絡出版總庫建設。建成《中國學術期刊網絡出版總庫》(從1915-今,7000種期刊),《中國優秀博碩士學位論文數據庫》,《中國重要會議論文數據庫》,《中國重要報紙數據庫》,《中國專利數據庫》,《中國標準數據庫》,《中國科技成果數據庫》,《中國工具書數據庫》等。超過5000萬數據。
同時,已初步建成事實規范數據庫。完成中國科研機構名稱規范數據庫(70萬),作者名稱規范數據庫(300多萬),期刊信息規范數據庫(9000)。
(五)TMLC系統主要檢測指標
學位論文一般文獻篇幅較大,字數多,碩士論文一般為4~5萬字,博士論文則多達十幾萬字。為了便于快速準確的分析待檢文獻與比對文獻的復制關系。系統設計了多個檢測指標,這些指標從多個角度反映文字復制的特征,供專家審核參考。
總檢測指標
總重合字數(CCA)
總文字復制比(TTR)
總文字數(TCA)
疑似章節數(QCA)
總章節數(TCA)
首部重合文字數(HCCA)
尾部重合文字數(ECCA)
子檢測指標
對于學位論文的每一章節,又制定了如下檢測指標來反映該章節的檢測情況,對于一篇學位論文來說,每一章的內容各異,重點也不一樣,其核心工作內容一般主要存在某幾章中,子檢測指標可以讓用戶迅速了解每一章節的檢測情況。子檢測指標包括:
文字復制比(TR)
重合字數(CNW)
最大段長(LPL)
平均段長(APL)
段落數(PN)
段文字比(PR)
首部復制比(HR)
尾部復制比(ER)
引用復制比(RR)
上述指標從多個角度反映了檢測文獻的檢測情況,便于用戶進行針對性審核。下面對各項指標分別進行說明。
系統檢測比對數據
目前系統支持在《中國學術網絡出版總庫》與用戶自建數據庫檢測。《中國學術網絡出版總庫》包括:
《中國學術期刊網絡出版總庫》
《中國博士論文網絡出版總庫》
《中國優秀碩士論文網絡出版總庫》
《中國報紙全文數據庫》
《中國專利全文數據庫》(學術版)
《中國科技成果數據庫》(學術版)
《中國年鑒網絡出版總庫》
《中國工具書數據庫》
《中國標準數據庫》(學術版)
學位論文不端行為檢測范圍
通常,研究生除去完成學位論文外,還要完成發表一定數量的期刊論文或會議論文,才能得到學位授予。一般研究生會獨立發表或與導師一起發表期刊論文,這些論文有些是學位論文工作的一部分。
因此,對一個學位論文工作進行檢測,可能涉及到幾個方面并且不端行為的檢測是一項政策性非常強的工作,必須采取技術檢測加專家審核的辦法。
*學位論文的檢測。
學位論文檢測是最核心的檢測工作。由于學位論文篇幅較長,通常在5-10萬字之間,為便于工作,我們將一篇學位論文按章節分開比對。給出每一章節的檢測結果,再給出總體指標。
由于學位論文體例的要求,論文含有大量的綜述性內容。這些內容的抄襲認定,必須慎重。尤其是要和參考文獻核對。一般認為,凡在文章注明出處的,在一定數量之內的文字可以視為合理引用。最后要以專家審核的結果為準。
由于學位論文中的部分工作通常會在期刊上發表,一定注意要排除其本人的期刊論文。
*培養期間發表的期刊論文的檢測
許多學位培養單位要求研究生發表一定數量的期刊文章,這些文章應視為學位工作的一部分。顯然,應對這些文章進行檢測。
*學習開始前的論文工作的檢測
現在,部分研究生培養單位,在招生簡章中要求參加考試的研究生有一定的論文發表,或是報考博士的原來已經取得過碩士學位。因此,還應對之前發表的期刊論文、碩士論文進行一定的檢測。這部分工作可以對入學的研究生起到一個篩選的最用。
結語
TMLC系統經過大規模數據測試后,針對中文學位論文中的不端文獻已經具有較好的檢測能力,達到了大規模實用的成熟程度。鑒于我國學術不端文獻的實際情況,還需繼續開發能夠檢測英文學術不端文獻以及從英文翻譯為中文的不端文獻,同時比對數據庫應同時擴展到英文數據庫與互聯網文獻,事實數據庫也應同步擴展,并建立中英文對照的規范數據庫。因此,進一步的研發工作還很多,希望TMLC系統能夠在實際應用中不斷得到完善。
以上就是關于“詳細介紹學位論文學術不端行為檢測系統”了,想了解更多怎樣查重論文的知識,請持續關注學術不端論文查重網,學術小編會為大家收集更多的學術論文知識哦。