「中央研究院現代漢語語料庫」 (簡稱「研究院語料庫」(Sinica Corpus))是專門針對語言分析而設計的,每個文句都依詞斷開,並標示 詞類。語料的蒐集也盡量做到現代漢語分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表 性的樣本。
這個語料庫是由中央研究院資訊所、語言所詞庫小組完成的。該小組由陳克健(資訊所)、黃居仁 (語言所) 兩位研究員主持,自一九九0年前後便開始致力於漢語語料的蒐集。於一九九一年得蔣經 國基金會補助,開始構建語料庫; 並於一九九四年分別得到中央研究院「中文資訊」跨所研究群專案計畫 及 國科會計畫補助, 正式開始進行語料標誌。一九九五年七月完成第一版(兩百萬詞), 一九九六年十一 月經計算中心設計規劃完成 WWW版,開放供各界使用(On www since November 1996) 。並於一九九七 年完成3.0版,約五百萬詞。
語料庫依照各主題其詞類、字數和篇數如下:
主題 | 加總的詞數 | 加總的字數 | 篇數 |
文學 | 777050 | 1169801 | 1385 |
生活 | 858750 | 1398791 | 2301 |
社會 | 1610997 | 2711720 | 3246 |
科學 | 629838 | 1054738 | 994 |
哲學 | 439955 | 673080 | 695 |
藝術 | 474340 | 781415 | 518 |
空白 | 101394 | 160306 | 89 |
加總結果 | 4892324 | 7949851 | 9228 |
如欲更進一步了解語料庫的內容,請參考中央研究院資訊所、語言所詞庫小組所編技術報告第 95-02/98-04號「中央研究院漢語料庫的內容與說明」。
中央研究院資訊科學研究所、語言學研究所與計算中心. All Rights Reserved.
若有錯誤指正或改良建議等歡迎寄電子郵件至 yuehyin施悅音 小姐語言所 | 資訊所 | 計算中心 | 版權聲明 | ||
中央研究院語言所版權聲明 |