中央研究院-現代漢語平衡語料庫 Academia Sinica Balanced Corpus of Modern Chinese

中央研究院現代漢語標記語料庫３.０版簡介

「中央研究院現代漢語語料庫」（簡稱「研究院語料庫」(Sinica Corpus)）是專門針對語言分析而設計的，每個文句都依詞斷開，並標示詞類。語料的蒐集也盡量做到現代漢語分配在不同的主題和語式上，是現代漢語無窮多的語句中一個代表性的樣本。

這個語料庫是由中央研究院資訊所、語言所詞庫小組完成的。該小組由陳克健(資訊所)、黃居仁 (語言所) 兩位研究員主持，自一九九０年前後便開始致力於漢語語料的蒐集。於一九九一年得蔣經國基金會補助，開始構建語料庫；並於一九九四年分別得到中央研究院「中文資訊」跨所研究群專案計畫及國科會計畫補助，正式開始進行語料標誌。一九九五年七月完成第一版(兩百萬詞)，一九九六年十一月經計算中心設計規劃完成ＷＷＷ版，開放供各界使用(On www since November 1996) 。並於一九九七年完成3.0版，約五百萬詞。

語料庫依照各主題其詞類、字數和篇數如下：

主題加總的詞數加總的字數篇數

文學 777050 1169801 1385

生活 858750 1398791 2301

社會 1610997 2711720 3246

科學 629838 1054738 994

哲學 439955 673080 695

藝術 474340 781415 518

空白 101394 160306 89

加總結果 4892324 7949851 9228

如欲更進一步了解語料庫的內容，請參考中央研究院資訊所、語言所詞庫小組所編技術報告第 95-02/98-04號「中央研究院漢語料庫的內容與說明」。

若有錯誤指正或改良建議等歡迎寄電子郵件至 yuehyin 施悅音小姐

施悅音小姐

		語言所	資訊所	計算中心	版權聲明
中央研究院語言所版權聲明

主題	加總的詞數	加總的字數	篇數
文學	777050	1169801	1385
生活	858750	1398791	2301
社會	1610997	2711720	3246
科學	629838	1054738	994
哲學	439955	673080	695
藝術	474340	781415	518
空白	101394	160306	89
加總結果	4892324	7949851	9228