古漢語標記語料庫

版權宣告 使用限制 檢索系統使用簡介 「自訂語料庫」使用說明
「內容檢索」使用說明 「進階處理」使用說明 顯示畫面使用說明 畫面轉換使用說明
附錄一:詞類標記表 附錄二:特徵標記表 重新開始檢索 回首頁


「進階處理」使用說明

本介面提供一些功能將檢索出來的資料作處理,而且處理出來的語料可以再次處理,形成一層又一層的語料。
本介面所提供的功能有以下五種: 一、排序:檢索出來的資料是依照在語料庫中的次序來排列,透過排序功能可以調整語料排列順序,更方便觀察或比較; 二、詞類累計:若想對語料的語法特性作更進一步的觀察,可以利用此功能統計每種詞類出現的次數; 三、過濾:檢索出來的資料可能很龐雜,可以利用本功能作更進一步的篩選; 四、collocation統計:本功能提供統計數據來表示關鍵詞和前後的詞或詞類一起出現的機率; 五、畫面切換:可以隨時跳換到「自訂語料庫」、「內容檢索」重新檢索,或進入每一層語料顯示畫面。
每一次跳入本介面都是以「排序」為預設功能。
  1. 排序:以本次檢索結果為範圍,依照設定對象及依據將資料依次排列。

    將滑鼠移到「排序」前的圈圈,按一下。

    • 設定對象:排序的對象只有三種:關鍵詞、關鍵詞左邊、關鍵詞右邊。
      • 關鍵詞:依照關鍵詞排序。
      • 關鍵詞左邊:依照關鍵詞左邊第一詞排序。
      • 關鍵詞右邊:依照關鍵詞右邊第一詞排序。
      設定對象可以有三項,並有先後順序,分別鍵入「首先依」、「其次依」、「最後依」右方的框框內。
    • 排序依據:排序的依據只有三種:詞首、詞尾、詞類。
      • 詞首:依照設定對象的詞首排序。
      • 詞尾:依照設定對象的詞尾排序。
      • 詞類:依照設定對象的詞類排序。
    • 刪除重複:依設定對象和依據排序後,刪除上下行重複的資料。
    • 範例:
      • 如果設定「依關鍵詞的詞首/尾排序」,則相同的關鍵詞會排在一起。若設定「刪除重複」,則相同的關鍵詞只取一筆;
      • 如果設定「依關鍵詞的詞類排序」,則關鍵詞帶有相同詞類會排在一起。若設定「刪除重複」,則關鍵詞每一種詞類都只取一筆;
      • 如果設定「首先依關鍵詞的詞首/尾排序」及「其次依關鍵詞右邊的詞首/尾排序」,則相同的關鍵詞且右邊詞也相同會排在一起。若設定「刪除重複」,則每一組排在一起的相同資料只取一筆;
      • 如果設定「依關鍵詞的詞類排序」及「依關鍵詞右邊的詞類排序」,則帶有相同詞類的關鍵詞及右邊詞都帶有相同詞類會排在一起。若設定「刪除重複」,則每一組排在一起的相同資料只取一筆;
      • 如果設定「依關鍵詞的詞首/尾排序」及「依關鍵詞右邊的詞類排序」,則相同關鍵詞且右邊詞帶有相同詞類會排在一起。若設定「刪除重複」,則每一組排在一起的相同資料只取一筆。

    對象和依據都設定好了,也決定要不要刪除重複之後,將滑鼠移到「執行」按下。

    可以隨時按「清除」欄,清除方才所設定的資料。

  2. 詞類累計:以本次檢索結果為範圍,統計關鍵詞及其前後語境內不同詞類出現次數。

    將滑鼠移到「詞類累計」前的圈圈,按一下。

    範圍設定:詞類累計可以針對關鍵詞本身進行,也可以針對關鍵詞的前後幾個詞作。範圍可大可小,在「範圍 起:」以及「範圍 迄:」兩欄設定。預設值為關鍵詞本身。若果要放寬或改變語境範圍,將滑鼠移到「範圍 起:」以及「範圍 迄:」右方的框框內,輸入數字(0表示關鍵詞本身,-1表示關鍵字左方一個詞,+1表示關鍵字右方一個詞,範圍以不超過十個詞為限)。
    範圍設定好了之後,將滑鼠移到「執行」按下。

    可以隨時按「清除」欄,清除方才所設定的資料。

  3. 過濾:以本次檢索結果為範圍,依照設定條件和範圍作過濾。
    • 條件設定:和檢索條件相同,包含詞、重疊詞、詞類、特徵四種條件。 請參看「主畫面使用說明」。
    • 取或不取:依照設定的條件「挑出」語料或依照設定的條件「去除」語料。預設條件是依照設定的條件「挑出」語料。
    • 反條件:如果要依照設定的條件「去除」語料,則將滑鼠移向「反條件」前的方框框按下,框框內出現叉號即可。
    • 範圍設定:過濾可以針對關鍵詞本身進行,也可以針對關鍵詞的前後幾個詞作。範圍可大可小,在「範圍 起:」以及「範圍 迄:」兩欄設定。預設值為關鍵詞本身。若果要放寬過濾範圍,將滑鼠移到「範圍 起:」以及「範圍 迄:」右方的框框內,輸入數字(0表示關鍵詞本身,-1表示關鍵字左方一個詞,+1表示關鍵字右方一個詞,範圍以不超過十個詞為限)。

    可以同時給兩種不同的過濾條件,分別在「條件一」「條件二」設定。

    • 如果設定的範圍是「0」到「0」,即關鍵詞本身,則直接在「條件一」設定關鍵詞本身的條件。
    • 如果設定的範圍是「-x」到「0」,則「條件一」是關鍵詞左邊諸詞的條件,而「條件二」是關鍵詞本身的條件。
    • 如果設定的範圍是「0」到「x」,則「條件一」是關鍵詞本身的條件 ,而「條件二」是關鍵詞右邊諸詞的條件。
    • 如果設定的範圍是「-x」到「y」,則「條件一」是關鍵詞左邊諸詞的條件,而「條件二」是關鍵詞右邊諸詞的條件。

    條件和範圍設定好了之後,將滑鼠移到「執行」按下。

    可以隨時按「清除」欄,清除方才所設定的資料。

  4. collocation統計:以本次檢索結果為範圍,計算關鍵詞與其語境內所含詞或詞類間的共現率(collocation)。共現率是以互見訊息值(MI值:mutual information value)為準則。互見訊息值表示兩個單位同時出現的機率,值越高,表示共現率越高;反之,值愈低,表示共現率越低。
    ※collocation統計只有在沒有過濾任何資料的清況下才能做出有效數值。所以作collocation統計前,不能進行過濾的工作。因此若要作collocation,必須在主畫面就指定所有限制。

    將滑鼠移到「collocation」前的圈圈,按一下。

    • 條件設定:包含「詞及詞類」、「詞」、「詞類」三種條件。
      • 「詞及詞類」視扮演不同詞類的同一個詞為不同的統計單位。
      • 「詞」表示只統計詞和關鍵詞之間的互見訊息值,相同的詞但是扮演不同詞類也視為同一個統計單位。
      • 「詞類」表示只統計詞類和關鍵詞之間的互見訊息值,相同的詞類但是詞不同也視為同一個統計單位。

    • 範圍設定:collocation統計是針對關鍵詞和關鍵詞的前後幾個詞作。範圍不可以只設定在關鍵詞(即「範圍 起:」以及「範圍 迄:」兩欄不可以都設定為0),也不可以不包括關鍵詞(即「範圍 起:」和「範圍 迄:」兩欄所設數值不可以不橫跨0)。範圍在「範圍 起:」以及「範圍 迄:」兩欄設定。預設值為關鍵詞本身,一定要更動。將滑鼠移到「範圍 起:」以及「範圍 迄:」右方的框框內,輸入數字(0表示關鍵詞本身,-1表示關鍵字左方一個詞,+1表示關鍵字右方一個詞,範圍以不超過十個詞為限)
    • 排序設定:統計的結果可以依照「互見訊息值」排列或依照「詞頻」排列。條件、範圍和排序都設定好了之後,將滑鼠移到「執行」按下。可以隨時按「清除」欄,清除方才所設定的資料。
    • MI的計算:
      I(x,y)=log P(x,y)/P(x)P(y)
                             =log   f(x,y)/N   .
                                          f(x)/N•f(y)/N
      • I:mutual information
      • P:probability
      • N:size of the corpus
      • freq(x):關鍵詞在整個語料庫中出現的次數
      • freq(y):該單位在整個語料庫中出現的次數
      • freq(x,y):關鍵詞和該單位在本次範圍內出現的次數

    • MI的意義:
      • 如果MI大於零,表示關鍵詞和該單位在所設定的範圍寬度間傾向一起出現,值越大,「共現率」越高。
      • 如果MI小於零,表示關鍵詞和該單位在所設定的範圍寬度間傾向「不」一起出現,負值越大,「互斥率」越高。
  5. 畫面切換
    第一次由自訂語料庫和內容檢索畫面檢索出來的語料屬於第一層語料。如果進階處理將該語料縮減,則會形成第二層語料。第二層語料還可以進階處理,形成第三層語料。以此類推,最多可以記錄十層語料。

    畫面上方會有「自訂語料庫畫面」。將滑鼠移到「自訂語料庫畫面」按一下,就會進入自訂語料庫畫面的介面。進入「自訂語料庫畫面」表示要重新檢索資料,目前的語料將全部取消。

    畫面上方會有「內容檢索畫面」。將滑鼠移到「內容檢索畫面」按一下,就會進入內容檢索畫面的介面。進入「內容檢索畫面」表示要重新鍵入新的檢索條件值,之前所鍵入的檢索條件值將消失,檢索資料的範圍,則仍是之前所自訂的語料庫。

    畫面上方有「上層結果」、「本層結果」或「下層結果」。將滑鼠移到「上層結果」按一下,就會進入上層的語料顯示畫面;將滑鼠移到「本層結果」按一下,就會進入這一層語料顯示畫面;將滑鼠移到「下層結果」按一下,就會進入下層的語料顯示畫面。


                
近代漢語標記語料庫 古漢語素語料庫
中央研究院語言所版權聲明