ページの先頭です
今日ではNatural Language Toolkit(NLTK)にNERが搭載されているので、図-1のようなPythonスクリプトを使って比較的お手軽に固有表現の抽出を試すことができます。
このスクリプトは英文のテキストファイル名を渡すとNERを実行して図-2のような出力をします。
出力は各行単語、品詞、NEタグが表示されています。NEタグの先頭がB-の場合は固有表現の先頭、I-の場合は継続語を意味します。PERSONは人名、ORGANIZASIONは組織名、GSPは"Geo-Socio-Political group"の略です。"Hillary Clinton"や"Donald Trump"が人名として認識されていることが分かります。
次に、もう少し大きなテキストでの事例として「Unix考古学」の執筆でもお世話になったMarshall Kirk McKusickの"Twenty Years of Berkeley Unix"のテキストから人名を抽出してみました(図-3)。
誤認識もありますが、Ken ThompsonやDennis Ritchie、Bill Joyと言った有名人だけでなく、Kirk Mckusick以外のBSD UNIXの開発メンバーであったOzalp Babaoglu、Sam Leffler、Mike Karels、Keith Bosticの名前も正しく認識されています。このように、特定の目的(例えばUNIXの歴史に関するトピック)のために特別なチューニングをしなくても、それなりの精度で固有表現を抽出できるのが、最近の統計的自然言語処理の研究成果なのでしょう。
ページの終わりです