banner
hughie

hughie

热爱技术的小菜鸟, 记录一下所学所感

HanLP- プロダクション環境向けの多言語自然言語処理ツールキット

序文#

​ この記事では、HanLP について簡単に紹介します。

​ HanLP は、多言語の自然言語処理ツールキットであり、中国語とピンインの簡繁変換、テキスト処理、および意味関連の分析をサポートしています。

17-hanlp


本文#

1. HanLP とは#

HanLP は、生産環境向けの多言語自然言語処理ツールキットであり、中国語の単語分割、品詞タグ付け、固有名詞認識、依存構文解析、成分構文解析、意味依存解析、意味役割タグ付け、照応解消、スタイル変換、意味の類似度、新語の発見、キーフレーズの抽出、自動要約、テキスト分類クラスタリング、ピンインの簡繁変換など、さまざまなタスクをサポートしています。HanLP は、機能が充実し、精度が高く、パフォーマンスが高く、最新のコーパスを使用しており、アーキテクチャが明確で、カスタマイズ可能な特徴を備えています。

2. HanLP の機能#

HanLP は、機能が充実し、精度が高く、効率が高く、コーパスが更新され、構造が明確で、カスタマイズ性が高いという特徴を持っています。世界最大の多言語コーパスのサポートを受けて、HanLP 2.1 は 130 の言語(簡体字中国語、繁体字中国語、英語、日本語、ロシア語、フランス語、ドイツ語を含む)の 10 の共同タスクと複数の単一タスクをサポートしています。HanLP は、数十のモデルを数十のタスクに対して事前トレーニングし、コーパスとモデルを継続的に改善しています。

3. HanLP の使用とトレーニング#

HanLP は、RESTful API とネイティブ API の 2 つを提供しており、軽量なシナリオと大規模なシナリオに対応しています。どの API や言語を使用しても、HanLP のインターフェースは意味的に一貫しており、コードはオープンソースを守っています。CPU で実行することもできますが、GPU/TPU を推奨します。PyTorch 版のインストール方法:ネイティブ API の入力単位は文であり、多言語のセンテンスモデルまたはルールベースのセンテンス関数を使用して、事前にセンテンスを分割する必要があります。RESTful API とネイティブ API の意味設計は完全に一致しており、ユーザーはシームレスに切り替えることができます。

ネイティブ API は、ローカルの Python で実行されます:

# pip install hanlp
import hanlp
HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH)
# 必要なタスクに応じて、tokを使用して単語分割、nerを使用して固有名詞認識など、各タスクには複数のモデルがあり、異なる自然言語の標準セットに対応しています
hanlp_outs = HanLP(t, tasks=['tok/fine','ner/msra'])

4. 結論#

最近、関連するサブタスクの処理中に HanLP を研究し、その幅広い機能と優れたパフォーマンスに気付きました。ただし、特定のプロジェクトに基づいたパラメータの調整が必要です。

それにもかかわらず、ChatGPT のリリース以来、伝統的な NLP プロジェクトは明らかに大きな影響を受けています。基本的に、ChatGPT は伝統的な NLP が行うことができるタスクを実行できるだけでなく、より簡単で多機能です(NLP の人々は困っています)。

それにもかかわらず、伝統的な NLP にはまだその用途があり、さまざまな理由から、すべてのプロジェクトが ChatGPT や他の LLM を利用できるわけではありません。


最後に#

参考記事:

公式ウェブサイト


免責事項#

この記事は個人の学習記録として作成されました。

この記事はHBlogと同期しています。

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。