LangChain
开发由语言模型驱动的应用程序的框架
NLTK(Natural Language Toolkit)自然语言工具包是一套开源的Python模块、数据集和教程,专门用在自然语言处理(NLP)。NLTK提供丰富的工具和资源,包括文本分词、词性标注、句法分析、命名实体识别等。NLTK包含大量语料库和词汇资源,如WordNet,方便用户进行语言学研究和开发。NLTK支持Python版本3.7、3.8、3.9、3.10或3.11,适合从初学者到专业人士的各种用户,广泛应用在学术研究、商业应用和教育领域。NLTK的文档齐全,社区活跃,是学习和实践自然语言处理的绝佳工具。

pip install nltk
import nltk
print(nltk.__version__)
import nltk
nltk.download(‘punkt’) # 分词器
nltk.download(‘averaged_perceptron_tagger’) # 词性标注器
from nltk.tokenize import word_tokenize
text = “NLTK is a powerful library for natural language processing.”
words = word_tokenize(text)
print(“分词结果:”, words)
from nltk import pos_tag
tagged_words = pos_tag(words)
print(“词性标注结果:”, tagged_words)