AI python nltk | nltk . token ize . mwe()

python nltk | nltk . token ize . mwe()

原文:https://www . geesforgeks . org/python-nltk-nltk-token ize-mwe/

借助**NLTK nltk.tokenize.mwe()**方法，我们可以将音频流标记为多词表达标记，这有助于使用nltk.tokenize.mwe()方法将标记与下划线绑定。请记住它区分大小写。

语法: MWETokenizer.tokenize() 返回: 返回绑定令牌，就像之前声明的一样。

示例#1 : 在此示例中，我们使用了MWETokenizer.tokenize()方法，该方法用于绑定之前定义的令牌。我们也可以使用tokenizer.add_mwe()方法添加预定义的令牌。

# import MWETokenizer() method from nltk
from nltk.tokenize import MWETokenizer

# Create a reference variable for Class MWETokenizer
tk = MWETokenizer([('g', 'f', 'g'), ('geeks', 'for', 'geeks')])

# Create a string input
gfg = "geeks for geeks g f g"

# Use tokenize method
geek = tk.tokenize(gfg.split())

print(geek)

输出:

['geeks_for_geeks '，' g_f_g']

例 2 :

# import MWETokenizer() method from nltk
from nltk.tokenize import MWETokenizer

# Create a reference variable for Class MWETokenizer
tk = MWETokenizer([('g', 'f', 'g'), ('geeks', 'for', 'geeks')])
tk.add_mwe(('who', 'are', 'you'))

# Create a string input
gfg = "who are you at geeks for geeks"

# Use tokenize method
geek = tk.tokenize(gfg.split())

print(geek)

输出:

['你是谁'，' at '，'极客的极客'

版权属于：月萌API www.moonapi.com，转载请注明出处

本文链接：https://moonapi.com/news/13106.html

AI 查看更多书籍

《GeeksForGeeks 人工智能中文教程 2022-06-21》

分类

最近更新

AI python nltk | nltk . token ize . mwe()

python nltk | nltk . token ize . mwe()

留言

联系客服

数据知识

系统公告

开发文档

AI查看更多书籍

《GeeksForGeeks 人工智能中文教程 2022-06-21》

AI python nltk | nltk . token ize . mwe()

python nltk | nltk . token ize . mwe()

留言

联系客服

AI 查看更多书籍