python学习文本特征提取(一) DictVectorizerDictVectorizer对使用字典储存的数据进行特征提取与向量化

228 阅读 0 评论 151 点赞

我是靠谱客的博主爱笑铃铛，这篇文章主要介绍python学习文本特征提取(一) DictVectorizerDictVectorizer对使用字典储存的数据进行特征提取与向量化，现在分享给大家，希望可以做个参考。

文章系列：

python学习文本特征提取(一) DictVectorizer shuihupo
python学习文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理
python学习文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试

DictVectorizer对使用字典储存的数据进行特征提取与向量化

python3

处理字典数据

# 定义一组字典列表，用来表示多个数据样本（每个字典代表一个数据样本）。
measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'temperature': 18.}]
# 从sklearn.feature_extraction 导入 DictVectorizer
from sklearn.feature_extraction import DictVectorizer
# 初始化DictVectorizer特征抽取器
vec = DictVectorizer()
# 输出转化之后的特征矩阵。
print(vec.fit_transform(measurements).toarray())
# 输出各个维度的特征含义。
print (vec.get_feature_names())
# 定义一组字典列表，用来表示多个数据样本（每个字典代表一个数据样本）。
measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'temperature': 18.}]
# 从sklearn.feature_extraction 导入 DictVectorizer
from sklearn.feature_extraction import DictVectorizer
# 初始化DictVectorizer特征抽取器
vec = DictVectorizer()
# 输出转化之后的特征矩阵。
print(vec.fit_transform(measurements).toarray())
# 输出各个维度的特征含义。
print (vec.get_feature_names())