我是靠谱客的博主 爱笑铃铛,这篇文章主要介绍python学习 文本特征提取(一) DictVectorizerDictVectorizer对使用字典储存的数据进行特征提取与向量化,现在分享给大家,希望可以做个参考。
文章系列:
python学习 文本特征提取(一) DictVectorizer shuihupo
python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理
python学习文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试
DictVectorizer对使用字典储存的数据进行特征提取与向量化
python3
处理字典数据
# 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)。
measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'temperature': 18.}]
# 从sklearn.feature_extraction 导入 DictVectorizer
from sklearn.feature_extraction import DictVectorizer
# 初始化DictVectorizer特征抽取器
vec = DictVectorizer()
# 输出转化之后的特征矩阵。
print(vec.fit_transform(measurements).toarray())
# 输出各个维度的特征含义。
print (vec.get_feature_names())
# 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)。
measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'temperature': 18.}]
# 从sklearn.feature_extraction 导入 DictVectorizer
from sklearn.feature_extraction import DictVectorizer
# 初始化DictVectorizer特征抽取器
vec = DictVectorizer()
# 输出转化之后的特征矩阵。
print(vec.fit_transform(measurements).toarray())
# 输出各个维度的特征含义。
print (vec.get_feature_names())
输出转化之后的特征矩阵。
[[ 1. 0. 0. 33.]
[ 0. 1. 0. 12.]
[ 0. 0. 1. 18.]]
即对源数据中无法直接计算处理的符号化文字,进行特征抽取。
对名义型变量 无法直接数字化表示,采取同逻辑回归相同的0/1虚拟编码,进行向量化;而数值型变量,维持原始值。
输出各个维度的特征含义。
[‘city=Dubai’, ‘city=London’, ‘city=San Fransisco’, ‘temperature’]
参考
网络资源及书本《python 机器学习实战——从零开始通往Kaggle竞赛之路》第三章
代码名称:Chapter_3.1.1.1.ipynb
整书百度网盘地址:https://pan.baidu.com/s/1hpVqUTngF1r7qQlGUJ720g
下篇博客预告:python学习 文本特征提取(二) CountVectorizer
ps:文章在shuihupo同时发布。
最后
以上就是爱笑铃铛最近收集整理的关于python学习 文本特征提取(一) DictVectorizerDictVectorizer对使用字典储存的数据进行特征提取与向量化的全部内容,更多相关python学习内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复