300字范文 > Python北理工第六章组合数据类型

Python北理工第六章组合数据类型

时间：2019-12-31 12:44:07

相关推荐

Python北理工第六章组合数据类型

Outline

集合类型及操作；序列类型及操作；实例9：基本统计值计算；字典类型及操作；模块5：jieba库的使用；实例10：文本词频统计；方法论：Python三种主流组合数据类型的使用方法；实践能力：学会编写处理一组数据的程序。

1.集合类型及操作

集合类型的定义

集合是多个元素的无序组合

集合类型与数学中的集合概念一致；集合元素之间无序，每个元素唯一，不存在相同元素；集合元素不可更改，不能是可变数据类型；集合用大括号 {}表示，元素间用逗号分隔；建立集合类型用{}或set()；建立空集合类型，必须使用 set()。

示例

# 使用{}建立集合A = {"python", 123, ("python", 123)}print(A)# {123, 'python', ('python', 123)}# 使用 set() 建立集合B = set("pypy123")print(B)# {'y', '1', '3', 'p', '2'}C = {"python", 123, "python", 123}print(C)# {123, 'python'}

重点：

集合用大括号{}表示，元素间用逗号分隔；集合中每个元素唯一，不存在相同元素；集合元素之间无序。

集合操作符

4个增强操作符

A = {"p", "y", 123} # p,y,123B = set("pypy123") # p,y,1,2,3print(A-B) # {123} 在A中但不在B中print(B-A) # {'3', '1', '2'} 在B中但不在A中print(A&B) # {'y', 'p'} 交print(A|B) # {'y', 'p', '1', '2', 123, '3'} 并print(A^B) # {'2', 123, '3', '1'} 包括A和B中的所有非相同元素

集合处理方法

遍历

# 法1：for方式A = {"p", "y", 123}for item in A:print(item, end="") # p123y# 法2：while方式A = {"p", "y", 123}try:while True:print(A.pop(), end="")except:pass# yp123

集合类型应用场景

包含关系比较

>>> "p" in {"p", "y", 123}True>>> {"p", "y"} >= {"p", "y", 123}False

☆数据去重：集合类型所有元素无重复

ls = ["p", "p", "y", "y", 123]# 将列表转换成集合类型，利用集合类型无重复元素的特点进行去重s = set(ls)print(s) # {'y', 123, 'p'}# 去重之后，再把 “集合类型” 转换成 “列表”lt = list(s) print(lt) # ['y', 123, 'p']

集合小结

创建：使用 {} 和 set() ；集合间操作：交(&)、并(|)、差(-)、补(^)、比较(>=<)；集合类型方法：.add()、.discard()、.pop()等；主要应用于：包含关系比较、数据去重。

2.序列类型及操作

序列类型定义

序列是具有先后关系的一组元素

序列是一维元素向量，元素类型可以不同；类似数学元素序列：s0, s1, ..., sn-1元素间由序号引导，通过下标访问序列的特定元素。

序列是一个基类类型（不直接使用，经常使用它衍生出来的几种数据类型）

序号的定义

序列处理函数及方法

操作符

# 列表类型取反ls = ["python", 123, ".io"]print(ls[::-1]) # ['.io', 123, 'python']# 字符串类型取反s = "python123.io"print(s[::-1])# oi.321nohtyp

5个函数和

ls = ["python", 123, ".io"]print( len(ls) ) # 3s = "python123.io"print( max(s) ) # y# 输出从下标1开始到下标6 第一次出现字符 'h' 的下标print( s.count('h', 1, 6) ) # 1

元组类型及操作

定义

元组是序列类型的一种扩展

元组是一种序列类型，一旦创建就不能被修改；使用小括号()或tuple()创建，元素间用逗号 , 分隔；可以使用或不使用小括号。

def func():return 1, 2# 这里实际上返回的是一个元组

creature = "cat", "dog", "tiger", "human"print(creature)# ('cat', 'dog', 'tiger', 'human')color = (0x001100, "blue", creature)print(color)# (4352, 'blue', ('cat', 'dog', 'tiger', 'human'))

元组类型操作

元组继承了序列类型的全部通用操作；元组因为创建后不能修改，因此没有特殊操作；使用或不使用小括号。

creature = "cat", "dog", "tiger", "human"print(creature[::-1])# ('human', 'tiger', 'dog', 'cat')color = (0x001100, "blue", creature)print(color[-1][2])# tiger

4.列表类型及操作

定义

列表是序列类型的一种扩展，十分常用

列表是一种序列类型，创建后可以随机被修改；使用方括号[]或list()创建，元素间用逗号分隔；列表中各元素类型可以不同，无长度限制。

ls = ["cat", "dog", "tiger", 1024]print(ls)lt = ls # 赋值仅传递引用，并没有新建一个列表print(lt)

列表类型操作函数和方法

ls = ["cat", "dog", "tiger", 1024]# 1.把列表下标为2 的元素替换为 “pig”ls[2] = "pig"print(ls)# ['cat', 'dog', 'pig', 1024]# 2.把列表a中，从下标为0开始到4，步长为2的位置，替换为lt列表中的元素a = ["hello", "hangzhou", "dianzi", "keji", "daxue"]lt = ["1", "2", "3"]a[0: 5: 2] = ltprint(lt)# ['1', '2', '3']# 3.删除列表b中，下标为1的元素b = ["ni", "hao"]del b[1]print(b)# ['ni']# 4.删除列表c中，从下标0开始到5，且步长为2的元素c = ["hang", "zhou", "dian", "zi", "da", "xue"]del c[0: 6: 2]print(c)# ['zhou', 'zi', 'xue']# 5.更新列表d，将列表e中的元素增加到列表d的后面d = ["hello"]e = ["hdu"]d += e # d = d + eprint(d)# ['hello', 'hdu']# 6.更新列表f，其元素重复3次f = ["i", "love", "you"]n = 3f *= n # f = f * nprint(f)# ['i', 'love', 'you', 'i', 'love', 'you', 'i', 'love', 'you']

# 1.在列表a最后增加一个元素a = ["hello", "h", "d"]a.append('u')print(a)# ['hello', 'h', 'd', 'u']# 2.删除列表b中的所有元素b = ['h', 'd', 'u']b.clear()print(b)# []# 3.生成一个新列表，赋值 a 中的所有元素c = a.copy()print(c)# ['hello', 'h', 'd', 'u']# 4.在列表d的下标为1的位置增加元素 'hao'd = ['ni', 'hdu']d.insert(1, 'hao')print(d)# ['ni', 'hao', 'hdu']# 5.将列表e中的下标为2的位置弹出e = ['i', 'love', 'hdu']e.pop(2)print(e)# ['i', 'love']# 6.将列表f中出现的第一个'h'元素删除f = ['h', 'h', 'h']f.remove('h')print(f)# ['h', 'h']# 7.反转列表中的元素g = [1, 2, 3]g.reverse()print(g)# [3, 2, 1]

几个不熟悉的操作

5.序列类型应用场景

元组用于元素不改变的应用场景，更多用于固定搭配场景；列表更加灵活，是最常用的序列类型；最主要作用：表示一组有序数据，进而操作它们。

元素遍历

for item in ls:<语句块>for item in tp:<语句块>

数据保护

如果不希望数据被程序所改变，转换成元组类型

ls = ["cat", "dog", "tiger", 1024]# 将列表ls 转换成元组类型的ltlt = tuple(ls)print(lt)# ('cat', 'dog', 'tiger', 1024)

单元小结：

序列是基类类型，扩展类型包括：字符串、元组、列表；

元组用( )和tuple()创建，列表用[ ]和list()创建；

元组操作与序列操作基本相同；

列表操作在序列操作基础上，增加了更多的灵活性。

三、实例9 基本统计值计算问题

问题分析

需求：给出一组数，对他们有个概要理解：总个数、求和、平均值、方差、中位数

基本统计值

总个数:len()求和：for ... in平均值：求和 / 总个数方差：各数据与平均数差的平方的和的平均数中位数：排序，然后... 奇数找中间1个，偶数找中间2个取平均

# 获取输入值def getNum():nums = []iNumStr = input()while(iNumStr != ""):nums.append(eval(iNumStr))iNumStr = input()return nums# 平均值def mean(numbers):s = 0.0for num in numbers:s = s + numreturn s / len(numbers)# 方差def dev(numbers, mean):sdev = 0.0for num in numbers:sdev = sdev + (num-mean)**2return pow(sdev / ( len(numbers)-1 ), 0.5)# 中位数def median(numbers):# 对列表中的数字进行排序sorted(numbers)# 取数字个数size = len(numbers)# 如果有偶数个数字，则中位数是中间两位的平均值if size % 2 == 0:med = (numbers[size // 2 -1] + numbers[size // 2]) / 2# 如果有奇数个数字，则中位数就是中间的那个数字else:med = numbers[size // 2]return medn = getNum()m = mean(n)print("平均值:{}, 方差:{:.2}, 中位数:{}.".format(m, dev(n, m), median(n)))

举一反三

技术能力扩展

获取多个数据：从控制台获取多个不确定数据的方法；分隔多个函数：模块化设计方法；充分利用函数：充分利用 Python 提供的内容函数。

4. 字典类型及操作

字典类型定义

映射

映射是一种键(索引)和值(数据)的对应

字典类型是“映射”的体现

键值对：键是数据索引的扩展；

字典是键值对的集合，键值对之间无序；

采用大括号 {} 和 dict() 创建，键值对用冒号 : 表示

{<键1>:<值1>, <键2>:<值2>, ..., <键n>:<值n>}

在字典变量中，通过键获得值

<字典变量> = {<键1>:<值1>, ..., <键n>:<值n>}<值> = <字典变量>[<键>]<字典变量>[<键>] = <值>

d = {"中国":"北京", "美国":"华盛顿", "法国":"巴黎"}print(d)# {'中国': '北京', '美国': '华盛顿', '法国': '巴黎'}print( d["中国"] )# 北京de = {}print( type(de) ) # type(x)返回变量x的类型# <class 'dict'>

字典处理函数及方法

d = {"中国":"北京", "美国":"华盛顿", "法国":"巴黎"}print( "中国" in d )# Trueprint( d.keys() )# dict_keys(['中国', '美国', '法国'])print( d.values() )# dict_values(['北京', '华盛顿', '巴黎'])

d = {"中国":"北京", "美国":"华盛顿", "法国":"巴黎"}# 1.如果键"中国"存在，则返回对应的值"北京"print( d.get("中国", "伊斯兰堡") )# 北京# 2.如果键"巴基斯坦"不存在，则返回后面的默认值"伊斯兰堡"print( d.get("巴基斯坦", "伊斯兰堡") )# 伊斯兰堡# 3.随机返回一个键值对print( d.popitem() )# ('法国', '巴黎')

几个不熟悉的字典功能：

字典类型应用场景

映射的表达

映射无处不在，键值对无处不在；

例如：统计数据出现的次数，数据是键，次数是值

元素遍历

for k in d:<语句块>

单元小结

映射关系采用键值对表达；字典类型使用{}和dict{}创建，键值对之间用:分隔；d[key]方式既可以索引，也可以赋值；字典类型有一批操作方法和函数，最重要的是.get()

五、模块5：jieba库的使用

jieba是优秀的中文分词第三方库

中文文本需要通过分词获得单个的词语；jieba 是优秀的中文分词第三方库，需要额外安装；jieba库提供三种分词模式，最简单只需掌握一个函数。

jieba库的安装

jieba分词的原理

jieba分词依靠中文词库

利用一个中文词库，确定汉字之间的关联概率；汉字间概率大的组成词组，形成分词结果；除了分词，用户还可以添加自定义的词组。

jieba分词的三种模式

精确模式：把文本精确的切分开，不存在冗余单词；全模式：把文本中所有可能的词语都扫描出来，有冗余；搜索引擎模式：在精确模式基础上，对长词再次划分。

函数

六、实例10：文本词频统计

重要性：可以练习组合数据类型中的元组、列表、字典，必须掌握！

问题分析

文本词频统计

需求：一篇文章，出现了哪些词？哪些词出现的最多？该怎么做呢？

英文文本：Hamet 分析词频文本资源

中文文本：《三国演义》分析人物文本资源

1.Hamlet英文词频统计实例讲解

噪声：单词大小写，逗号等符号，要进行归一化

# 归一化处理def getText():txt = open("hamlet.txt", "r").read()txt = txt.lower() # 都调整为小写形式# 把特殊符号都替换为空格for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~':txt = txt.replace(ch, " ")return txthamletTxt = getText()# 用空格分隔，变成一个单词组成的列表words = hamletTxt.split()# 定义字典类型元素counts，用来存储单词及对应出现次数的映射关系counts = {}# 逐一从列表中取出单词，如果这个单词在字典中就+1，不在的话就新建映射关系并设为0for word in words:counts[word] = counts.get(word, 0) + 1# 字典类型转换为列表类型items = list(counts.items())# 对列表进行排序，按照键值对的第二个元素进行排序，从大到小items.sort(key=lambda x:x[1], reverse=True)# 输出前10个出现次数最多的单词及出现次数for i in range(10):word, count = items[i]print("{0:<10}{1:>5}".format(word, count))

输出：

2.《三国演义》人物出场统计实例讲解

import jiebatxt = open("threekingdoms.txt", "r", encoding="utf-8").read()words = jieba.lcut(txt)counts = {}for word in words:if len(word) == 1:continueelse:counts[word] = counts.get(word, 0) + 1items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(15):word, count = items[i]print("{0:<10}{1:>5}".format(word, count))

V2版本

import jiebatxt = open("threekingdoms.txt", "r", encoding="utf-8").read()excludes = {"将军", "却说", "荆州", "二人", "不可", "不能", "如此"}words = jieba.lcut(txt)counts = {}for word in words:if len(word) == 1:continueelif word == "诸葛亮" or word == "孔明曰":rword = "孔明"elif word == "关公" or word == "云长":rword = "关羽"elif word == "玄德" or word == "玄德曰":rword = "刘备"elif word == "孟德" or word == "丞相":rword = "曹操"else:rword = wordcounts[rword] = counts.get(rword, 0) + 1for word in excludes:del counts[word]items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(10):word, count = items[i]print("{0:<10}{1:>5}".format(word, count))

举一反三

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

Python北理工 第六章 组合数据类型

1.集合类型及操作

集合类型的定义

重点：

集合操作符

集合处理方法

遍历

集合类型应用场景

包含关系比较

☆数据去重：集合类型所有元素无重复

集合小结

2.序列类型 及 操作

序列类型定义

序号的定义

序列处理函数 及 方法

操作符

5个函数和

元组类型 及操作

定义

元组类型操作

4.列表类型 及操作

定义

列表类型 操作函数 和 方法

5.序列类型应用场景

单元小结：

三、实例9 基本统计值计算问题

问题分析

基本统计值

举一反三

技术能力扩展

4. 字典类型 及操作

字典类型定义

字典处理函数 及 方法

字典类型应用场景

单元小结

五、模块5：jieba库的使用

jieba库的安装

jieba分词的原理

jieba分词的三种模式

函数

六、实例10：文本词频统计

1.Hamlet英文词频统计 实例讲解

2.《三国演义》人物出场统计实例讲解

举一反三

Python北理工第六章组合数据类型

2.序列类型及操作

序列处理函数及方法

元组类型及操作

4.列表类型及操作

列表类型操作函数和方法

4. 字典类型及操作

字典处理函数及方法

1.Hamlet英文词频统计实例讲解