您現(xiàn)在所在的位置:首頁 >關(guān)于奇酷 > 行業(yè)動態(tài) > python快速入門-字符編碼

python快速入門-字符編碼

來源:奇酷教育 發(fā)表于:

python快速入門-字符編碼。

  計算機中顯示的文字都需要編碼格式的支持,否則你只能看到0、1組成的神秘序列
 
  什么是編碼:
 
  計算機出生之初僅僅為了計算,所以只有數(shù)字0、1
 
  后來,計算機有了更多的訴求,希望能記錄更多的文字信息,但是計算機還是只認識0、1怎么辦?
 
  有人出了主意:讓數(shù)字0代表一個字,數(shù)字1代表一個字以此類推:
 
  0--文字1
 
  1--文字2
 
  2--文字3
 
  3--文字4
 
  4--文字5
 
  ......
 
  于是這樣的對照表就稱為編碼格式
 
  編碼的變遷史:
 
  早期計算機表示的數(shù)字很少:8位機時代 0-255 所以只能表示256個文字 ascii編碼格式/iso8859-1
 
  chr(數(shù)字)可以將數(shù)字變?yōu)榇a表中的文字
 
  print(chr(97))
 
  計算機迅速傳入各個國家:中國出現(xiàn)了gbk(國標碼) gb2312(簡體碼) big5(繁體碼)
 
  亂碼時代:各個國家都有各自的編碼格式,那么計算機在傳輸后,就會亂碼:
 
  例:
 
  可以使用內(nèi)置函數(shù)ord(‘文字’)獲取文字的底層數(shù)據(jù):
 
  print(ord('中'))
 
  “中”:底層數(shù)字是20013
 
  但是可能韓文編碼下可能未對20013進行映射,那么就會顯示? 這就是亂碼!
 
  大一統(tǒng)時代:unicode
 
  unicode的出現(xiàn)讓亂碼亂象得到控制
 
  unicode碼將幾乎所有文字都約束在它的編碼之下,世界使用一種碼,自然沒有亂碼
 
  中文范圍:"\u4e00"--"\u9fa5"
 
  print("\u4e2d")
 
  現(xiàn)狀:utf-8
 
  unicode作為國際統(tǒng)一碼,也叫雙字節(jié)編碼,不利于網(wǎng)絡傳輸,網(wǎng)絡大多流轉(zhuǎn)英文字符居多
 
  so就出現(xiàn)了變種的unicode:utf-8:英文單字節(jié),其他文字三字節(jié)。
 
  為了世界不再亂碼,請用utf-8!!!
 
  組碼:會得到一個bytes序列
 
  字符串.encode(encoding='UTF-8', errors='strict')
 
  解碼:會得到一個按編碼解析的字符串
 
  字節(jié)序列.decode(encoding='UTF-8', errors='strict')
 
  如果設(shè)置為strict,代表遇到非法字符時拋出異常; 
 
  如果設(shè)置為ignore,則會忽略非法字符; 
 
  如果設(shè)置為replace,則會用?取代非法字符; 
 
  如果設(shè)置為xmlcharrefreplace,則使用XML的字符引用
主站蜘蛛池模板: 久久综合九色综合欧美就去吻| 激情综合婷婷丁香五月| 婷婷五月六月激情综合色中文字幕| 亚洲综合一区二区国产精品| 国产成人综合久久综合| 色综合天天综合网站中国| 亚洲色图综合网| 插插插色欲综合网| 欧美亚洲另类久久综合婷婷| 亚洲综合日韩中文字幕v在线| 亚洲狠狠色丁香婷婷综合| 亚洲综合区小说区激情区| 国产激情综合在线观看| 欧美日韩国产色综合一二三四 | 国产精品无码久久综合网| 青青草原综合久久大伊人导航| 色综合天天综合给合国产| 久久综合久久自在自线精品自| 欧美激情综合五月色丁香| 国产欧美日韩综合精品一区二区| 综合五月激情五月开心婷婷| 激情综合一区二区三区| 伊人yinren6综合网色狠狠| 狠狠色丁香久久婷婷综合图片| 国产婷婷色综合AV蜜臀AV| 亚洲欧美日韩综合一区| 欧美亚洲综合色在| 天天操天天干天天综合网| 久久综合伊人77777| 伊人成色综合网| 色爱区综合激情五月综合色| 亚洲精品欧美综合在线| 久久一本综合| 天天干天天色综合| 九月丁香婷婷亚洲综合色| 亚洲国产国产综合一区首页| 久久综合九色欧美综合狠狠| 国产精品亚洲综合久久 | 亚洲国产天堂久久综合网站 | 亚洲五月综合缴情在线观看| 亚洲欧美国产∧v精品综合网|