使命召唤ol与大厅服务失去连接
Python數據處理
12推薦 收藏
48.6K閱讀

Python數據處理

【美】Jacqueline Kazil , Katharine Jarmu (作者) 張亮 , 呂家明 (譯者)
全面掌握用Python進行爬蟲抓取以及數據清洗與分析的方法,輕松實現高效數據處理
本書采用基于項目的方法,介紹用Python完成數據獲取、數據清洗、數據探索、數據呈現、數據規模化和自動化的過程。主要內容包括:Python基礎知識,如何從CSV、Excel、XML、JSON和PDF文件中提取數據,如何獲取與存儲數據,各種數據清洗與分析技術,數據可視化方法,如何從網站和API中提取數據。

本書適合數據處理工作相關人員。

收藏本書能做什么?

有情況的時候會收到通知,比如電子書發布等。

PS:也會在圖靈社區電報頻道更新

電子書
¥49.99
格式
mobi   pdf

紙質書
¥78.21 ¥99.00

出版信息

本書特色

用傳統的電子表格來處理數據不僅效率低下,而且無法處理某些格式的數據,對于混亂或龐大的數據集更是束手無策。本書將教你如何利用語法簡單、容易上手的Python輕松處理數據。作者通過循序漸進的練習,詳細介紹如何有效地獲取、清洗、分析與呈現數據,如何將數據處理過程自動化,如何安排文件編輯與清洗任務,如何處理更大的數據集,以及如何利用獲取的數據來創作引人入勝的故事。學完本書,你的數據處理和分析能力將更上一層樓。

* 快速了解Python基本語法、數據類型和語言概念
* 概述數據的獲取與存儲方式
* 清洗數據并格式化,以消除數據集中的重復值與錯誤
* 學習何時對數據進行標準化,何時對數據清理進行測試并將其腳本化
* 使用Scrapy寫網絡爬蟲
* 利用新的Python庫和技術對數據集進行探索與分析
* 使用Python解決方案將整個數據處理過程自動化

“如果你一直感覺電子表格(甚至關系型數據庫)無法回答你想要提出的問題,或者除這些工具之外你準備進一步學習,那么這本書非常適合你。我一直在等待這本書的出現。”

——Derek Willis,ProPublica新聞應用開發者,OpenElections聯合創始人

“所有新手數據科學家、數據工程師或其他技術方面的數據專家都應該讀一讀這本實踐指南。數據處理領域正需要這樣一本書,真希望我第一次開始用Python處理數據時就能有它指導。”

——Tyrone Grandison博士,Proficiency Labs Intl. CEO

目錄

版權聲明 閱讀
O'Reilly Media, Inc.介紹 閱讀
本書贊譽 閱讀
前言 閱讀
第 1 章 Python 簡介 閱讀
第 2 章 Python 基礎 閱讀
第 3 章 供機器讀取的數據
第 4 章 處理 Excel 文件
第 5 章 處理 PDF 文件,以及用 Python 解決問題
第 6 章 數據獲取與存儲
第 7 章 數據清洗:研究、匹配與格式化
第 8 章 數據清洗:標準化和腳本化
第 9 章 數據探索和分析
第 10 章 展示數據
第 11 章 網頁抓取:獲取并存儲網絡數據
第 12 章 高級網頁抓取:屏幕抓取器與爬蟲
第 13 章 應用編程接口
第 14 章 自動化和規模化
第 15 章 結論
附錄 A 編程語言對比
附錄 B 初學者的 Python 學習資源
附錄 C 學習命令行
附錄 D 高級 Python 設置
附錄 E Python 陷阱
附錄 F IPython 指南
附錄 G 使用亞馬遜網絡服務
關于作者
關于封面

作者介紹

Jacqueline Kazil,數據科學家,資深軟件開發者。活躍于Python軟件基金會、PyLadies等社區。曾參與美國總統創新伙伴項目,是美國政府技術組織18F的聯合創始人。曾擔任《華盛頓郵報》數據記者。

Katharine Jarmul,資深Python開發者,PyLadies聯合創始人。喜歡數據分析和獲取、網頁抓取、教人學習Python以及Unix,期望通過教育和培訓來促進Python和其他開源語言的多元化。

【譯者簡介】

張亮(hysic),畢業于北京大學物理學院,愛好機器學習和數據分析的核安全工程師。

呂家明,2016年畢業于哈爾濱工業大學,現就職于騰訊,從事搜索、Query分析等相關工作,熟悉大規模數據下的數據挖掘和機器學習實踐。

相關文章

  • alberthao 4推薦

    《Python數據處理》讀書筆記

    1 背景 《Python數據處理》這本書買了有一段時間了,一直沒開始讀。最近想入手《Linux就是這個范兒》和《單核工作法》。于是我就下了個命令給自己:本書讀完一遍后才可以下新單。于是有了這一篇。 有時候,你需要的只是給自己下個命令。讓它開始! 2 本書框架 讀書我一般會…...

  • 阿貍不歌 6推薦

    50行爬蟲🕷?抓取并處理圖靈書目

    使用 requests進行爬取、BeautifulSoup進行數據提取。 主要分成兩步: 第一步是解析圖書列表頁,并解析出里面的圖書詳情頁鏈接。 第二步是解析圖書詳情頁,提取出感興趣的內容,本例中根據不同的數據情況,采用了不同的提取方法,總的感覺就是BeautifulSoup…...

  • 什么年代了,這本原出版于2016年2月的書居然還在用python2,不打算買了。
    xxbiglee  發表于 2017-06-30 10:15:56
    推薦
    • 然而書中解釋了為什么使用py2而不用py3. 另外不要嫌棄py2,py2又沒有被淘汰,用的人多的是。

      shishengjia  發表于 2017-06-30 17:51:10
    • @shishengjia 呵呵,2020都不支持python2了,你還讓別人用,我也不買了,謝謝。

      forrestdouble  發表于 2017-11-08 13:29:05
    • @shishengjia 用得多,但是遷移是遲早的,pandas等庫已經明確表示很快就不支持py2了,py3是大趨勢。另外祝新年快樂

      繁繁  發表于 2018-02-15 23:50:50
  • Python數據處理怎么能缺少pandas。。。
    然而本書并沒有涉及pandas的內容!
    凡星  發表于 2017-07-05 10:36:29
    推薦
  • Py2還是有用的,例如ABAQUS,SPSS等常用專業軟件中腳本支持都是Py2
    卜問之  發表于 2017-07-03 10:34:09
    推薦
  • 電子版什么時候半價呢?
    李開拓  發表于 2017-07-27 14:55:58
    推薦
  • github上的數據無法獲取,能打包相關的數據文件隨書下載嗎
    鵬德寶  發表于 2017-10-03 10:52:24
    推薦
  • 請問有電子版嗎?
    走出荒野  發表于 2017-06-26 11:02:11
    推薦
    • 圖靈有電子版權,稍后會有電子版的。

      岳新欣  發表于 2017-06-26 15:44:29
  • 期待電子版~~。很喜歡圖靈的電子版,再也不是黑白的了
    魏昌霖  發表于 2017-06-29 08:25:38
    推薦
  • 樣書沒有刮刮卡。。翻書寫代碼真不方便。。20塊有沒有不用的刮刮卡賣我啊~~~
    Jenson  發表于 2017-07-31 19:07:19
    推薦
  • 請問電子版是mobi和pdf嗎?
    longyong  發表于 2017-08-02 10:41:06
    推薦
  • 沒有pandas內容,還是py2,Jupyter都不支持py2了。只能作為思路借鑒了。
    fevath  發表于 2017-08-02 20:52:30
    推薦
    • 大概如果用上pandas就沒什么意思了, 基本就是在寫邏輯代碼了,這本應該教的是學習如何處理數據,而不是教你用pandas進行數據分析吧

      yjhmelody  發表于 2017-09-14 02:49:40
  • 電子書的PDF文件下載總是失敗,是不是文件損壞了?
    愛看書  發表于 2017-09-27 16:20:17
    推薦
  • 看到是Python2就算了
    咆哮的螞蟻  發表于 2018-03-16 16:00:40
    推薦
使命召唤ol与大厅服务失去连接