跳到主要內容

Python 自然語言處理實作


BurgeoningCourse
只能經由邀請註冊這課程

課程基本資訊

高階課程,需具備足夠的相關基礎知識

影片時數:共約 10 小時

授課語言/字幕:皆為繁體中文

課程證書:有,須通過課程評分標準,才可獲得免費電子版完課證書,紙本證書需額外申請付費。

費用:5400 元,舊生優惠價:4900 元(購課流程

#可隨時報名 #可立即學習 #可隨時詢問老師問題

100% 純線上:可重複觀看所有課程影片,上課時間彈性自主、無負擔。

專業教材:老師提供精心編製簡報、範例程式碼。

完整度高:授課內容完整涵蓋此領域所需相關知識。

討論區:課程期間無限次詢問老師問題。還可加入課後討論區,老師不定期分享相關知識及答題。

理論 + 實作:課程編排為理論與實作範例交互前進,讓您既有紮實理論基礎,同時了解如何實作。

個人專題實作:課程最後,老師將幫助您完成您的個人專題實作,讓您完全上手使用 Python 進行自然語言處理實作!

學習地圖

課程簡介

自然語言指的是人們溝通交流所使用的語言文字,因此這些文字資料無所不在,但要如何運用這些文字資料呢?這門課將會帶您認識並使用 Python 實作自然語言的各種處理及分析方法,並利用前沿的機器學習與深度學習方法開發多項應用,讓您完整熟悉自然語言處理(NLP)的領域,並能將課中所學運用至您個人的研究或工作之中。

因此,在這門課程中,您可以學到:

  • 自然語言處理的相關理論及最新應用。
  • 如何利用 Python 處理自然語言,包含中文和英文兩種文字資料。
  • 如何利用 Python 對文本資料進行各種分析、提取資訊,進而洞察文字資料。
  • 如何利用 Python 與機器學習進行文本分類,如:文字情感、滿意度等。
  • 如何利用 Python 與深度學習進行文本生成。
  • 您可以運用以上所學理論與實作,應用於您的研究或工作之中。

#您可以獲得的技能

#Python #自然語言處理 #文本分析 #文字探勘 #文字視覺化 #情感分析 #文本分類 #文本生成 #主題模型 #關鍵字提取 #文本相似度 #機器學習 #深度學習 #卷積神經網路 #遞迴神經網路 #注意力機制 #Seq2Seq #Transformer

先備知識

先修習徐老師所開設過的「Python 資料科學實作」與「Python 機器學習與深度學習實作」為佳,或至少擁有以下相關先備知識:

  • Python 基礎語法(精熟)(歡迎免費領取「Python 程式語言入門」課程)
  • Python 資料結構(精熟)
  • Pandas DataFrame 資料處理(精熟)
  • Matplotlib、Pandas 資料視覺化(基礎)
  • 機器學習數學原理、Scikit-learn 實作(基礎)
  • 深度學習數學原理、Tensorflow 與 Keras 實作(基礎)

(若無相關先備知識,本課程有提供“部分”基礎教材供補充學習。)

準備器材

  • 記憶體:至少 8G 以上(16G 以上為佳)
  • GPU:NVIDIA 計算能力(Compute Capability)> 3.5 的 GPU(查詢:https://developer.nvidia.com/cuda-gpus)
  • 若無 GPU,可使用以下替代方案:
    • 使用 Google Colaboratory 免費 GPU
    • 暫時使用CPU訓練(較耗時)

課程大綱

主題

內容

Python 基礎語法與資料結構

(必備先備知識)

  • Python 變數型態與基本運算
  • Python 字串處理
  • Python 程式結構語法
  • Python 資料結構與基本運算

(供無先備基礎知識者補充學習用,若要完整學習,請補修習「Python 資料科學實作」課程)

自然語言處理導論

  • 自然語言處理應用導論

文字處理

(使用 NLTK, Jieba)

  • 中英文停止詞(Stop words)
  • 中英文分詞(Tokenization)
  • 中英文詞性標註(Part-of-speech tagging, POS tagging)
  • 正規表示法(Regular Expression)
  • 專題實作:《紐約時報》中英文新聞〈Koala Mittens and Baby Bottles: Saving Australia’s Animals After Fires〉/〈大火中的「生物末日」:搶救澳洲野生動物〉
    • 實作1:中英文分詞與詞頻計算(WordCount)
    • 實作2:中英文詞性標註與詞頻計算

文本分析

  • 詞頻分析:齊夫定律(Zipf’s law)
  • 專題實作:布朗語料庫(Brown Corpus)詞頻分析
  • 搭配詞(Collocation)
    • N-gram
    • Skip-gram
    • Smadja’s algorithm
  • 專題實作:路透社新聞英文搭配詞分析
  • 關鍵字提取(Keyword Extraction)
    • 逆向文件頻率(TF-IDF)
    • BM25
    • 視覺化:文字雲
  • 專題實作:TED talks 關鍵字提取、文字雲

文本相似度

  • 向量空間模型(Vector Space Model, VSM)
  • 歐幾里德距離、餘弦距離(Cosine Similarity)
  • SimHash
  • 專題實作:TED talks 文本相似度計算
  • 主題模型(Topic Modeling)
    • 隱含狄利克雷分布(Latent Dirichlet Allocation, LDA)
    • 貝式模型
  • 專題實作:TED talks 主題提取與視覺化

單詞表示

  • WordNet
  • one-hot encoding
  • 共生矩陣
  • Count-based 與 Predicion-based
  • 詞嵌入(Word Embedding)
    • word2vec
    • Continuous Bag of Words Model (CBOW)
    • Skip-Gram Model
    • 負採樣(Negative Sampling)
  • 文本向量化、降維與視覺化
  • 專題實作:《紅樓夢》單詞相似度分析與視覺化

深度學習架構簡介

(必備先備知識)

  • 多層感知器(MLP)/深度神經網路(DNN)
  • 卷積神經網路(CNN)
  • 遞迴神經網路(RNN)

(供無先備基礎知識者補充學習用,若要完整學習,請補修習「Python 機器學習與深度學習實作」課程)

文本分類

  • 機器學習與深度學習分類演算法
    • 羅吉斯迴歸(Logistic Regression)
    • RNN、LSTM、CNN
  • 專題實作1:Google 商家評論情感分析-正負評分類
  • 專題實作2:Google 商家評論情感分析-星等數分類

序列模型

  • 各種 RNN 模型架構
  • RNN、LSTM、GRU
  • 專題實作:情書生成
  • 序列對序列模型(Sequence to Sequence, seq2seq)
    • seq2seq 介紹與相關應用
    • Encoder-Decoder
  • 語言模型(Language Model, LM)
    • 注意力機制(Attention mechanism)
    • Transformer
    • BERT、GPT-2、Transformer-XL、XLNet 等

遷移學習

  • NLP 中的遷移學習(Transfer Learning)
  • 遷移學習的兩種方法
  • 從 word2vec、ELMo、GPT 到 BERT
  • BERT
    • BERT 預訓練階段的兩個任務
    • BERT 微調階段的四種應用任務
    • 專題實作1:Google 商家評論情感分析-正負評分類(使用BERT)
    • 專題實作2:Google 商家評論情感分析-星等數分類(使用BERT)

備註:開課後課程內容仍會根據同學需求做部分調整,若對授課內容有任何建議或問題歡迎提出。

課程示範環境

  • Python 3.7
  • NLTK 3.4.5
  • Jieba 0.42.1
  • gensim 3.8.0
  • Tensorflow 2.1.0
  • Scikit-learn 0.22.1
  • Matplotlib 3.1.3
  • Pandas 1.0.3

課程實作範例

▸ 《紐約時報》中英文新聞分詞與詞頻分析

▸ 布朗語料庫文本詞頻分析

▸ TED 關鍵字提取與文字雲

▸ 路透社新聞英文搭配詞分析

▸ TED 主題建模

▸ TED 文本相似度分析

▸ 《紅樓夢》詞嵌入模型與視覺化

▸ Google 商家評論情感分析(文本分類)

▸ 情歌生成


授課教師

徐浩軒

「補根課程」(Burgeoning Course)共同創辦人

「Python 資料科學與人工智慧」FB粉絲專頁 共同創辦人

清華大學 資訊系統與應用研究所 博士

清華大學 資訊工程學系 學士


目前已開設「Python 資料科學實作」、「Python 機器學習與深度學習實作」、「Python 金融數據分析與預測實作」、「Python 自然語言處理實作」、「Python 資料視覺化入門:讓圖說出好故事」等課程,累積學生超過兩千位。

期刊著作
  • H. H. Hsu and N. F. Huang, "Xiao-Shih: A Self-Enriched Question Answering Bot With Machine Learning on Chinese-Based MOOCs," in IEEE Transactions on Learning Technologies, vol. 15, no. 2, pp. 223-237, 1 April 2022, doi: 10.1109/TLT.2022.3162572.
翻譯著作
  • 《領域驅動設計學習手冊》(歐萊禮,2023)
  • 《打造機器學習應用|從構想邁向產品》(歐萊禮,2021)
專利
  • 孫宏民、徐浩軒、黃能富、韓傳祥「車禍嚴重度預測方法及裝置、電腦可讀取的記錄媒體」中華民國發明專利號 I801082。

常見問題

Q1、零基礎可以修這門課嗎?

不建議,雖然本課程有提供無先備基礎知識者補充學習用的教材,但是學習起來還是會感覺到困難。從基礎知識開始紮實的累積才是學習的捷徑。


Q2、我可以立即報名嗎?

沒問題,這門課程可以隨時報名、立即學習,報名後就可以觀看到課程所有的教材。


Q3、課程可以使用多久?

一年(從您報名的隔日算起)。設計一年內的使用期限有兩個主要原因:第一個是鼓勵大家在有限時間內完成學習;第二個是本課程提供的都是符合當下最新的知識,但知識演進快速,不希望大家學習到過時的知識。如果過了一年期限還想學習,可以透過轉班方式換到最新的一班學習(僅需繳交轉班手續費用500元)。


Q4、可以詢問老師問題嗎?

當然可以,可以在這門課程的討論區上發問或是透過老師的Email聯繫。


若還有其它問題,歡迎來信詢問:[email protected]