Category: AI.ML

從解析 Gemini CLI 窺探當代 Coding Agent 的架構設計

Posted on August 09, 2025 in AI.ML. View: 144

Gemini CLI 作為開源 Coding Agent 的代表作，提供了一個絕佳的機會來深入分析當代 AI 輔助開發工具的設計之道。

Tesla AI Day 2022 筆記

Posted on October 15, 2022 in AI.ML. View: 1,162

在2022年舉辦的Tesla AI Day上，他們推出了人形機器人Optimus，以及介紹他們在自動駕駛上的技術推進。這篇是YC觀賞完AI Day後的筆記，摘要了一些重點，並且在最後提出我的觀點。

Tesla AI Day 2021 筆記

Posted on October 09, 2022 in AI.ML. View: 1,351

在2021年舉辦的Tesla AI Day上，Tesla 揭露了他們開發自動駕駛的技術，並且預告他們將開發人形機器人。這篇是YC觀賞完AI Day後的筆記，我摘要了一些重點，並且在最後提出我的觀點。

擴散模型（Diffusion Model）：生成模型的新成員

Posted on May 20, 2022 in AI.ML. View: 9,813

本篇從概念到深入數學的介紹擴散模型（Diffusion Model）。

OCR：CRNN+CTC開源加詳細解析

Posted on October 12, 2020 in AI.ML. View: 11,105

Pytorch CRNN+CTC 開源囉！並且在這篇中會仔細介紹 CRNN 的架構，以及 CTC 的架構、訓練的參數優化和其三種 Inference 方法（greedy decode, beam search decode, prefix beam search decode）

資源整理：跟上AI前沿知識

Posted on July 04, 2020 in AI.ML. View: 4,248

AI領域日新月異，在這領域的玩家應該要持續的跟上最前沿的知識和技術，本篇文章整理了相關學術研討會、部落格，讓讀者可以輕易的接觸到可靠的新資源。（也歡迎讀者補充更多資訊）(持續更新)

剖析深度學習 (4)：Sigmoid, Softmax怎麼來？為什麼要用MSE和Cross Entropy？談廣義線性模型

Posted on March 14, 2020 in AI.ML. View: 27,812

學習一段時間深度學習的你是不是有一個疑惑：Activation Function為什麼要用Sigmoid和Softmax？Loss Function為什麼要用MSE和Cross Entropy？其他狀況要用什麼？當然你可以把它們看作是個合理定義，但是學習深度就端看你是不是可以用最少的定義表示最多的東西，如果你仔細google一下就會發現有一個相關的名詞—廣義線性定理，但是大部分的文章和教材都沒辦法將它講的很清楚，原因是因為沒有先介紹「充分統計量」的概念。在本講你會學到如何用「充分統計量」來說明在廣義線性定理中的Canonical Link Function，進而推導出Activation Function，你會學到如何藉由MLE和MAP來推導出Loss Function，學完以後你會對Activation Function和Loss Function有更深的認識。

剖析深度學習 (3)：MLE、MAP差在哪？談機器學習裡的兩大統計觀點

Posted on March 07, 2020 in AI.ML. View: 22,330

本講主要探討統計的兩大學派（頻率學派和貝氏學派）對於機器如何學習的觀點。頻率學派主張Maximum Likelihood Estimation (MLE)，會提到這等同於最小化data與model之間的Cross Entropy或KL Divergence。而貝氏學派則主張Maximum A Posterior (MAP) ，會提到這會等同於極大化Likelihood並同時考慮Regularization Term，我們也可以在本講看到L1和L2 Regularation Term是怎麼被導出的。

剖析深度學習 (2)：你知道Cross Entropy和KL Divergence代表什麼意義嗎？談機器學習裡的資訊理論

Posted on February 25, 2020 in AI.ML. View: 47,023

在深度學習裡面，尤其是分類問題，常常會用到Cross Entropy，教學上通常會從Maximum Likelihood推導而來，但是Cross Entropy其實具有更廣義的涵義，甚至不限於分類問題使用。還有學習過程也經常會出現KL Divergence這樣既熟悉又陌生的東西，甚至到了GAN會用到更多種類的Divergence，例如：JS Divergence。這全部都與資訊理論息息相關，這一講讓我們來搞清楚Entropy、Cross Entropy、KL Divergence和f-Divergence到底具有什麼涵義。

剖析深度學習 (1)：為什麼Normal Distribution這麼好用？

Posted on February 18, 2020 in AI.ML. View: 17,204

如果你已經學了好一陣子的機器學習或深度學習，應該對於Normal Distribution不陌生，但是你真的懂Normal Distribution嗎？本講會詳細的探討Normal Distribution，並且引入中央極限定理（Central Limit Theorm）來解釋為何自然界的隨機誤差大都呈現Normal Distribution，再來介紹Entropy，並且利用Entropy揭示Normal Distribution具有最少先驗知識（Prior Knowledge）的特性。

[Paper] Wide & Deep Learning for Recommender Systems

Posted on June 01, 2019 in AI.ML. View: 1,849

以往認為deep learning有辦法完全取代feature engineering，Google在2016年寫下的這篇paper，指出在數據相對稀疏（sparse）的情況下feature engineering仍然有其重要性

實作Tensorflow (6)：Recurrent Neural Networks (RNN) and Long Short-Term Memory (LSTM)

Posted on November 25, 2017 in AI.ML. View: 12,856

概論RNN / 梯度消失與梯度爆炸 / Long Short-Term Memory (LSTM) / 使用LSTM實作文章產生器

實作Tensorflow (5)：Word2Vec

Posted on November 19, 2017 in AI.ML. View: 6,310

Word2Vec觀念解析 / Word2Vec的架構 / Word2Vec的兩種常用方法：Skip-Gram和CBOW / 準備文本語料庫 / 實作Skip-Gram / 實作CBOW (Continuous Bag of Words)

實作Tensorflow (4)：Autoencoder

Posted on November 18, 2017 in AI.ML. View: 13,949

Autoencoder觀念解析 / Autoencoder程式碼 / 測試Autoencoder / 壓縮碼Code與視覺化 / 去雜訊(De-noise) Autoencoder

實作Tensorflow (3)：Build First Convolutional Neurel Network (CNN)

Posted on November 12, 2017 in AI.ML. View: 8,198

影像有什麼特性 / DNN用在影像上的侷限 / Convolutional Neurel Network (CNN) / Convolution Layer / Pooling Layer / 最簡單的CNN架構：LeNet5 / 圖像化

實作Tensorflow (2)：Build First Deep Neurel Network (DNN)

Posted on November 07, 2017 in AI.ML. View: 5,794

增加Hidden Layer / Activation Function的選擇 / Mini-Batch Gradient Descent / Regularization / Weight Regularization / Dropout / Optimizer的選擇 / 來看看程式怎麼寫

實作Tensorflow (1)：Simple Logistic Classification on MNIST

Posted on October 23, 2017 in AI.ML. View: 5,807

MNIST Dataset / Softmax / Cross-Entropy Loss / 分離數據的重要性 / Tensorflow工作流程 / Tensorflow的基本「張量」元素 / Session的操作 / 第一個Tensorflow Model

如何辨別機器學習模型的好壞？秒懂Confusion Matrix

Posted on August 04, 2017 in AI.ML. View: 133,090

本篇介紹包含Confusion Matrix, True Positive, False Negative, False Positive, True Negative, Type I Error, Type II Error, Prevalence, Accuracy, Precision, Recall, F1 Measure, F Measure, Sensitivity, Specificity, ROC Curve, AUC, TPR, FNR, FPR, TNR, FDR, FOR, PPV, NPV, 算數平均, 幾何平均, 調和平均

Category: AI.ML

從解析 Gemini CLI 窺探當代 Coding Agent 的架構設計

Tesla AI Day 2022 筆記

Tesla AI Day 2021 筆記

擴散模型（Diffusion Model）：生成模型的新成員

OCR：CRNN+CTC開源加詳細解析

資源整理：跟上AI前沿知識

剖析深度學習 (4)：Sigmoid, Softmax怎麼來？為什麼要用MSE和Cross Entropy？談廣義線性模型

剖析深度學習 (3)：MLE、MAP差在哪？談機器學習裡的兩大統計觀點

剖析深度學習 (2)：你知道Cross Entropy和KL Divergence代表什麼意義嗎？談機器學習裡的資訊理論

剖析深度學習 (1)：為什麼Normal Distribution這麼好用？

[Paper] Wide & Deep Learning for Recommender Systems

實作Tensorflow (6)：Recurrent Neural Networks (RNN) and Long Short-Term Memory (LSTM)

實作Tensorflow (5)：Word2Vec

實作Tensorflow (4)：Autoencoder

實作Tensorflow (3)：Build First Convolutional Neurel Network (CNN)

實作Tensorflow (2)：Build First Deep Neurel Network (DNN)

實作Tensorflow (1)：Simple Logistic Classification on MNIST

如何辨別機器學習模型的好壞？秒懂Confusion Matrix

機器學習技法學習筆記 (7)：Radial Basis Function Network與Matrix Factorization

機器學習技法學習筆記 (6)：神經網路(Neural Network)與深度學習(Deep Learning)

機器學習技法學習筆記 (5)：Boost Aggregation Models

機器學習技法學習筆記 (4)：Basic Aggregation Models

機器學習技法學習筆記 (3)：Kernel Regression

機器學習技法學習筆記 (2)：Support Vector Machine (SVM)

機器學習技法學習筆記 (1)：我們將會學到什麼? 先見林再來見樹

機器學習基石學習筆記 (4)：機器可以怎麼學得更好?

機器學習基石學習筆記 (3)：機器可以怎麼樣學習?

機器學習基石學習筆記 (2)：為什麼機器可以學習?

機器學習基石學習筆記 (1)：何時可以使用機器學習?