回到頂部

🧹 髒資料清洗自動化:用大語言模型完成爬蟲與資料預處理

告別手動填補 Excel 缺失值與格式對齊。教你如何用 Prompt 讓 AI 寫出自動化腳本處理髒資料。

在現實世界中,完美的資料集只存在於 Kaggle 比賽和教科書裡。當你從業務單位收到 Excel 報表時,通常會看到以下災難:

  • 格式錯亂:日期有 2026-03-3126/03/31、甚至是 115年3月底
  • 單位不一:金額欄位有的寫 100萬、有的寫 1,000,000、還有人打 1m
  • 充滿空值:有一半的客戶沒填電話號碼。
  • 全半形夾雜:地址裡混雜各種奇怪的空白。

以前你必須花一整天寫正則表達式(RegEx)或是手刻 VBA 巨集。現在,只要一句 Prompt


現代分析師的超級武器:Advanced Data Analysis

如果你使用 ChatGPT Plus,它內建了一個在獨立虛擬環境中執行的 Python 直譯器。這代表你只要上傳檔案,用自然語言下達指令,它就會自己寫 Code -> 自己執行 -> 檢查有沒有錯 -> 把清洗好的檔案還給你

[!TIP] 即使你一輩子沒寫過 Python,只要你會講出「你想要什麼樣的資料格式」,AI 就能幫你實作。

實際演練:上傳統計報表

準備一個包含「髒資料」的 CSV 或 Excel 檔案,上傳給 ChatGPT,然後提供以下具有邏輯思維的 Prompt:

這是一份我們公司的「Q1 線上渠道客戶名單.xlsx」。由於是從多個系統人工匯出的,裡面充斥著髒資料。我需要你作為資深數據分析師,透過 Python 幫我進行資料清洗。

請依序執行以下處理步驟,並在每一步完成後告訴我處理結果:
1. 【統一日期格式】:把「購買日期」欄位中的所有格式(包含民國年或中文字),全部轉換為 YYYY-MM-DD 的標準 ISO 格式。
2. 【特徵提取與替換】:把「訂單金額」欄位中的「萬」、「千」、「元」等中文字去除,並統一轉換為純數字(Integer),例如「10萬」變成 100000。
3. 【處理空值】:找出「會員等級」為空值的欄位。若該客戶「訂單金額」大於 5000,請填補為「VIP」;否則填為「一般會員」。
4. 【去關聯化(脱敏)】:將「客戶姓名」只保留第一個字,其餘以 * 代替;「手機號碼」中間三碼換成 ***。

處理完成後,請給我一份清洗完畢的 `cleaned_Q1_customers.csv` 下載連結。

如果遇到 AI 報錯怎麼辦?

在使用 Data Analysis 時,AI 自動生成的腳本有時會因為特殊編碼(例如 Big5 繁體中文編碼)而出現讀取錯誤 UnicodeDecodeError

不要慌張,這時候你不需要懂 Code,只要溫柔地對它說:

「看來用 utf-8 讀取失敗了,這份檔案可能是台灣傳統 Windows 系統產生的。請嘗試使用 cp950big5 重新讀取。」

AI 就會聰明地換一種讀取方式再次嘗試,直到成功為止。


建立自動化 Pipeline:把黑手工作交接給系統

如果你每週都會收到這種「很髒」的報表,你不可能每次都手動上傳去請 ChatGPT 清洗。

正確的做法是請它把清洗邏輯寫成自動化的 Python 腳本(Pipeline)

這個清洗邏輯非常完美!
因為我們每週都會收到格式一模一樣的報表,請幫我把剛剛的所有清洗步驟,封裝成一個完整的 Python 腳本檔案 `clean_data.py`
我希望未來我只要在電腦上輸入 `python clean_data.py input.csv output.csv` 就可以自動完成同樣的清洗流程。

這就是 AI 顛覆資料科學痛點的最佳證明:它幫你跳過繁瑣的寫扣流程,讓你直接獲得解決問題的自動化工具。

📚 延伸閱讀