資料分析與可視化

適用人群

資料科學家、資料分析師、商業智慧專家、機器學習工程師

核心場景

場景一:從零開始構建互動式儀表板

真實案例: 資料科學團隊在不懂 JavaScript 的情況下,使用 AI 構建了 5000 行 TypeScript 視覺應用。

在 Happycapy 中如何做

詳細描述你的儀表板需求:

幫我構建一個互動式儀表板來分析使用者留存資料:

資料來源:
- 使用者註冊資料(users.csv)
- 使用者活動日誌(activity.csv)

功能需求:
- 顯示 7 天、30 天和 90 天留存率曲線
- 按使用者來源分組比較(廣告、自然流量、推薦)
- 時間範圍篩選器
- 顯示每週活躍使用者趨勢的柱狀圖

技術棧: 使用 React + Recharts 生成可直接運行的網頁。

Happycapy 會做什麼

步驟 1: 處理你的資料

自動讀取和處理你的資料檔案

步驟 2: 編寫完整應用

編寫具有適當結構的完整 React 應用程式碼

步驟 3: 設定環境

自動安裝依賴項並配置開發環境

步驟 4: 啟動伺服器

啟動本地伺服器並生成預覽連結

步驟 5: 互動預覽

你可以直接在瀏覽器中查看和互動

主要優勢

無需了解前端開發
程式碼可重複使用(下次分析類似資料時直接修改)
比 Jupyter Notebooks 更持久且更易分享
專業外觀的儀表板,適合利益相關者

時間節省: 2-4 倍時間節省

場景二:探索性資料分析(EDA)

在 Happycapy 中如何做

請求對資料集進行全面分析:

幫我分析這份銷售資料(sales_2024.csv):

給我資料概覽(行數、列數、缺失值)
生成描述性統計(平均值、中位數、標準差)
識別異常值
進行相關性分析,看看哪些因素影響銷售
繪製關鍵指標的分布圖和趨勢圖
總結 3-5 個關鍵發現

Happycapy 自動執行

可視化

生成各種可視化圖表

統計

執行統計分析

模式發現

發現資料中的模式和異常

報告

輸出結構化報告

場景三:機器學習模型訓練和評估

在 Happycapy 中如何做

請求端到端的 ML 工作流程:

使用這份客戶流失資料(churn_data.csv)訓練預測模型:

資料預處理(處理缺失值、標準化數值特徵)
特徵工程(生成有用的新特徵)
訓練多個模型(邏輯回歸、隨機森林、XGBoost)
比較模型效能(精確度、召回率、F1、AUC)
生成特徵重要性分析
給我最佳模型的預測程式碼,可以預測新客戶

Happycapy 幫助你完成

特徵工程

自動特徵工程

模型選擇

模型選擇和超參數調整

效能報告

生成效能比較報告

模型導出

保存訓練好的模型

生產程式碼

輸出可立即使用的預測程式碼

場景四:異常監控儀表板

真實案例: 資料基礎設施團隊監控 200 個儀表板,自動識別資料異常。

在 Happycapy 中如何做

設定自動監控:

幫我設定自動監控:

- 每天早上 9 點檢查這個 BigQuery 資料表
- 如果每日活躍使用者比 7 天平均值低 20%,發送警報
- 如果錯誤率超過 5%,發送警報
- 生成每日資料摘要並發送到我的電子郵件

定時自動化適用於 Pro/Max 方案使用者。

給資料分析師的建議

1. 從一次性筆記本轉向持久工具

舊方法:

每次編寫新的 Python 腳本
Jupyter notebooks 堆積如山
難以重複使用或分享
格式不一致

新方法:

構建可重複使用的網頁儀表板
保存工作流程以供重複使用
專業可視化
易於與利益相關者分享

讓 Happycapy 構建可重複使用的網頁儀表板,而不是一次性腳本。

2. 必要時果斷中斷

AI 有時傾向於過於複雜的解決方案:

這種方法似乎太複雜了。嘗試依賴項更少的
更簡單的方法。

Happycapy 會立即調整並提供更直接的解決方案。

3. 跨語言可訪問性

你只需要理解資料分析概念,無需精通多種程式語言:

用 Python 處理這些資料,並使用 JavaScript
的 D3.js 進行互動式圖表可視化。

Happycapy 會自動處理多語言實現。

4. 像使用「老虎機」一樣使用

對於實驗性分析:

步驟 1: 保存當前工作

保存你的當前狀態(提交程式碼、導出資料)

步驟 2: 讓 AI 工作

讓 Happycapy 自主工作 30 分鐘

步驟 3: 接受或重試

如果滿意結果就接受。如果不滿意,重新開始。

這通常比手動修復 AI 錯誤更高效。

實際範例

範例 1: 客戶細分分析

對這些資料執行客戶細分分析:

[上傳 customer_data.csv]

資料包括:
- 人口統計(年齡、位置、收入)
- 購買歷史(頻率、價值、最近性)
- 參與度指標(電子郵件打開、網站訪問)

任務:
1. 執行 RFM 分析(最近性、頻率、金額)
2. 使用 K-means 聚類識別 4-5 個客戶細分
3. 為每個細分建立檔案(特徵、行為)
4. 使用散點圖和雷達圖可視化細分
5. 為每個細分推薦營銷策略
6. 導出細分分配以在 CRM 中使用

範例 2: 時間序列預測

創建銷售預測模型:

資料: monthly_sales.csv(3 年歷史資料)

要求:
1. 分解時間序列(趨勢、季節性、殘差)
2. 檢查平穩性(ADF 測試)
3. 訓練多個模型:
   - ARIMA
   - Prophet(Facebook 的預測工具)
   - LSTM(如果模式複雜)
4. 比較模型效能(RMSE、MAE、MAPE)
5. 預測未來 6 個月
6. 創建信賴區間
7. 使用互動式圖表可視化歷史資料 + 預測

解釋哪個模型表現最佳以及原因。

範例 3: A/B 測試分析

分析我們 A/B 測試的結果:

[上傳 ab_test_results.csv]

測試詳情:
- 對照組: 當前結帳流程
- 變體: 新的一鍵結帳
- 指標: 轉化率、平均訂單價值、完成時間
- 樣本大小: 每個變體 10,000 個使用者

需要的分析:
1. 計算統計顯著性(p 值、信賴區間)
2. 檢查樣本比例不匹配
3. 按使用者細分分析(新 vs. 回訪、設備類型)
4. 計算實際顯著性(效應量)
5. 估計推出變體的收入影響
6. 使用清晰的圖表可視化結果
7. 提供執行/不執行建議

在統計解釋上保守。

範例 4: 群組分析

構建群組留存分析:

資料: user_activity.csv,包含 user_id、signup_date、activity_date

分析:
1. 按註冊月份分組使用者(群組)
2. 計算每個群組在以下時間的留存:
   - 第 1、7、14、30、60、90 天
3. 創建群組留存熱圖
4. 識別哪些群組留存最佳
5. 分析是否有季節性模式
6. 比較重大功能發布前後的群組(2024 年 6 月)
7. 構建互動式儀表板以探索不同的群組分組

幫我理解是什麼驅動留存差異。

範例 5: SQL 查詢優化

幫我優化這個慢速 SQL 查詢:

[貼上 SQL 查詢]

資料庫: PostgreSQL
表大小: 5000 萬行
當前執行時間: 45 秒

請:
1. 解釋查詢在做什麼
2. 識別效能瓶頸
3. 建議優化(索引、查詢重寫等)
4. 解釋執行計劃
5. 提供優化版本
6. 估計預期的效能改進

還建議我應該創建哪些索引。

進階資料工作流程

自動化報告流程

創建自動化每週分析報告:

資料來源:
- PostgreSQL 資料庫(使用者事件)
- Google Analytics(通過 API)
- Stripe(通過 API 獲取收入資料)

報告區塊:
1. 執行摘要
   - 關鍵指標 vs. 上週
   - 顯著變化(標記 >10% 的變化)

2. 使用者增長
   - 新註冊(每日趨勢)
   - 啟動率
   - 按管道的增長率

3. 參與度
   - DAU/WAU/MAU 趨勢
   - 功能使用分解
   - 會話持續時間分析

4. 收入
   - MRR 和增長率
   - 新 vs. 擴張 vs. 流失
   - 按群組的客戶 LTV

輸出:
- 帶嵌入式圖表的 HTML 報告
- 用於分發的 PDF 版本
- 每週一上午 8 點通過電子郵件發送

自動執行此操作,每週運行。(Pro/Max 方案)

資料質量監控

設定資料質量檢查:

資料集: user_events 表(BigQuery)

要實施的檢查:
1. 完整性
   - 關鍵欄位中無空值
   - 預期行數(7 天平均值的 ±20%)

2. 唯一性
   - 無重複 event_ids
   - User_id 格式驗證

3. 及時性
   - 事件在 1 小時內處理
   - 無超過 30 分鐘的資料間隙

4. 有效性
   - 時間戳在合理範圍內
   - 數值欄位在預期範圍內
   - 類別值符合允許清單

如果任何檢查失敗,向我發送警報。每小時執行一次檢查。
提供顯示資料質量趨勢的儀表板。

特徵庫創建

幫我為 ML 模型構建特徵庫:

原始資料: user_profiles.csv、transactions.csv、events.csv

要工程的特徵:
1. 使用者特徵:
   - 總交易數(所有時間)
   - 平均交易價值
   - 自上次交易以來的天數
   - 交易頻率(每月)
   - 首選類別

2. 行為特徵:
   - 過去 7/30 天的頁面瀏覽量
   - 過去 7/30 天的會話數
   - 參與度分數(自訂計算)

3. 時間特徵:
   - 一週中的某天模式
   - 一天中的時間模式

要求:
- 每天更新特徵
- 以準備用於模型訓練的格式儲存
- 適當處理缺失值
- 包括特徵文件
- 特徵的版本控制

創建計算和更新這些特徵的流程。

可視化最佳實踐

選擇正確的圖表類型

比較

柱狀圖、直條圖

趨勢

折線圖、面積圖

分布

直方圖、箱線圖

關係

散點圖、相關矩陣

組成

餅圖、堆疊柱狀圖

地理

等值線圖、氣泡地圖

使可視化互動

創建一個互動式儀表板,使用者可以:
- 使用滑塊按日期範圍篩選
- 在不同指標之間切換
- 懸停以查看詳細值
- 點擊細分以深入
- 將當前視圖導出為 PNG

使用 Plotly 或 Recharts 實現互動性。

為你的受眾設計

對於技術受眾:

顯示詳細統計
包括誤差線
顯示 p 值
技術術語可以

對於執行受眾:

專注於關鍵洞察
使用簡單、清晰的圖表
突出顯示可操作項目
簡單語言解釋

效能優化

處理大型資料集

我有一個 10GB 的 CSV 檔案,太大無法在記憶體中處理。

幫我:
1. 分塊處理
2. 高效執行聚合
3. 創建摘要統計
4. 為可視化取樣資料
5. 在不載入所有內容的情況下識別異常值

使用適當的工具(dask、polars 或分塊策略)。

查詢優化

這個儀表板查詢需要 30 秒以上才能載入。

當前查詢: [貼上 SQL]

請通過以下方式優化:
1. 識別不必要的聯接
2. 建議適當的索引
3. 使用更好的結構重寫
4. 如果合適,使用物化視圖
5. 實施快取策略

目標: <5 秒載入時間

下一步

通用最佳實踐

學習所有使用者的通用技巧

開發者指南

與工程師在資料流程上協作

營銷指南

將分析應用於營銷優化

快速入門

功能指南

最佳實踐

整合

社群

​適用人群

​核心場景

​場景一:從零開始構建互動式儀表板

​在 Happycapy 中如何做

​Happycapy 會做什麼

​主要優勢

​場景二:探索性資料分析(EDA)

​在 Happycapy 中如何做

​Happycapy 自動執行

可視化

統計

模式發現

報告

​場景三:機器學習模型訓練和評估

​在 Happycapy 中如何做

​Happycapy 幫助你完成

特徵工程

模型選擇

效能報告

模型導出

生產程式碼

​場景四:異常監控儀表板

​在 Happycapy 中如何做

​給資料分析師的建議

​1. 從一次性筆記本轉向持久工具

​2. 必要時果斷中斷

​3. 跨語言可訪問性

​4. 像使用「老虎機」一樣使用

​實際範例

​範例 1: 客戶細分分析

​範例 2: 時間序列預測

​範例 3: A/B 測試分析

​範例 4: 群組分析

​範例 5: SQL 查詢優化

​進階資料工作流程

​自動化報告流程

​資料質量監控

​特徵庫創建

​可視化最佳實踐

​選擇正確的圖表類型

比較

趨勢

分布

關係

組成

地理

​使可視化互動

​為你的受眾設計

​效能優化

​處理大型資料集

​查詢優化

​下一步

通用最佳實踐

開發者指南

營銷指南

適用人群

核心場景

場景一:從零開始構建互動式儀表板

在 Happycapy 中如何做

Happycapy 會做什麼

主要優勢

場景二:探索性資料分析(EDA)

在 Happycapy 中如何做

Happycapy 自動執行

場景三:機器學習模型訓練和評估

在 Happycapy 中如何做

Happycapy 幫助你完成

場景四:異常監控儀表板

在 Happycapy 中如何做

給資料分析師的建議

1. 從一次性筆記本轉向持久工具

2. 必要時果斷中斷

3. 跨語言可訪問性

4. 像使用「老虎機」一樣使用

實際範例

範例 1: 客戶細分分析

範例 2: 時間序列預測

範例 3: A/B 測試分析

範例 4: 群組分析

範例 5: SQL 查詢優化

進階資料工作流程

自動化報告流程

資料質量監控

特徵庫創建

可視化最佳實踐

選擇正確的圖表類型

使可視化互動

為你的受眾設計

效能優化

處理大型資料集

查詢優化

下一步