跟可樂討論建案電話爬蟲方案
來源
西西半夜被派的任務:後台所有缺電話的建案要補完。明說『明天要跟可樂討論爬蟲方案』。動手前先討論目標站、欄位、頻率、反爬處理等變數
西西半夜被派的任務:後台所有缺電話的建案要補完。明說『明天要跟可樂討論爬蟲方案』。動手前先討論目標站、欄位、頻率、反爬處理等變數
5/4 手工跑了一輪(Gmail 抓 4/15+ 來信 22 筆 → 補進雲端圖庫名單 B338 起)後,西西說現在處理方式不夠正確,要設計常態化流程。流程會持續一整年、頻率不固定、有信就處理。任務線卡在 5 個我問了她還沒回答的關鍵決策點,確認方向才能動工。 [卡點 / 等西西回] 5 個關鍵決策: 1. 頻率與觸發 — 月一次 batch?週一次?還是『Gmail 比對跑一下』一句話觸發? 2. 輸出去向 — (a) 自動補進雲端圖庫名單試算表 / (b) 產 CSV 在 batches/<日期>/comparison.csv / (c) 三桶分開三份 3. 比對 key 容錯 — 編號筆誤(如沈玉萍 1002164 vs 10002164)要不要模糊比對?公司名要不要當第二 key? 4. 檔案類型 — 來信申請『2025年工地年鑑.pdf』vs『2025年工地外觀與平面圖』要分桶嗎?還是一起算? 5. 要不要納入雲端圖庫名單歷史紀錄 — 避免重複開通已通過的人 [已知資源] - project: 100_Todo/projects/W_年鑑存取權審核對比/(任務 1 出貨清單合併已完成,Gmail 比對是這條 todo) - 左半資料:batches/2026-04-30_首批/merged_寄出名單.csv(132 筆) - 右半資料:Gmail MCP 抓 subject:'有人要求共用' after:YYYY/MM/DD - 5/4 手工結果:100_Todo/artifacts/2026-05-04_雲端圖庫名單填寫/paste_into_B338.tsv(22 筆 unique) [可樂建議的最小可動版] - scripts/compare_gmail.py 參數:起始日期 + 批次資料夾 - 第一版不自動寫試算表,先輸出 CSV 給西西人工驗證 1-2 批
建案社群圖卡模型(展碩/鬍子編做圖用的視覺模板)需要交出第一版
小編出任務投稿頁(myhousing-go-go,WP page id 272369)防 spam。流程:Cloudflare 拿 Turnstile 的 site key + secret key → 填進 Forminator 表單外掛設定。可樂教步驟。注意:4/30 daily log 原寫『跟爬蟲流程綁』有誤,5/1 校正
西西已把過去 AI 作品放進 200_Reference/W_past-work(15 個)+ C_past-work(8 個)。Phase 1 = 讀有用途.md 的直接引用 + 4-5 個沒用途.md 的補一行推估,生成 W_past-work/INDEX.md,每 project 一段附『整合/參考/封存』建議。C 端先不做。2025年度版實價登錄_cowork 待西西回答後再決定處理
Phase 1 INDEX 出來後西西審閱,把可樂建議錯的改掉,標『整合/參考/封存』。Phase 3 接著執行:整合類升 skill 或併進現有 workflow、參考類寫進 memory 讓可樂未來查得到、封存類加標籤或移到 100_Todo/archive/。順便處理『2025年度版實價登錄_cowork』要當歷史 reference 還是跟現役合併
葉曾文 = 公司工程師 / MIS。明天 sync 他現在的工作進度。