• 瀏覽: 6,686
  • 回覆: 37
  • 追帖: 8
[隱藏]
引用:
原帖由 michael2345 於 2021-2-21 10:05 AM 發表


:smile_2 ...
👌



熱賣及精選
馬會網站的資料,它有些資料是放在  Javascript 中,因此,也可以直接取 Javascript data,然後再按其格式解析。


採集數據好易,
分析先係重點,數據filter 走啲noise ,好麻煩



引用:
原帖由 我的無比膏 於 2021-2-25 02:05 PM 發表

採集數據好易,
分析先係重點,數據filter 走啲noise ,好麻煩
係呀,我之前用 encog framework,步驟都幾繁複⋯⋯

1. 先幫 data 做 standardization,統一返 scale
2. 拎70% data,去 train 個 model
3. 之後再用餘下 30% data 去 verify

重覆上面,調整參數,直到一個最優化既 model⋯⋯



[隱藏]
引用:
原帖由 林珍兒 於 2021-2-25 02:20 PM 發表


係呀,我之前用 encog framework,步驟都幾繁複⋯⋯

1. 先幫 data 做 standardization,統一返 scale
2. 拎70% data,去 train 個 model
3. 之後再用餘下 30% data 去 verify

重覆上面,調整參數,直到一個最優化既 model⋯⋯
個種叫Rolling walk forward analysis移動推進分析,將參數代入in-sample最佳化再將得其參數代入out of sample求結果...其實仲有好多類型分析數據。



引用:
原帖由 林珍兒 於 2021-2-21 10:06 AM 發表


👌



引用:
原帖由 林珍兒 於 2021-3-6 09:48 PM 發表



用axios + cheerio 幾句code寫完



引用:
原帖由 我的無比膏 於 2021-3-9 11:00 AM 發表


用axios + cheerio 幾句code寫完
axios cheerio 唔得,只可以普通 web,上面嗰個係經 javascript,再 load的,nodejs都要經例如 puppeteer 先得……
如果普通 web,python 一行 requests.get 就得……



引用:
原帖由 林珍兒 於 2021-3-9 12:17 PM 發表


axios cheerio 唔得,只可以普通 web,上面嗰個係經 javascript,再 load的,nodejs都要經例如 puppeteer 先得……
如果普通 web,python 一行 requests.get 就得……
axios cheerio肯定得 ,更改少少axios config 就得,就算servers 檢查 user-agent 都無問題



[隱藏]
引用:
原帖由 我的無比膏 於 2021-3-9 12:54 PM 發表


axios cheerio肯定得 ,更改少少axios config 就得,就算servers 檢查 user-agent 都無問題
肯定唔得

普通網頁你 get 嗰刻就可以拎到當時嗰刻 source,但有好多新既網頁,會 delay 再 trigger request,然後 rebuild DOM,le d 你係 get 唔返,要藉助 browser 功能先得,所以,nodejs 都有 puppeteer同 selenium 處理 le 款 page



Nodejs 冇native dom parser, 所以要借 jsdom ,cheerio 呢類假狗Dom parser, 始終同 headless browser 吾同,有好多 web 係拆吾到,諗都諗到

[ 本帖最後由 form5 於 2021-3-9 09:53 PM 編輯 ]



引用:
原帖由 林珍兒 於 2021-3-9 04:28 PM 發表


肯定唔得

普通網頁你 get 嗰刻就可以拎到當時嗰刻 source,但有好多新既網頁,會 delay 再 trigger request,然後 rebuild DOM,le d 你係 get 唔返,要藉助 browser 功能先得,所以,nodejs 都有 puppeteer同 selenium 處理 le 款 page
只能講你唔了解axios ,我都研究左幾日先解決問題,正常爬hkjc 會出現 "enable cookie" 類似response



其實樓主己解釋清楚點解axios 吾得, 你經axios 攞完 content , 你再用cheerio拆 解完,佢個 DOM 某個  part 之後才出現, 上面再掛data,  好明顯吾關 乜cookie 事

[ 本帖最後由 form5 於 2021-3-11 08:59 PM 編輯 ]



React 已經係
成個HTML body都係js係client side砌出嚟
雖則話有所謂嘅server prerendering,不過呢個有定冇都唔大分別



[隱藏]
引用:
原帖由 form5 於 2021-3-11 08:57 PM 發表

其實樓主己解釋清楚點解axios 吾得, 你經axios 攞完 content , 你再用cheerio拆 解完,佢個 DOM 某個  part 之後才出現, 上面再掛data,  好明顯吾關 乜cookie 事
axios 拎完content 會等同chrome view-source 相同的,streaming 就唔知

你試下爬hkjc 就知,證明你可能未遇過或未爬過
暫時爬hkjc 先會有,其他暫時未見過

利申: 每秒發十個request

[ 本帖最後由 我的無比膏 於 2021-3-12 01:03 PM 編輯 ]



提示:支持鍵盤翻頁左 右
[按此隱藏 Google 建議的相符內容]