隨談雜記

數據。程式。讀書筆記

隨著 Meta 的 Llama 2 開放商用, 很多公司也摩拳擦掌想把 Llama 2 應用在自己的產品上。 然而 Pre-train 的模型不見的符合公司或使用者的需求, 為了求更好的表現,fine-tune LLM 就成了其中一個不錯的方法。本篇文章會介紹 Fine tune LLM 的基本概念,以及訓練的程式碼還有一些注意的事項。

Read more »

有投資美股的人應該都有一樣的經歷,因為美國跟台灣的時差12小時,看盤可能都得要通宵坐鎮。因為我實在太愛睡覺了,年紀越大也越經不起熬夜折磨,所以就設法用最簡單的方式完成投資時需要做的事情。

Read more »


白內障、青光眼、飛蚊症、黃斑部病變…這樣的眼疾離一個30歲的人來說還太遙遠。作為一個剛動完黃斑前膜手術的年輕電腦工程師,還是說出來讓大家有個前車之鑑。讓大家過度操代碼的時候還是顧慮一下自己的眼睛👀

Read more »

上一篇文章SSH 遠端連線回家中的 Windows 電腦提到如何在電腦與遠程桌機之間建立通道。在遠程桌電的通道建立之後,我們可以直接在手上 電腦/ iPad 開啟 Jupyter Lab ,但是由遠程的家中電腦來跑 code。

在這篇文章中主要會實作 開啟遠端Jupyter伺服器、用電腦/iPad連結遠端Jupyter伺服器 等兩部分。讓我們開始吧!

Read more »

前陣子為了想玩 Deep Learning ,買了一張近兩萬元的顯卡。結果沒用多久就收到泰國的工作,家裡的桌電就一直擺著生灰塵,實在太痛心了。為了能夠更有效利用桌電,就想到用 ssh 的方式連回家裡操作。
網路上其實有蠻多將 Windows 作為 ssh 伺服器的方式,但因為家裡電腦並不是直接連接網路,中間還隔了一層小米路由器,我就把部署的過程一步步放上來。

Read more »

一般來說,我們在處理文字斷詞時可以直接使用像是jieba這類型的套件,因他已收集足夠豐富的字詞,所以斷字基本上不會有太大誤差。儘管是一些比較特殊的情境,像假如你要分析哈利波特小說的文字內容,或是魔戒的影評分析,網路上大多都有相對應的字典供你載入。但若你想分析的文章你苦苦找尋就是沒有找著字典,又或者是你想分析公司資料但特有的專業術語太多,這時候就得嘗試自己創造一個專有的字典。

Read more »

我們在分析時,都習慣將資料整理成Tidy Data,以便我們建模來解釋或是預測所關注的事情。但在整理成Tidy Data之前,這些資料基本上都已經是結構化的。所以當我們試圖去分析文字、影像這種非結構化資料時,第一個會碰到的困難點就是如何將這些資料變成我們熟悉的結構化數據。凡通則必有例外,尤其是牽涉到人的時候,那大概只有例外這件事是通則了。與人貼身相關的語言就更不用說了,要能從千變萬化的語言中提煉出「結構化」的型態本身就不是一件容易的事。尤其《Ethnologue: Languages of the World》指稱語言在這世界上起碼有7,102種,即便是同一種語言隨時間、地點的不同也都可能各自發展,就像「擦子」跟「擦布」之類的。

Read more »

由於Hexo本身沒有支援數學公式的顯示,因此即便在Markdown文件輸入數學公式,他也僅會顯示成$\cos\theta = \frac{p\cdot q}{\|p\|\|q\|}$這樣的形式,為了讓Hexo能正確顯示我們想呈現的數學字串cosθ=pqpq\cos\theta = \frac{p\cdot q}{\|p\|\|q\|},我們需加入mathJax的插件。

Read more »

Hexo

還記得最後寫網誌已經是大學的事了,那時候還是無名小站稱霸的年代。對於這麼久沒接觸Blog的我來說,需求也已經跟以往相差甚遠了。因為主要是記錄我的學習心得,所以一定要包含:

  • 漂亮的呈現程式碼及數學公式
  • 不要有廣告
  • 不用網路也可以撰寫或排版
  • 簡單俐落的風格

在尋尋覓覓後,我總算找到了Hexo這個平台。在很多的Blog中都可以發現它的身影,厲害的是它的作者Tommy Chen竟然是台灣人,大家可以去看看他一手打造的心路歷程。

由於我僅對R及Matlab的語法較熟悉,大學雖然有修過一點系統程式,但也年代久遠,所以在打造這個Blog花了我不少時間。我會將我架設的過程盡可能完整的寫出來,方便讓跟我一樣沒什麼基礎的人可以直接上手!

Read more »
0%