關於我自己

我的相片
New York, New York, United States
我叫江奕賢啦

2006年10月31日

網頁資料擷取 website data extraction

怎樣把網頁裡的資料擷取出來 轉成XML, HTML, RSS, JSON, etc?
比如說 把交友網站裡面妹妹的資料都蒐集起來?
把成人網站裡的照片都蒐集出來?
把ebay裡面的data都extract出來做data mining?

use Screen Scraper to scrap it?
你可以試試看給firefox用的Piggy Bank + Solvent

不過呢 我覺得我還是喜歡 Dapp it!
因為不用用我的CPU 不用用我的頻寬

PS:上面這兩個都有個共通點我非常欣賞
就是 做出來的東西 都可以直接share出來讓大家用
尤其是dappit 讚!還可以直接table join在一起

2006年10月30日

cross domain ajax 解決方案

起源:
最近純粹好玩寫了一個service
想叫browser自己去網路上搞些別人的xml資料 套上些自己的東西然後顯示出來
可是現在的browser跟我那時代的不一樣了 很多洞都補起來了
但是呢 又不想用自己的頻寬當proxy (寫過ajax的人應該很熟我在說什麼)


所以呢 我就又動了一下那邪惡的頭腦 brain blast 了一下
本來想說用這三種方式繞過security的限制
1. client side proxy + cross domain ajax
2. a proxy which make everything in the world as in one domain under same directory.
3. use signed java applet or activex

結果呢 果然有很多人跟我沒兩樣的邪惡 (俗話叫英雄所見略同)
關於第一種方式你可以在這裡看到一些hint(or pieces for the puzzle)
關於第二種方式有個替代品 基本上是proxy加上JSON去access cross domain 的 xml data
關於第三種方式 等前兩種方式行不通的時候再說吧 沒事別這麼暴力

To 防守者:
1. 擋掉那個proxy是沒用的 (重點在於方法)
2. 叫browser製造商改browser暫時會有用
3. 最有效的 通常我都是建議 把你們的 server or router 的電源拔掉
PS:其實也沒什麼好防守的啦 她們給出xml格式就是要大家用嘛~ 只是大家都被browser擋住罷了

keyword: cross domain ajax 破解 xml json proxy

2006年10月29日

microsoft word 中級技巧

最近寫個100頁的proposal
三個人(不同國家)一起編寫這篇microsoft word文章
每個人有每個人的習慣
有些人開頭indent 空兩格、有些人開頭按Tab、有些人移頂上的對齊箭頭
各段的title 有些人用heading、有些人用字的大小、有些人用粗體字
強調某句話 有些人用括號、有些人用顏色、有些人用斜體、有些人用粗體
圖片的reference, 文章的reference, link的reference...
這堆東西 怎麼統一啊
把格式全部拿掉 一個字一個字重新檢查assign上format? 要死啊!一百頁幾萬字的耶

這種問題 理論上應該從教育上解決 叫大家都用同一種方式
(就算你用wiki writly還是一樣會碰到這些問題)
但是 這種已經打好的文章 ...唉...

後來我用下面這兩種方法解決

Format - Styles and Formatting
裡面會列出這篇文章用到過的所有format
他可以告訴你某種format用過多少次(用最少次的 通常最值得注意)
也可以把某種format全部換成另外一種format

Tools - Templates and Add-ins
把 Automatically update document styles 打勾
按 Attach 進EndNote選你要投稿的journal templates
她就會幫你把整篇文章格式化成那個journal的格式

by the way, word裡面的search是可以search某種字型、某種顏色、某種format的
雖然小文章好像用不太到 但是很多人一起寫書的話應該常常會用到這些吧

雖然不完美 但是至少格式統一了
而且重點部位該斜的斜了 該粗的粗了 該一樣大的一樣大了

管他的 先交出去再說

有人知道其他方式的麻煩教我一下嘍!

flock bug quick fix

我的flock一個不注意"my news"就壞掉了 打開只顯示一片空白
增加新的feed也沒用 什麼錯誤訊息也沒給我 通通吞進肚子裡去就不理我了
重灌flock也沒用
(因為不想把profile重建一次, flickr, wordexpress, blogger, bookmarks, etc 所以沒清profile)
有些人跟我有一樣的問題
最近沒時間trace(最近沒時間求甚解)
所以隨便找了個治標不治本的方法 記錄如下

1. 把這兩個檔案砍了
flock_feeds_root.rdf
flock_subscriptions.rdf
2. 把feeds這個目錄裡面的subdirectry砍了
3. 重開flock
-----------------
備份方法如下
1. 直接copy這兩個檔案
flock_feeds_root.rdf
flock_subscriptions.rdf
2. 下次copy這兩個檔案回去即可 feeds裡面的目錄會自己生出來 所以砍掉即可

2006年10月18日

free stock data and prediction tools

mas (Market Analysis System):
can give you index graphs, signals, etc.

venice:
impliments NN and genetic programming for prediction.
can give you performance of given rules.

Result1:
mas has more traditional signals then venice.
venice has more functions for prediction.

Result2:
stocks are similar to my proteins, hard to predict.
performance is about 8% / half year.

Result3:
stock data for Taiwan can be got from yahoo and google for free.
ex: "2330.tw" in yahoo, "tpe:2330" in google

不死之身的media player

這幾個月 我的windows media player常常關掉了還繼續有音樂
Process還留在Windows Task Manager裡面 (但是Application已經沒他的蹤跡了)
音樂也還繼續播放,得強迫把process terminate掉
以前想說可能是電腦不穩吧 reboot算了
結果現在終於找出原因了

Media Player --- ActiveSync --- PDA

原因是他跟PDA連上線了 不願意放手
把PDA關了或拔了media player就恢復正常了

清空 java.util.prefs.Preferences

Java 裡用 java.util.prefs.Preferences 存起來的東西
在 Windows 裡面實際上是存在 registry 裡面
My Computer\HKEY_CURRENT_USER\Software\JavaSoft\Prefs當 Java crash 掉的時候 Preferences 的東西有可能壞掉
這時候得手動進去把那些 registry 幹掉

PS: For 設計(or error handling)不良的程式

2006年10月10日

找activator(蛋白質)的方法

可先用 DNase I Footprinting 知道與DNA結合的位置 然後用 Y1H找到protein

DNase I Footprinting:
http://www.biochem.arizona.edu/classes/bioc568/protein_dna_interactions.htm

Y1H, Y2H
http://tgenade.freeshell.org/mybiology/ppi.htm
http://tgenade.freeshell.org/pictures/1hybrid.jpg
http://tgenade.freeshell.org/pictures/2hybrid.jpg

實驗方法請找下面這篇論文

國立中央大學:生命科學研究所
碩士論文:探討酵母菌 glycyl-tRNA 合成酵素的非傳統生物功能
研究生:何宜晏
指導教授:王健家 博士
http://thesis.lib.ncu.edu.tw/ETD-db/ETD-search/getfile?urn=89224008&&filename=89224008.pdf
上面的link已失效

2006年10月3日

Google AJAX Search API

Google 好久沒有大動作了,這次終於又搞了一個大的
這不是像Yahoo那種AJAX API 而是目的很明顯的一個東西
他希望你把她的東西放進你的網頁裡
現在 你可以直接在你的網頁裡面搜尋Google上的東西ex:短片
而直接在你的網頁裡面播放

直接在你的網頁裡面搜尋圖片 秀在你的網頁裡
直接在你的網頁裡面搜尋義大利餐廳 在你的網頁裡直接放進spreadsheets裡面
做所有的事情 都不用離開你的網頁 (看範例)

很多使用者 不願意放link 讓瀏覽者離開自己的網站
所以Google這次幫你做好了

service 終於走向這個方向了
(使用者要什麼 給她們什麼,利益 不是跟使用者搶來的 而是幫使用者創造出來的)