http://www.cnn.com/2009/HEALTH/04/29/swine.flu/index.html
ဒါေပမယ့္ H1N1 ေသနွုန္းကေတာ့ ငွက္တုပ္ေကြးေလာက္ မျပင္းဘူးလို့ျကားမိပါတယ္။ အရမ္းမဆိုးရြားသြားေလာက္ဘူး ထင္ရပါတယ္။
၅၅ နှစ်ပြည့် မင်္ဂလာ ...
5 years ago
သင္ေကာင္းလွ်င္ ကြ်ႏု္ပ္မဆိုးပါ။ သင္ဆိုးလွ်င္ သင့္ထက္ပိုဆိုးလွ်င္ ဆိုးမည္။
【最新スポット情報】မက္ကဆီကို အျခို့နေရာျမားတွင် ဖြဈပွားခြင်းတွ့ေရိ (ဧပြီလ ၂၅ရက်)
メキシコ及び米国の一部の州:H1N1亜型由来豚インフルエンザの発生について (2009/04/25)
import codecs,re,urllib2
f = urllib2.urlopen('http://www.soemin.net/2009/04/font-encoding-detection-for-zawgyi-and.html')
htm=re.sub("(\d+);",lambda x:unichr(int(x.group(1))),f.read().decode("utf8"))
txt=re.findall('<div[^>]+post-body[^>]+>\s*(.*?)\s*<div[^>]+clear:\s*both[^>]+></div>',htm,re.DOTALL)[0]
codecs.open("crawl.txt", 'w+',"utf8").write(txt)
ေဇာ္ဂ်ီနဲ့ ယူနီကုတ္ ၅.၁ ခြဲျခားျခင္း (Font Encoding Detection for Zawgyi and Unicode 5.1)
.....
အဓိကအားျဖင့္ကေတာ့
၁။ သေဝထိုး၊ ရရစ္၊ ရပင္းစတာေတြ နဲ့
....
.....
Cheers,
ေမာင္ ္ ္ ္ ္ က ု ိ က ိ ု ၏၏၏၏၏၏၏။။။။။။။။။။။။။။။။။။။
ျမျကျခ ျကျကိ ျကြ ျကြိ ျခ ျခြ ျခိ ျခြိ ျခ ျခြ ျခိ ျခြီ
ေမာင္္ ကို ကို၏။
ျမျကျချကျကိျကြျကြိျချခြျခိျခြိျချခြျခိျခြီ
acclimatize -ise
authorize ,-ise
amortization , -ise
agonizing,-ise
aggrandizement -ise
>>> r="(\w+iz\w*)\s*,?\s*\-(is\w*)"
>>> [re.sub(r,"\\1",INPUT),re.sub(r,lambda x:x.group(1).replace("iz","is"),INPUT]
[acclimatize,acclimatise]
[authorize,authorise]
[amortization,amortisation]
[agonizing,agonising]
[aggrandizement,aggrandisement]