Calendar

2012.05.
SUN MON TUE WED THU FRI SAT
- - 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31 - -

プロフィール

Author:myzkkzy
FC2ブログへようこそ!

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

これは忘れないように

Pythonを進めるための備忘録

--
----
--

スポンサーサイト

スポンサー広告| --:--| TOP
上記の広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書く事で広告が消せます。
2011
0701
Fri

MacOSX10.6 にCaboCha0.60pre4をインストールとPythonバインディング

PythonC:0T:0| 20:05| TOP
以前のCaboChaはDarts,TinySVM,YamCha,ChaSenが必要でしたが,
CaboCha0.60pre1から,それらへの依存をなくし,UTF-8に対応したようです(参考),

インストール準備
まず確認です.MacPortsでMeCabをインストールしていませんか?
まずmakeでこけます.
MeCabはソースからインストールしましょう.
あと,CRF++が必要になりますので,それもインストールしましょう.ダウンロードはここからです.
CaboChaのダウンロードはここからです.

CRF++のインストール

$ tar -zxvf CRF++-0.54.tar.gz
$ cd CRF++-0.54.tar.gz
$ ./configure
$ make
$ sudo make install


CaboChaのインストール
Macにインストール際に ./configure時には,必ずLIBS=-liconvを

$ tar -zxvf cabocha-0.60pre4.tar.bz2
$ cd cabocha-0.60pre4.tar.bz2
$ LIBS=-liconv ./configure --with-mecab-config=/usr/local/bin/mecab-config
--with-morphological-analyzer=mecab --with-charset=utf8
#形態素解析器にmecabを指定.コードをutf8を指定.
$ make
$ sudo make install


そのまま,CaboChaとPythonバインディング

$ cd python
$ python setup.py build
$ sudo python setup.py install


これでインストールが完了しました.

参考
http://chasen.org/~taku/blog/mt-tb.cgi/237
http://mikeneck.blogspot.com/2011/03/cabochawgetmake-install.html
http://d.hatena.ne.jp/awakia-n/20100128
2011
0617
Fri

urllibを使用してhtmlにアクセスする

未分類C:0T:0| 17:09| TOP
今回は青空文庫を利用しました.
青空文庫の走れメロスに urllib を使用して,アクセスしました.


>>> import urllib
>>> url = 'http://www.aozora.gr.jp/cards/000035/files/1567_14913.html'
>>> html = urllib.urlopen(url).read()
>>> print html


これでいけると思っていましたが文字化けしました.
サイトを良く見てみると文字コードがSHIFT-JISだったので,
以下のように修正.


>>> import urllib
>>> url = 'http://www.aozora.gr.jp/cards/000035/files/1567_14913.html'
>>> html = urllib.urlopen(url).read().decode('shift-jis')
>>> print html


これで表示されるようになりました.
2011
0502
Mon

Mac OSX10.6にnltkをインストール

PythonC:0T:0| 11:21| TOP
NLTKにアクセス.downloadへ移動し,PyYAMLとNLTKをダウンロードします.

PyYAMLをソースからコンパイル.

$ tar -zxvf PyYAML-3.09.tar.gz
$ cd PyYAML-3.09
$ python setup.py build
$ sudo python setup.py install


NLTKは.dgmをそのまま実行し,インストール完了します.
ターミナルから,import nltk とするとインポートできるはずだったんですが,

$ python
Python 2.7.1 (r271:86882M, Nov 30 2010, 10:35:34)
[GCC 4.2.1 (Apple Inc. build 5664)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
Traceback (most recent call last):
File "", line 1, in
ImportError: No module named nltk
>>>

と怒られます.
公式をよく見てみると,

Troubleshooting

It is possible that the NLTK installer gives an error message like "Errors occurred. Try installing again." This may indicate that the NLTK installer could not locate a suitable version of Python on your machine, or that you have more than one suitable version of Python installed. In this case, open a terminal window, type cd /tmp/nltk-installer and then type sudo python setup.py install.


要は,適切な場所にNLTKがインストールされていませんので,ターミナルで手動でインストール完了してくださいということです.tmpディレクトリにnltk-installerがあるはずなので,そこからインストールします.

$ cd /tmp
$ ls -l
total 0
drwxr-xr-x 9 root staff 306 4 11 14:12 nltk-installer
$ cd nltk-installer
$ sudo python setup.py install



$ python
Python 2.7.1 (r271:86882M, Nov 30 2010, 10:35:34)
[GCC 4.2.1 (Apple Inc. build 5664)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>>


これでちゃんとインポートできるようになりました.
2011
0501
Sun

PythonにMeCabを導入

PythonC:0T:0| 17:22| TOP
今回は,Macportsを使用せず,手動で導入したいと思います.
Xcodeのインストールをお忘れなく.

まずはMeCab
sourceforgeからmecab-0.98.tar.gzmecab-ipadic-2.7.0-20070801.tar.gzをダウンロードします.
ターミナルを開き,解凍,インストールを順次行っていきます.

mecab-0.98の場合

$ tar -zxvf mecab-0.98.tar.bz
$ cd mecab-0.98
$ ./configure
$ sudo make install


mecab-ipadic-2.7.0-20070801の場合
UTF-8使用のため,./configureの時に--with-charset=utf8をお忘れなく.

$ tar -zxvf mecab-ipadic-2.7.0-20070801
$ cd mecab-ipadic-2.7.0-20070801
$ ./configure --with-charset=utf8
$ sudo make install


これで,MeCabと辞書のインストールが完了しました.
試しに使ってみますと,

$ mecab

これでインストール完了しました

これ 名詞,代名詞,一般,*,*,*,これ,コレ,コレ
で 助詞,格助詞,一般,*,*,*,で,デ,デ
インストール 名詞,一般,*,*,*,*,インストール,インストール,インストール
完了 名詞,サ変接続,*,*,*,*,完了,カンリョウ,カンリョー
し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
EOS

となります.

次に,mecab-pythonのインストールに移っていきます.
mecab-python-0.98.tar.gzからファイルをダウンロードします.

先ほどと同じように,ターミナルを起動し,以下を入力します.


$ tar -zxvf mecab-python-0.98.tar.gz
$ cd mecab-python-0.98
$ python setup.py build
$ sudo python setup.py install


これで,Python上でMeCabが使えるようになりました.

参考
http://d.hatena.ne.jp/murapong/20100321/1269190696
http://d.hatena.ne.jp/yukihir0/20110130/1296363995
http://d.hatena.ne.jp/lucky_pool/20100930/1285850868
2011
0501
Sun

Pythonを始める前の準備:インストール

PythonC:0T:0| 15:21| TOP
まずPythonをインストールします.
その前に,使用環境はMac OSX10.6.7 SnowLeopardです.

Python公式HPから
「Python 2.7.1 Mac OS X 64-bit/32-bit x86-64/i386 Installer 」をダウンロードし,.dmgファイルを実行し,インストールします.

Pythonの準備としてはここまでです.
次は,MeCabを導入していきます.

Copyright © これは忘れないように All Rights Reserved.

Designed by Flug / Illust by ふわふわ。り / Admin

FC2Ad

FC2ブログ


検索フォーム

RSSリンクの表示

リンク

Powered By FC2ブログ

今すぐブログを作ろう!

Powered By FC2ブログ

ブロとも申請フォーム

QRコード

QR