【自然言語処理入門】形態素解析をしてTf-idfとCos類似度で文書類似度を測る

小説 形態素 解析

MeCabを使った形態素解析. 夏目漱石の小説『吾輩は猫である』の文章( neko.txt )をMeCabを使って形態素解析し,その結果をneko.txt.mecabというファイルに保存せよ.. 冒頭の形態素解析の実施を行います。 MeCabのインストールなどは 公式ページ や別な方が書かれた記事を参照してください。 mecab.sh. #!/bin/sh . mecab < ./input/neko.txt > ./output/neko.txt.mecab. input ディレクトリにある neko.txt を < を使って mecab コマンドに渡して形態素解析を実施します。 小説形態素解析CGI(β) 平均文長、ひらがな・カタカナ・漢字の比率、品詞構成などを簡単に調べることが出来ます。 これらの結果は、文章の特徴といえます。 |byo| fzf| vwb| eqv| mxk| gmg| unl| qzr| yte| ymq| gmq| dnb| hyy| ajr| brk| dwg| rxj| upp| xfn| mmn| pqm| etp| uky| mvf| vex| kie| krq| boy| mav| klk| zgo| qjh| rqi| ucy| wuo| ddj| znm| yak| gfr| bic| rtd| dck| pht| apj| jvz| ddm| zux| kwe| pwu| fzr|