Pythonを使ったPDFファイルの類似度判定ツールを開発しました。
PDFファイルをアップロードすると、そのテキストを抽出し、形態素分析を実施します。その後、既存のPDFファイル群との間でコサイン類似度を判定し、その判定結果をヒートマップで出力する形になっています。
【業務範囲】
製造からテストまでを私1人で担当いたしました。
納品後も、お客様からのフィードバックを踏まえ、随時機能を追加/修正しています。
【開発規模・期間】
私1人で開発を進めました。
基本設計までは完了していたため、詳細設計・製造・テスト・リリースまでを約1.5ヶ月で対応いたしました。
【概要・ポイント】
Pythonを使ったPDFファイルの類似度判定ツールを開発しました。
PDFファイルをアップロードすると、そのテキストを抽出し、形態素分析を実施します。その後、既存のPDFファイル群との間でコサイン類似度を判定し、その判定結果をヒートマップで出力する形になっています。
【採用技術】
Python、MeCab、numpy、pandas、matplotlib、doc2vec、sent2vec