ユーザーがMicrosoftOfficeドキュメントファイルをアップロードできるWebアプリケーションに取り組んでいます。現在、サーバーはExpress.jsでNode.JSを実行しており、Herokuでホストされています。このため、abiwordやcatdocなどのプログラムはインストールできないと思います。ファイルのアップロードは処理できますが、ドキュメントの内容を解析できません。
Docファイルの内容を読み取るにはどうすればよいですか?その後、情報はデータベースに入れられます。基本的なフォーマット(太字、斜体、下線)を保持するのは良いことですが、必須ではありません。
Wordを直接実行するNPMで取得できるものはないようですが、REST APIを使用して、別のクラウドサービスを介して要求することができる場合があります。たとえば、- Saaspose (有名なAsposeツールの)には、 Word 、 Excel 、 [〜#〜] pdf [〜#〜 ] 、その他。node.js、javascript、Herokuのサポートをページにリストしています。
編集:
Saasposeは現在 Aspose for Cloud と呼ばれていることがわかります
同様のことを主張する別のAPIは Doxument
Office パッケージ:npm install office
答えの少なくとも一部を提供しているようです。私はこれを使用してExcelファイルを読み取りますが、これまでのところWordドキュメントを試していません。
まだないようです。役立つ可能性のあるものについては、以下を参照してください。
Mammothを使用して.docxファイルを解析できます https://www.npmjs.com/package/mammoth およびxlsxを使用して.xlsxファイルを解析できます https://github.com/SheetJS/ js-xlsx