Word文書は、レイアウトがかなり複雑になり、文書の手やバージョンが数回変更されたときに、多少壊れているように見えることがあります。症状としては、 Backspace または Enter それが実際に機能するはずのドキュメントの特定の場所にあるキー、またはフォーマットが適用され、多かれ少なかれランダムにリセットされるようです。私たちは皆そこに行ったと思います。
多くの場合、Wordの内部では何が起きるかが非常に不透明であるため、何が悪いのかを正確に知ることは非常に困難です。空のように見えるドキュメントを作成することもできますが、実際には、書式設定などの基本的な状態が非常に複雑になる可能性があります。
これらの場合、ページに表示されているものの背後にあるソースコードをのぞいてみると便利です。ブラウザーでのようにソースを表示し、理想的には、Latexを使用するときのように、ソースコードで直接編集できる。 Microsoft Word文書のソースタイプ表示コマンドまたはユーティリティはありますか?
私の推測では、そのような命令はないか、または私はそれについて聞いたでしょう。その場合はWord文書の「隠されたフォーマット」の煩わしさを把握するために、誰かが良い方法を持っていますか?
.doc形式と.docx形式にはいくつかの違いがあるのではないかと思います。両方のケースに興味があります。
書式設定が主に関心のあるものである場合、WordにはReveal Formattingと呼ばれる、テキストおよびオブジェクトに適用されるすべての種類の書式設定を検査するための優れた機能があります。 Word 2007および2010では、このパネルのショートカットは Shift + F1。
それ以外の場合、ドキュメント形式のさらに深い理解を求めている場合は、DOCXファイルのXMLを調べることができます。
データを表示するためだけにきちんとしたXMLエディターが必要ですが、それでもかなり複雑で、大きなドキュメントの場合は非常に長くなります。
DOCとなると、個別のストリームで構成されるバイナリファイルであるため、コンテンツを表示する簡単な方法がないため、「ソースを表示」する簡単な方法はありません。
.doc形式はかなり難しいと思いますので、ここではお手伝いできません。ただし、.docxは実際にはすべての詳細がXMLファイルに格納されたZipファイルです。したがって、ファイルの名前を.Zipに変更して、ソースを確認してください。
* .docのようなバイナリ形式になると、事態はより複雑になります。 LibreOfficeの mso-dumper を使用できます。ソリューションをローカルマシンに複製して実行するだけです
python doc-dump.py \path\to\file.doc >output.xml
これで、バイナリファイル内のすべてのものは、 Word(.doc)バイナリファイル形式 で説明されている正確な形式のxmlに変換されます。
WordFileDump もありますが、これは単純ですがmso-dumperほど強力ではありません
残念ながら、これらは構造を分析するためだけのものであり、xml出力を* .docファイルに再構成するツールはありません。そのため、根本的な原因を見つけたら、Wordを使用して編集する必要があります。したがって、*。docxに変換する方が簡単です。*。docxファイルを調べ、必要に応じて* .docに変換して戻します。
または、office xmlの代わりに「人間が読める」テキストファイルである rtf としてファイルを保存することもできます。または Wordファイルをhtmlとして保存