web-dev-qa-db-ja.com

文字列からHTMLタグを削除する

Java文字列からHTMLを削除する良い方法はありますか?のような単純な正規表現

 replaceAll("\\<.*?>","") 

しかし、&amp;のようなものは正しく変換されず、2つの山括弧の間の非HTMLは削除されます(すなわち、正規表現の.*?は消えます)。

391
Mason

正規表現の代わりにHTMLパーサーを使用してください。これは Jsoup で単純です。

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoupはまた、 をサポートしており、カスタマイズ可能なホワイトリストに対してHTMLタグを削除することができます。 <b><i>および<u>

また見なさい:

522
BalusC

Android のために書いているなら/あなたはこれをすることができます...

Android.text.Html.fromHtml(instruction).toString()
262
Ken Goodridge

ユーザーが<b>hey!</b>と入力した場合、<b>hey!</b>またはhey!を表示しますか?最初の場合は、小なり記号をエスケープし、アンパサンド(およびオプションで引用符)をhtmlエンコードすれば問題ありません。 2番目のオプションを実装するためのコードの変更は次のとおりです。

replaceAll("\\<[^>]*>","")

ただし、ユーザーが<bhey!</b>などの不正な形式を入力すると問題が発生します。

JTidy をチェックアウトすることもできます。これは「ダーティ」なhtml入力を解析し、タグを削除してテキストを保持する方法を提供する必要があります。

Htmlをストリップしようとすることの問題は、ブラウザーが見つけることができるライブラリよりも寛容な非常に寛容なパーサーを持っていることです。 、still出力を安全に保つために、残っているHTML特殊文字を必ずエンコードする必要があります。

78

もう1つの方法は、 javax.swing.text.html.HTMLEditorKit を使用してテキストを抽出することです。

import Java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;

public class Html2Text extends HTMLEditorKit.ParserCallback {
    StringBuffer s;

    public Html2Text() {
    }

    public void parse(Reader in) throws IOException {
        s = new StringBuffer();
        ParserDelegator delegator = new ParserDelegator();
        // the third parameter is TRUE to ignore charset directive
        delegator.parse(in, this, Boolean.TRUE);
    }

    public void handleText(char[] text, int pos) {
        s.append(text);
    }

    public String getText() {
        return s.toString();
    }

    public static void main(String[] args) {
        try {
            // the HTML to convert
            FileReader in = new FileReader("Java-new.html");
            Html2Text parser = new Html2Text();
            parser.parse(in);
            in.close();
            System.out.println(parser.getText());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

ref: ファイルからHTMLタグを削除してTEXTのみを抽出する

27
RealHowTo

HTMLタグをフィルタリングする最も簡単な方法は次のようになると思います。

private static final Pattern REMOVE_TAGS = Pattern.compile("<.+?>");

public static String removeTags(String string) {
    if (string == null || string.length() == 0) {
        return string;
    }

    Matcher m = REMOVE_TAGS.matcher(string);
    return m.replaceAll("");
}
22
Serge

Jericho を使用するのも非常に簡単で、フォーマット設定(たとえば、改行やリンク)を保持することもできます。

    Source htmlSource = new Source(htmlText);
    Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
    Renderer htmlRend = new Renderer(htmlSeg);
    System.out.println(htmlRend.toString());
18
Josh

Androidでは、これを試してください:

String result = Html.fromHtml(html).toString();
15
Ameen Maheen

単純にJsoup.parse(html).text()を実行するという一般的な回答には、2つの潜在的な問題があります(JSoup 1.7.3を使用)。

  • テキストから改行を削除します
  • テキスト&lt;script&gt;<script>に変換します

XSSから保護するためにこれを使用すると、これは少し面倒です。 JSoupとApache StringEscapeUtilsの両方を使用した、改善されたソリューションの私のベストショットは次のとおりです。

// breaks multi-level of escaping, preventing &amp;lt;script&amp;gt; to be rendered as <script>
String replace = input.replace("&amp;", "");
// decode any encoded html, preventing &lt;script&gt; to be rendered as <script>
String html = StringEscapeUtils.unescapeHtml(replace);
// remove all html tags, but maintain line breaks
String clean = Jsoup.clean(html, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
// decode html again to convert character entities back into text
return StringEscapeUtils.unescapeHtml(clean);

最後のステップは、出力をプレーンテキストとして使用する必要があるためです。 HTML出力のみが必要な場合は、それを削除できるはずです。

そしてここにたくさんのテストケースがあります(入力から出力へ):

{"regular string", "regular string"},
{"<a href=\"link\">A link</a>", "A link"},
{"<script src=\"http://evil.url.com\"/>", ""},
{"&lt;script&gt;", ""},
{"&amp;lt;script&amp;gt;", "lt;scriptgt;"}, // best effort
{"\" ' > < \n \\ é å à ü and & preserved", "\" ' > < \n \\ é å à ü and & preserved"}

あなたがそれをより良くする方法を見つけるならば、私に知らせてください。

12
Damien

HTMLエスケープは正しいことをするのが本当に難しいです - あなたが思うよりずっと微妙なので、私は間違いなくこれをするためにライブラリコードを使うことを勧めます。 Javaでこれを処理するためのかなり良いライブラリについては、Apacheの StringEscapeUtils を調べてください。

12
Tim Howland

Timが示唆しているようにHTMLが読みにくくなるのを防ぐために、HTMLを削除する前に<br/>タグと</p>タグを改行に置き換えることをお勧めします。

HTMLタグを削除し、山括弧の間に非HTMLを残すことを考えることができる唯一の方法は、 HTMLタグのリスト に対してチェックすることです。これらの線に沿って何か...

replaceAll("\\<[\s]*tag[^>]*>","")

それから&amp;のような特殊文字をHTMLデコードします。結果は消毒されると見なされるべきではありません。

6
foxy

これはうまくいくはずです -

これを使って

  text.replaceAll('<.*?>' , " ") -> This will replace all the html tags with a space.

この

  text.replaceAll('&.*?;' , "")-> this will replace all the tags which starts with "&" and ends with ";" like &nbsp;, &amp;, &gt; etc.
5
Sandeep1699

私が示したテストケースでは、受け入れられた答えは私にとってうまくいきませんでした: "a <b or b> c"の結果は "a b or b> c"です。

そこで、代わりにTagSoupを使いました。これが私のテストケース(および他のいくつかのケース)でうまくいったショットです。

import Java.io.IOException;
import Java.io.StringReader;
import Java.util.logging.Logger;

import org.ccil.cowan.tagsoup.Parser;
import org.xml.sax.Attributes;
import org.xml.sax.ContentHandler;
import org.xml.sax.InputSource;
import org.xml.sax.Locator;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;

/**
 * Take HTML and give back the text part while dropping the HTML tags.
 *
 * There is some risk that using TagSoup means we'll permute non-HTML text.
 * However, it seems to work the best so far in test cases.
 *
 * @author dan
 * @see <a href="http://home.ccil.org/~cowan/XML/tagsoup/">TagSoup</a> 
 */
public class Html2Text2 implements ContentHandler {
private StringBuffer sb;

public Html2Text2() {
}

public void parse(String str) throws IOException, SAXException {
    XMLReader reader = new Parser();
    reader.setContentHandler(this);
    sb = new StringBuffer();
    reader.parse(new InputSource(new StringReader(str)));
}

public String getText() {
    return sb.toString();
}

@Override
public void characters(char[] ch, int start, int length)
    throws SAXException {
    for (int idx = 0; idx < length; idx++) {
    sb.append(ch[idx+start]);
    }
}

@Override
public void ignorableWhitespace(char[] ch, int start, int length)
    throws SAXException {
    sb.append(ch);
}

// The methods below do not contribute to the text
@Override
public void endDocument() throws SAXException {
}

@Override
public void endElement(String uri, String localName, String qName)
    throws SAXException {
}

@Override
public void endPrefixMapping(String prefix) throws SAXException {
}


@Override
public void processingInstruction(String target, String data)
    throws SAXException {
}

@Override
public void setDocumentLocator(Locator locator) {
}

@Override
public void skippedEntity(String name) throws SAXException {
}

@Override
public void startDocument() throws SAXException {
}

@Override
public void startElement(String uri, String localName, String qName,
    Attributes atts) throws SAXException {
}

@Override
public void startPrefixMapping(String prefix, String uri)
    throws SAXException {
}
}
4
dfrankow

私はこれが古いことを知っています、しかし私はちょうどHTMLをフィルターにかけることを私に要求したプロジェクトに取り組んでいて、これはうまくいきました:

noHTMLString.replaceAll("\\&.*?\\;", "");

これの代わりに:

html = html.replaceAll("&nbsp;","");
html = html.replaceAll("&amp;"."");
4
rqualis

あるいは、 HtmlCleaner を使用することができます。

private CharSequence removeHtmlFrom(String html) {
    return new HtmlCleaner().clean(html).getText();
}
4
Stephan

Html.fromHtmlを使用

HTMLタグは

<a href=”…”> <b>,  <big>, <blockquote>, <br>, <cite>, <dfn>
<div align=”…”>,  <em>, <font size=”…” color=”…” face=”…”>
<h1>,  <h2>, <h3>, <h4>,  <h5>, <h6>
<i>, <p>, <small>
<strike>,  <strong>, <sub>, <sup>, <tt>, <u>

Androidの公式ドキュメンテーションのような _ html _ のタグは一般的な置き換えとして表示されます 文字列 その後あなたのプログラムは通過して置き換える実際のstringsの場合.

Html.formHtmlメソッドは、Html.TagHandlerおよびHtml.ImageGetterを引数として、解析するテキストを取ります。

String Str_Html=" <p>This is about me text that the user can put into their profile</p> ";

それから

Your_TextView_Obj.setText(Html.fromHtml(Str_Html).toString());

出力

これは私が自分のプロフィールに入れることができるテキストについてのものです

4
IntelliJ Amiya

これは、ブレークとリストのフォーマットを処理しようとするための、もう少し具体的なアップデートです。ガイドとしてAmayaの出力を使用しました。

import Java.io.IOException;
import Java.io.Reader;
import Java.io.StringReader;
import Java.util.Stack;
import Java.util.logging.Logger;

import javax.swing.text.MutableAttributeSet;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.parser.ParserDelegator;

public class HTML2Text extends HTMLEditorKit.ParserCallback {
    private static final Logger log = Logger
            .getLogger(Logger.GLOBAL_LOGGER_NAME);

    private StringBuffer stringBuffer;

    private Stack<IndexType> indentStack;

    public static class IndexType {
        public String type;
        public int counter; // used for ordered lists

        public IndexType(String type) {
            this.type = type;
            counter = 0;
        }
    }

    public HTML2Text() {
        stringBuffer = new StringBuffer();
        indentStack = new Stack<IndexType>();
    }

    public static String convert(String html) {
        HTML2Text parser = new HTML2Text();
        Reader in = new StringReader(html);
        try {
            // the HTML to convert
            parser.parse(in);
        } catch (Exception e) {
            log.severe(e.getMessage());
        } finally {
            try {
                in.close();
            } catch (IOException ioe) {
                // this should never happen
            }
        }
        return parser.getText();
    }

    public void parse(Reader in) throws IOException {
        ParserDelegator delegator = new ParserDelegator();
        // the third parameter is TRUE to ignore charset directive
        delegator.parse(in, this, Boolean.TRUE);
    }

    public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {
        log.info("StartTag:" + t.toString());
        if (t.toString().equals("p")) {
            if (stringBuffer.length() > 0
                    && !stringBuffer.substring(stringBuffer.length() - 1)
                            .equals("\n")) {
                newLine();
            }
            newLine();
        } else if (t.toString().equals("ol")) {
            indentStack.Push(new IndexType("ol"));
            newLine();
        } else if (t.toString().equals("ul")) {
            indentStack.Push(new IndexType("ul"));
            newLine();
        } else if (t.toString().equals("li")) {
            IndexType parent = indentStack.peek();
            if (parent.type.equals("ol")) {
                String numberString = "" + (++parent.counter) + ".";
                stringBuffer.append(numberString);
                for (int i = 0; i < (4 - numberString.length()); i++) {
                    stringBuffer.append(" ");
                }
            } else {
                stringBuffer.append("*   ");
            }
            indentStack.Push(new IndexType("li"));
        } else if (t.toString().equals("dl")) {
            newLine();
        } else if (t.toString().equals("dt")) {
            newLine();
        } else if (t.toString().equals("dd")) {
            indentStack.Push(new IndexType("dd"));
            newLine();
        }
    }

    private void newLine() {
        stringBuffer.append("\n");
        for (int i = 0; i < indentStack.size(); i++) {
            stringBuffer.append("    ");
        }
    }

    public void handleEndTag(HTML.Tag t, int pos) {
        log.info("EndTag:" + t.toString());
        if (t.toString().equals("p")) {
            newLine();
        } else if (t.toString().equals("ol")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("ul")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("li")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("dd")) {
            indentStack.pop();
            ;
        }
    }

    public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {
        log.info("SimpleTag:" + t.toString());
        if (t.toString().equals("br")) {
            newLine();
        }
    }

    public void handleText(char[] text, int pos) {
        log.info("Text:" + new String(text));
        stringBuffer.append(text);
    }

    public String getText() {
        return stringBuffer.toString();
    }

    public static void main(String args[]) {
        String html = "<html><body><p>paragraph at start</p>hello<br />What is happening?<p>this is a<br />mutiline paragraph</p><ol>  <li>This</li>  <li>is</li>  <li>an</li>  <li>ordered</li>  <li>list    <p>with</p>    <ul>      <li>another</li>      <li>list        <dl>          <dt>This</dt>          <dt>is</dt>            <dd>sdasd</dd>            <dd>sdasda</dd>            <dd>asda              <p>aasdas</p>            </dd>            <dd>sdada</dd>          <dt>fsdfsdfsd</dt>        </dl>        <dl>          <dt>vbcvcvbcvb</dt>          <dt>cvbcvbc</dt>            <dd>vbcbcvbcvb</dd>          <dt>cvbcv</dt>          <dt></dt>        </dl>        <dl>          <dt></dt>        </dl></li>      <li>cool</li>    </ul>    <p>stuff</p>  </li>  <li>cool</li></ol><p></p></body></html>";
        System.out.println(convert(html));
    }
}
4
Mike

これをすべて置き換える方法のもう1つの変形を次に示します(HTMLタグ| HTMLエンティティ| HTMLコンテンツの空スペース)。

content.replaceAll("(<.*?>)|(&.*?;)|([ ]{2,})", "");ここで、contentはStringです。

3
silentsudo

もう1つの方法は、com.google.gdata.util.common.html.HtmlToTextクラスを使用することです。

MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));

ただし、これは完全なコードではありません。また、ウィキペディアのエントリで実行すると、スタイル情報も取得されます。しかし、私は小規模/簡単な仕事のためにこれが効果的になると思います。

3
rjha94

これを行う別の方法は次のとおりです。

public static String removeHTML(String input) {
    int i = 0;
    String[] str = input.split("");

    String s = "";
    boolean inTag = false;

    for (i = input.indexOf("<"); i < input.indexOf(">"); i++) {
        inTag = true;
    }
    if (!inTag) {
        for (i = 0; i < str.length; i++) {
            s = s + str[i];
        }
    }
    return s;
}
3
blackStar

HTMLからプレーンテキストにしたいようです。
その場合は、www.htmlparser.orgをご覧ください。これは、URLで見つかったhtmlファイルからすべてのタグを削除する例です。
org.htmlparser.beans.StringBean を使用します。

static public String getUrlContentsAsText(String url) {
    String content = "";
    StringBean stringBean = new StringBean();
    stringBean.setURL(url);
    content = stringBean.getStrings();
    return content;
}
3
Mark

この目的のために Apache Tika を使うこともできます。デフォルトでは、取り除かれたhtmlから空白を保存します。

InputStream htmlInputStream = ..
HtmlParser htmlParser = new HtmlParser();
HtmlContentHandler htmlContentHandler = new HtmlContentHandler();
htmlParser.parse(htmlInputStream, htmlContentHandler, new Metadata())
System.out.println(htmlContentHandler.getBodyText().trim())
2
Maksim Sorokin

あなたは単にAndroidのデフォルトのHTMLフィルタを使うことができます

    public String htmlToStringFilter(String html){

    return Html.fromHtml(textToFilter).toString();

    }

上記のメソッドはあなたの入力に対してHTMLでフィルタされた文字列を返します。

1

改行情報をJSoupで保持する1つの方法は、すべての改行タグの前に何らかのダミー文字列を置き、JSoupを実行してダミー文字列を "\ n"に置き換えることです。

String html = "<p>Line one</p><p>Line two</p>Line three<br/>etc.";
String NEW_LINE_MARK = "NEWLINESTART1234567890NEWLINEEND";
for (String tag: new String[]{"</p>","<br/>","</h1>","</h2>","</h3>","</h4>","</h5>","</h6>","</li>"}) {
    html = html.replace(tag, NEW_LINE_MARK+tag);
}

String text = Jsoup.parse(html).text();

text = text.replace(NEW_LINE_MARK + " ", "\n\n");
text = text.replace(NEW_LINE_MARK, "\n\n");
1
RobMen

例:classeString.replaceAll( "\ <(/?[^ \>] +)\>"、 "\").replaceAll( "\ s +"、 "").trim()

0

フォーマットされたプレーンHTMLテキストを取得するには あなたはそれをすることができます:

String BR_ESCAPED = "&lt;br/&gt;";
Element el=Jsoup.parse(html).select("body");
el.select("br").append(BR_ESCAPED);
el.select("p").append(BR_ESCAPED+BR_ESCAPED);
el.select("h1").append(BR_ESCAPED+BR_ESCAPED);
el.select("h2").append(BR_ESCAPED+BR_ESCAPED);
el.select("h3").append(BR_ESCAPED+BR_ESCAPED);
el.select("h4").append(BR_ESCAPED+BR_ESCAPED);
el.select("h5").append(BR_ESCAPED+BR_ESCAPED);
String nodeValue=el.text();
nodeValue=nodeValue.replaceAll(BR_ESCAPED, "<br/>");
nodeValue=nodeValue.replaceAll("(\\s*<br[^>]*>){3,}", "<br/><br/>");

フォーマットされたプレーンテキストを取得するには を<br/>\n変更し、最後の行を次のように変更します。

nodeValue=nodeValue.replaceAll("(\\s*\n){3,}", "<br/><br/>");
0
surfealokesea

私の5セント:

String[] temp = yourString.split("&amp;");
String tmp = "";
if (temp.length > 1) {

    for (int i = 0; i < temp.length; i++) {
        tmp += temp[i] + "&";
    }
    yourString = tmp.substring(0, tmp.length() - 1);
}
0
Alexander