GMLベースのXMLスキーマ(以下のサンプル)の「機能」をサーバーから取得するために、C#でGISクライアントツールを作成しています。抽出は100,000個の機能に制限されています。
最大のextract.xmlが約150メガバイトになる可能性があると推測しているので、明らかにDOMパーサーは使用できません XmlSerializer と XSD.EXE 生成されたバインディング--OR-- XmlReader および手作りのオブジェクトグラフ。
または、まだ検討していないより良い方法がありますか? XLINQ、または????
誰でも私を導くことができますか?特に、特定のアプローチのメモリ効率に関して。そうでない場合は、両方のソリューションを「プロトタイプ化」して、それらを並べてプロファイルする必要があります。
私は、.NETでの生のエビです。どんなガイダンスでも大歓迎です。
ありがとう。キース。
サンプルXML-最大100,000個、機能ごとに最大234,600個の座標。
<feature featId="27168306" fType="vegetation" fTypeId="1129" fClass="vegetation" gType="Polygon" ID="0" cLockNr="51598" metadataId="51599" mdFileId="NRM/TIS/VEGETATION/9543_22_v3" dataScale="25000">
<MultiGeometry>
<geometryMember>
<Polygon>
<outerBoundaryIs>
<LinearRing>
<coordinates>153.505004,-27.42196 153.505044,-27.422015 153.503992 .... 172 coordinates omitted to save space ... 153.505004,-27.42196</coordinates>
</LinearRing>
</outerBoundaryIs>
</Polygon>
</geometryMember>
</MultiGeometry>
</feature>
XmlReader
を使用して、大きなXMLドキュメントを解析します。 XmlReader
は、XMLデータへの高速でフォワードのみの非キャッシュアクセスを提供します。 (前方のみは、XMLファイルを最初から最後まで読み取ることができますが、ファイル内で後方に移動することはできません。)XmlReader
は少量のメモリを使用し、単純なSAXリーダーを使用するのと同等です。
using (XmlReader myReader = XmlReader.Create(@"c:\data\coords.xml"))
{
while (myReader.Read())
{
// Process each node (myReader.Value) here
// ...
}
}
XmlReaderを使用して、最大2ギガバイト(GB)のサイズのファイルを処理できます。
Asat 2009年5月14日:ハイブリッドアプローチの使用に切り替えました。以下のコードを参照してください。
このバージョンには、両方の利点のほとんどがあります。
* XmlReader/XmlTextReader(メモリ効率->速度);そして
* XmlSerializer(code-gen->開発の便宜性と柔軟性)。
XmlTextReaderを使用してドキュメントを反復処理し、XmlSerializerとXSD.EXEで生成された「XMLバインディング」クラスを使用して逆シリアル化する「ドックレット」を作成します。
このレシピは普遍的に適用可能であり、高速だと思います... 56,000 GML機能を含む201 MBのXMLドキュメントを約7秒で解析しています...このアプリケーションの古いVB6実装は解析に数分(または数時間)かかりました大規模な抽出...だから私は行くのがいいよ。
もう一度、[〜#〜] big [〜#〜]貴重な時間を寄付してくれたフォーラムに感謝します。ほんとうにありがとう。
乾杯。キース。
using System;
using System.Reflection;
using System.Xml;
using System.Xml.Serialization;
using System.IO;
using System.Collections.Generic;
using nrw_rime_extract.utils;
using nrw_rime_extract.xml.generated_bindings;
namespace nrw_rime_extract.xml
{
internal interface ExtractXmlReader
{
rimeType read(string xmlFilename);
}
/// <summary>
/// RimeExtractXml provides bindings to the RIME Extract XML as defined by
/// $/Release 2.7/Documentation/Technical/SCHEMA and DTDs/nrw-rime-extract.xsd
/// </summary>
internal class ExtractXmlReader_XmlSerializerImpl : ExtractXmlReader
{
private Log log = Log.getInstance();
public rimeType read(string xmlFilename)
{
log.write(
string.Format(
"DEBUG: ExtractXmlReader_XmlSerializerImpl.read({0})",
xmlFilename));
using (Stream stream = new FileStream(xmlFilename, FileMode.Open))
{
return read(stream);
}
}
internal rimeType read(Stream xmlInputStream)
{
// create an instance of the XmlSerializer class,
// specifying the type of object to be deserialized.
XmlSerializer serializer = new XmlSerializer(typeof(rimeType));
serializer.UnknownNode += new XmlNodeEventHandler(handleUnknownNode);
serializer.UnknownAttribute +=
new XmlAttributeEventHandler(handleUnknownAttribute);
// use the Deserialize method to restore the object's state
// with data from the XML document.
return (rimeType)serializer.Deserialize(xmlInputStream);
}
protected void handleUnknownNode(object sender, XmlNodeEventArgs e)
{
log.write(
string.Format(
"XML_ERROR: Unknown Node at line {0} position {1} : {2}\t{3}",
e.LineNumber, e.LinePosition, e.Name, e.Text));
}
protected void handleUnknownAttribute(object sender, XmlAttributeEventArgs e)
{
log.write(
string.Format(
"XML_ERROR: Unknown Attribute at line {0} position {1} : {2}='{3}'",
e.LineNumber, e.LinePosition, e.Attr.Name, e.Attr.Value));
}
}
/// <summary>
/// xtractXmlReader provides bindings to the extract.xml
/// returned by the RIME server; as defined by:
/// $/Release X/Documentation/Technical/SCHEMA and
/// DTDs/nrw-rime-extract.xsd
/// </summary>
internal class ExtractXmlReader_XmlTextReaderXmlSerializerHybridImpl :
ExtractXmlReader
{
private Log log = Log.getInstance();
public rimeType read(string xmlFilename)
{
log.write(
string.Format(
"DEBUG: ExtractXmlReader_XmlTextReaderXmlSerializerHybridImpl." +
"read({0})",
xmlFilename));
using (XmlReader reader = XmlReader.Create(xmlFilename))
{
return read(reader);
}
}
public rimeType read(XmlReader reader)
{
rimeType result = new rimeType();
// a deserializer for featureClass, feature, etc, "doclets"
Dictionary<Type, XmlSerializer> serializers =
new Dictionary<Type, XmlSerializer>();
serializers.Add(typeof(featureClassType),
newSerializer(typeof(featureClassType)));
serializers.Add(typeof(featureType),
newSerializer(typeof(featureType)));
List<featureClassType> featureClasses = new List<featureClassType>();
List<featureType> features = new List<featureType>();
while (!reader.EOF)
{
if (reader.MoveToContent() != XmlNodeType.Element)
{
reader.Read(); // skip non-element-nodes and unknown-elements.
continue;
}
// skip junk nodes.
if (reader.Name.Equals("featureClass"))
{
using (
StringReader elementReader =
new StringReader(reader.ReadOuterXml()))
{
XmlSerializer deserializer =
serializers[typeof (featureClassType)];
featureClasses.Add(
(featureClassType)
deserializer.Deserialize(elementReader));
}
continue;
// ReadOuterXml advances the reader, so don't read again.
}
if (reader.Name.Equals("feature"))
{
using (
StringReader elementReader =
new StringReader(reader.ReadOuterXml()))
{
XmlSerializer deserializer =
serializers[typeof (featureType)];
features.Add(
(featureType)
deserializer.Deserialize(elementReader));
}
continue;
// ReadOuterXml advances the reader, so don't read again.
}
log.write(
"WARNING: unknown element '" + reader.Name +
"' was skipped during parsing.");
reader.Read(); // skip non-element-nodes and unknown-elements.
}
result.featureClasses = featureClasses.ToArray();
result.features = features.ToArray();
return result;
}
private XmlSerializer newSerializer(Type elementType)
{
XmlSerializer serializer = new XmlSerializer(elementType);
serializer.UnknownNode += new XmlNodeEventHandler(handleUnknownNode);
serializer.UnknownAttribute +=
new XmlAttributeEventHandler(handleUnknownAttribute);
return serializer;
}
protected void handleUnknownNode(object sender, XmlNodeEventArgs e)
{
log.write(
string.Format(
"XML_ERROR: Unknown Node at line {0} position {1} : {2}\t{3}",
e.LineNumber, e.LinePosition, e.Name, e.Text));
}
protected void handleUnknownAttribute(object sender, XmlAttributeEventArgs e)
{
log.write(
string.Format(
"XML_ERROR: Unknown Attribute at line {0} position {1} : {2}='{3}'",
e.LineNumber, e.LinePosition, e.Attr.Name, e.Attr.Value));
}
}
}
要約すると、Googleでこのスレッドを見つけた人にとっては、答えをもう少しわかりやすくするためです。
.NET 2より前は、XmlTextReaderは標準APIで利用可能な最もメモリ効率の良いXMLパーサーでした(thanx Mitch ;-)
.NET 2はXmlReaderクラスを導入しましたが、これはより優れています。これは前方専用の要素反復子です(StAXパーサーに少し似ています)。 (ありがとう、セレブラス;-)
また、XMLインスタンスのキディーは、約500kを超える可能性があるので、DOMを使用しないでください。
乾杯。キース。
[〜#〜] sax [〜#〜] パーサーはあなたが探しているものかもしれません。 SAXでは、ドキュメント全体をメモリに読み込む必要はありません。ドキュメントをインクリメンタルに解析し、必要に応じて要素を処理できます。 .NETでSAXパーサーが提供されているかどうかはわかりませんが、いくつかのオープンソースオプションを確認できます。
関連記事は次のとおりです。
XmlReaderの使用例として、この単純な拡張メソッドを追加したかっただけです(Mitchの回答)。
public static bool SkipToElement (this XmlReader xmlReader, string elementName)
{
if (!xmlReader.Read ())
return false;
while (!xmlReader.EOF)
{
if (xmlReader.NodeType == XmlNodeType.Element && xmlReader.Name == elementName)
return true;
xmlReader.Skip ();
}
return false;
}
そして使用法:
using (var xml_reader = XmlReader.Create (this.source.Url))
{
if (!SkipToElement (xml_reader, "Root"))
throw new InvalidOperationException ("XML element \"Root\" was not found.");
if (!SkipToElement (xml_reader, "Users"))
throw new InvalidOperationException ("XML element \"Root/Users\" was not found.");
...
}