mediawiki-utilities · groceryheist · Feb 17, 2017 · May 12, 2017 · May 18, 2017 · May 18, 2017
diff --git a/examples/xml_dump.iteration.py b/examples/xml_dump.iteration.py
@@ -8,7 +8,9 @@
 
 # Iterate through pages
 for page in dump:
-
         # Iterate through a page's revisions
         for revision in page:
                 print(revision.id)
+
+# dump has a language attribute
+assert dump.lang == 'en'
diff --git a/mw/xml_dump/element_iterator.py b/mw/xml_dump/element_iterator.py
@@ -49,7 +49,7 @@ def __init__(self, element, pointer):
         self.pointer = pointer
         self.element = element
         self.depth = pointer.depth() - 1
-
+        self.element.attrib = {trim_ns(k): v for k, v in self.element.attrib.items()}
         self.done = False
 
     def __iter__(self):
@@ -93,7 +93,6 @@ def __getattr__(self, attr):
 
     @classmethod
     def from_file(cls, f):
-
         try:
             pointer = EventPointer.from_file(f)
             event, element = next(pointer)

diff --git a/mw/xml_dump/iteration/iterator.py b/mw/xml_dump/iteration/iterator.py
@@ -43,8 +43,6 @@ def _read(self, size):
                 yield item.read()
 
 
-
-
 def concat(*stream_items):
     return ConcatinatingTextReader(*stream_items)
 
@@ -73,7 +71,7 @@ class Iterator(serializable.Type):
                  '__pages')
 
     def __init__(self, site_name=None, dbname=None, base=None, generator=None,
-                 case=None, namespaces=None, pages=None):
+                 case=None, namespaces=None, pages=None, lang=None):
 
         self.site_name = none_or(site_name, str)
         """
@@ -109,6 +107,11 @@ def __init__(self, site_name=None, dbname=None, base=None, generator=None,
         # Should be a lazy generator of page info
         self.__pages = pages
 
+        self.lang = none_or(lang, str)
+        """
+        A 2 character language code.
+        """
+
     def __iter__(self):
         return self.__pages
 
@@ -140,6 +143,9 @@ def load_site_info(cls, element):
         namespaces = {}
 
         for sub_element in element:
+
+            if sub_element.tag == 'siteinfo':
+                return cls.load_site_info(sub_element)
             if sub_element.tag == 'sitename':
                 site_name = sub_element.text
             if sub_element.tag == 'dbname':
@@ -152,30 +158,28 @@ def load_site_info(cls, element):
                 case = sub_element.text
             elif sub_element.tag == 'namespaces':
                 namespaces = cls.load_namespaces(sub_element)
-
+        
         return site_name, dbname, base, generator, case, namespaces
 
     @classmethod
     def load_pages(cls, element):
-
         for sub_element in element:
             tag = sub_element.tag
-
             if tag == "page":
                 yield Page.from_element(sub_element)
             else:
                 assert MalformedXML("Expected to see 'page'.  " +
                                     "Instead saw '{0}'".format(tag))
 
     @classmethod
-    def from_element(cls, element):
-
+    def from_element(cls, element, lang=None):
         site_name = None
         base = None
         generator = None
         case = None
         namespaces = None
 
+        lang = element.attr("lang")
         # Consume <siteinfo>
         for sub_element in element:
             tag = sub_element.tag
@@ -187,7 +191,7 @@ def from_element(cls, element):
         # Consume all <page>
         pages = cls.load_pages(element)
 
-        return cls(site_name, dbname, base, generator, case, namespaces, pages)
+        return cls(site_name, dbname, base, generator, case, namespaces, pages, lang)
 
     @classmethod
     def from_file(cls, f):

diff --git a/mw/xml_dump/iteration/page.py b/mw/xml_dump/iteration/page.py
@@ -4,7 +4,6 @@
 from .redirect import Redirect
 from .revision import Revision
 
-
 class Page(serializable.Type):
     """
     Page meta data and a :class:`~mw.xml_dump.Revision` iterator.  Instances of
@@ -99,6 +98,8 @@ def from_element(cls, element):
                 restrictions.append(sub_element.text)
             elif tag == "DiscussionThreading":
                 continue
+            elif tag == "sha1":
+                continue
             elif tag == "revision":
                 first_revision = sub_element
                 break