Benutzer:Klexibot/Skripte: Unterschied zwischen den Versionen
Aus Klexikon – das Kinderlexikon
(→Artikel mit Links in Dateinamen: update) Markierung: 2017-Quelltext-Bearbeitung |
(→Anzahl neu erstellter Artikel: update) Markierung: 2017-Quelltext-Bearbeitung |
||
(3 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) | |||
Zeile 319: | Zeile 319: | ||
print ('[['+ ']], [['.join(list(dict.fromkeys(pages_with_links_in_filename))) + ']]') | print ('[['+ ']], [['.join(list(dict.fromkeys(pages_with_links_in_filename))) + ']]') | ||
</syntaxhighlight> | |||
=== Wörter mit Wikilink im zweiten Teil === | |||
<syntaxhighlight lang="python"> | |||
import re | |||
import pywikibot | |||
pattern_1 = re.compile(r'\W(\w+\[\[[^\]]+\]\])') | |||
matches = '' | |||
site = pywikibot.Site() | |||
for page in site.allpages(namespace = ""): | |||
if page.title() != 'ß': # Komische Sache! Die Seite gibt's, aber dann irgendwie doch nicht... | |||
match = pattern_1.search(page.text) | |||
if match: matches += '* [[' + page.title() + ']]: "' + match.group(1) + '"\n' | |||
print (matches) | |||
</syntaxhighlight> | |||
=== Artikel mit 3 oder mehr Bildern in der Einleitung === | |||
<syntaxhighlight lang="python"> | |||
import re | |||
import pywikibot | |||
pattern_5 = re.compile(r'^\[\[Datei\:.+\n?\[\[Datei\:.+\n?\[\[Datei\:.+\n?\[\[Datei\:.+\n?\[\[Datei\:') | |||
pattern_4 = re.compile(r'^\[\[Datei\:.+\n?\[\[Datei\:.+\n?\[\[Datei\:.+\n?\[\[Datei\:') | |||
pattern_3 = re.compile(r'^\[\[Datei\:.+\n?\[\[Datei\:.+\n?\[\[Datei\:') | |||
matches = [] | |||
site = pywikibot.Site() | |||
for page in site.allpages(namespace = ""): | |||
if page.title() != 'ß': | |||
if pattern_5.search(page.text): | |||
matches.append("| [[" + page.title() + "]] || 5\n") | |||
elif pattern_4.search(page.text): | |||
matches.append("| [[" + page.title() + "]] || 4\n") | |||
elif pattern_3.search(page.text): | |||
matches.append("| [[" + page.title() + "]] || 3\n") | |||
print ('{| class="wikitable sortable"\n! Artikel !! Bilder zu Beginn\n|-\n'+ '|-\n'.join(matches) + '|}') | |||
</syntaxhighlight> | |||
== Statistik == | |||
=== Anzahl neu erstellter Artikel === | |||
<syntaxhighlight lang="python"> | |||
import pywikibot | |||
new_pages = {} | |||
target_user = pywikibot.User(pywikibot.Site(), "Thomas Karcher") | |||
for page, oldid, ts, comment in target_user.contributions(total = 5000, showMinor = False, namespaces = [0]): | |||
if page.oldest_revision.user == target_user.username: | |||
new_pages[page.title()] = {'title': page.title(), 'timestamp': page.oldest_revision.timestamp} | |||
print (target_user.username + ' hat ' + str(len(new_pages)) + ' Artikel erstellt:') | |||
print ('{| class = "wikitable sortable"\n! Artikel !! Erstellt am') | |||
for p in new_pages.values(): print ("|-\n| [[%s]] || %s"%(p['title'], p['timestamp'])) | |||
print ('|}') | |||
</syntaxhighlight> | </syntaxhighlight> |
Aktuelle Version vom 28. April 2021, 23:40 Uhr
Aktualisierung der Länder-Infoboxen
Pywikibot-Skript
import requests
import pywikibot
import mwparserfromhell
import locale
import datetime
# Testlauf: Ausgabe des Logbuchs in der Konsole ohne Änderungen am Klexikon
dryrun_answer = input ('Nur Testlauf (j/n)? ')
dryrun = dryrun_answer != 'n'
# Verwende deutsches Zahlenformat mit Tausenderpunkt und Dezimalkomma
locale.setlocale(locale.LC_ALL, 'german')
# Zuordnung von Wikidata-Abfrage-Feldern zu Vorlage-Parametern
fieldmap = {
'Name': 'itemLabel',
'Flagge': 'safeFlaggenDatei',
'Hauptstadt': 'hauptstaedte',
'Amtssprache': 'amtssprachen',
'Staatsoberhaupt': 'oberhaeupter',
'Einwohnerzahl': 'max_ew_in_mio',
'Fläche': 'max_flaeche_rund',
'Lagekarte': 'safeKartenDatei',
'Lagebeschreibung': 'kontinente'
}
# Legt fest, welche Länder-Artikel bzw. Vorlagen-Parameter Klexibot nicht ändern soll
blacklist = {
'Australien:Staatsoberhaupt',
'Eidgenossenschaft',
'Deutsches_Kaiserreich',
'Schottland',
'England',
'Eswatini:Name',
'Schweiz:Amtssprache',
'St._Kitts_und_Nevis:Staatsoberhaupt',
'St._Lucia:Staatsoberhaupt',
'St._Vincent_und_die_Grenadinen:Staatsoberhaupt',
'Vatikan:Fläche',
'Vatikan:Hauptstadt',
'Wales'
}
# Parameter aus dieser Liste werden nur gefüllt, falls bisher kein Wert enthalten war
preserved_values = {
'Lagekarte',
'Lagebeschreibung'
}
# Anmeldung beim Klexikon
site = pywikibot.Site()
# Lade Wikidata-Tabelle und speichere sie in "data"-Variable
url = 'https://query.wikidata.org/sparql'
with open('infobox_data_query.rq', 'r', encoding="utf-8") as query_file: qry = query_file.read()
r = requests.get(url, params = {'format': 'json', 'query': qry }, headers = {
'User-Agent':f'{requests.utils.default_headers()["User-Agent"]} (Klexikon bot by User:Tkarcher)'})
data = r.json()
# Initialisiere Logbuch-Eintrag
logheader = f'\n== Logbuch vom {datetime.datetime.now().strftime("%c")} ==\n'
newloghead = '=== Neu angelegte Infoboxen ===\n'
newlogdata = ''
chgloghead = '=== Änderungen an bestehenden Infoboxen ===\n' + \
'{| class="wikitable sortable"\n! Vorlage\n! Eigenschaft\n! Alter Wert\n! Neuer Wert\n'
chglogdata = ''
chglogfoot = '|}\n'
# Gehe Wikidata-Tabelle Zeile für Zeile durch
for item in data['results']['bindings']:
title = item['titel_im_klexikon']['value']
# Ignoriere Artikel, die in der Ausschlußliste enthalten sind
if title not in blacklist:
# Öffne Vorlagen-Seite oder lege sie neu an
page = pywikibot.Page(site, f'Vorlage:Infobox_{title}')
code = mwparserfromhell.parse(page.text)
# Ersetze Seiteninhalt mit {{Infobox Land}}, falls nicht vorhanden
if not code.filter_templates(matches = lambda n: n.name.matches ('Infobox Land')):
code = mwparserfromhell.parse('{{Infobox Land\n}}')
newlogdata += f'* [[Vorlage:Infobox {title}]]\n'
# Fülle alle Vorlagen-Felder
for prop, field in fieldmap.items():
# Ignoriere Vorlagen-Parameter, die leer oder in der Ausschlußliste enthalten sind
if field in item and f'{title}:{prop}' not in blacklist:
# Ignoriere auch Parameter, die nicht überschrieben werden sollen
if not (
prop in preserved_values and
code.filter_templates()[0].has(prop) and
code.filter_templates()[0].get(prop).value.strip() != ''):
oldval = code.filter_templates()[0].get(prop).value.strip() if code.filter_templates()[0].has(prop) else ''
val = item[field]['value']
if prop == 'Einwohnerzahl':
ew = float(val)
if round(ew) > 1:
val = f'etwa {locale.format_string("%.0f", ew, grouping = True)} [[Million]]en'
elif ew > 0.9:
val = f'etwa 1 [[Million]]'
else:
val = f'etwa {locale.format_string("%.0f", ew * 1000000, grouping = True)}'
elif prop == 'Fläche':
val = f'etwa {locale.format_string("%i", int(val), grouping = True)} [[Meter|Quadratkilometer]]'
elif prop == 'Staatsoberhaupt':
if 'oberhaupt_bezeichnung' in item:
val = f'{item["oberhaupt_bezeichnung"]["value"]} {val}'
elif prop == 'Lagebeschreibung':
val = f'Wo das Land in {val} liegt'
# Speichere die Änderung nur, wenn sie aus mehr besteht als
# einer geänderten Sortierreihenfolge in der Auslistung
# (SPARQL 1.1 erlaubt kein ORDER BY in GROUP_CONCATs)
if sorted (val) != sorted (oldval):
code.filter_templates()[0].add (f' {prop} ', f' {val}\n', preserve_spacing = False)
if not newlogdata.endswith (f'* [[Vorlage:Infobox {title}]]\n'):
chglogdata += f'|- \n| [[Vorlage:Infobox {title}]]\n| {prop}\n| {oldval}\n| {val}\n'
# Speichere die Änderungen, falls vorhanden, und verschiebe
# Artikel ggf. zurück in Kategorie "ungeprüfte Infobox"
if (page.text != str(code)) and not dryrun:
# Speichere Vorlage
page.text = str(code)
page.save('Automatische Anlage der Länder-Infobox')
# Öffne Länderartikel
page = pywikibot.Page(site, title)
code = mwparserfromhell.parse(page.text)
# Binde Länder-Infobox ein, falls noch nicht geschehen
# Mit "_" und " " wegen https://github.com/earwig/mwparserfromhell/issues/216
if not code.filter_templates(matches = lambda n:
n.name.matches ({f'Infobox_{title}', f'Infobox {title}'})):
code = mwparserfromhell.parse(f'{{{{Infobox_{title}}}}}\n{str(code)}')
# Lösche [[Kategorie:Artikel mit geprüfter Infobox]], falls vorhanden
if '[[Kategorie:Artikel mit geprüfter Infobox]]' in str(code):
code.remove ('[[Kategorie:Artikel mit geprüfter Infobox]]')
# Füge [[Kategorie:Artikel mit ungeprüfter Infobox]] ein, falls noch nicht geschehen
if '[[Kategorie:Artikel mit ungeprüfter Infobox]]' not in str(code):
code.append ('\n[[Kategorie:Artikel mit ungeprüfter Infobox]]')
# Speichere Länderartikel
page.text = str(code)
page.save('Automatische Einbindung der Länder-Infobox')
# Dokumentiere Änderungen in Logbuch
log = logheader \
+ newloghead + (newlogdata if newlogdata != '' else 'Es wurden keine neuen Infoboxen angelegt.\n') \
+ chgloghead + (chglogdata if chglogdata != '' else '|- \n| colspan=4 | Es wurden keine bestehenden Daten geändert.\n') + chglogfoot
if dryrun:
print (log)
else:
page = pywikibot.Page(site, 'Benutzer:Klexibot/Logbuch')
page.text += log
page.save('Logbuch aktualisiert')
Wikidata-SPARQL-Abfrage
#Länder-Infoboxen im Klexikon
SELECT
?item
?itemLabel
(MAX(?ew_in_millionen) AS ?max_ew_in_mio)
(GROUP_CONCAT(DISTINCT (IF(BOUND(?asklextitel),CONCAT('[[',?asklextitel,'|',?amtssprachenLabel,']]'),?amtssprachenLabel)); SEPARATOR=", ") AS ?amtssprachen)
(MAX(?flaeche_rund) AS ?max_flaeche_rund)
(GROUP_CONCAT(DISTINCT (IF(BOUND(?hsklextitel),CONCAT('[[',REPLACE(?hsklextitel, "_", " "),']]'),?hauptstadtLabel)); SEPARATOR=", ") AS ?hauptstaedte)
(GROUP_CONCAT(DISTINCT (COALESCE (?oberhaupt_titel_ausnahme, ?oberhaupt_bezLabel)); SEPARATOR=", ") AS ?oberhaupt_bezeichnung)
(GROUP_CONCAT(DISTINCT (IF(BOUND(?ohklextitel),CONCAT('[[',REPLACE(?ohklextitel, "_", " "),']]'),?oberhauptLabel)); SEPARATOR=", ") AS ?oberhaeupter)
(GROUP_CONCAT(DISTINCT (CONCAT('[[',?kontinentLabel,']]')); SEPARATOR=" und ") AS ?kontinente)
?safeFlaggenDatei
?safeKartenDatei
?titel_im_klexikon
WHERE
{
?item p:P31 [ps:P31 wd:Q6256]. # Finde alle Länder
?item wdt:P6573 ?titel_im_klexikon. # die es im Klexikon gibt
?item wdt:P1082 ?ewzahl. # und zeige ihre Einwohnerzahl
BIND (STR(ROUND(?ewzahl / 1000) / 1000) AS ?ew_in_millionen) # in Millionen
?item wdt:P2046 ?flaeche. # ihre Fläche
BIND (STR(IF(?flaeche > 9999, ROUND(?flaeche / 1000) * 1000,IF(?flaeche > 999, ROUND(?flaeche / 100) * 100,ROUND(?flaeche)))) AS ?flaeche_rund) # gerundet
?item wdt:P37 ?amtssprache. # ihre Amtssprache
# ?article schema:about ?amtssprache. # Zeige aber nur die bekannteren Amtssprachen, d.h. solche
# ?article schema:inLanguage "de" . # für die ein deutschsprachiger Wikipedia-Artikel existiert
OPTIONAL {?amtssprache wdt:P6573 ?asklextitel}
OPTIONAL { # Optional wg. Vatikanstadt
?item wdt:P36 ?hauptstadt. # ihre Hauptstädte
OPTIONAL {?hauptstadt wdt:P6573 ?hsklextitel}
}
?item wdt:P35 ?oberhaupt. # das Staatsoberhaupt
OPTIONAL {?oberhaupt wdt:P6573 ?ohklextitel}
OPTIONAL {
?item wdt:P1906/wdt:P279* ?oberhaupt_titel.
FILTER (?oberhaupt_titel IN ( # einschränken auf bekannte / kinderverständliche Titel
wd:Q30461, # Präsident
wd:Q2304859, # Souverän
wd:Q7645115, # Oberster Führer
wd:Q166382, # Emir
wd:Q683337, # Kofürst von Andorra
wd:Q258045, # Capitano Reggente
wd:Q844944 # Präsidium von Bosnien und Herzegowina
))
OPTIONAL {
?oberhaupt_titel wdt:P2521 ?oberhaupt_titel_weiblich.
FILTER (LANG(?oberhaupt_titel_weiblich) = "de").
}
}
OPTIONAL {?oberhaupt wdt:P21 ?geschlecht.}
BIND (IF (BOUND(?oberhaupt_titel_weiblich) && BOUND(?geschlecht) && (?geschlecht = wd:Q6581072),
IF(STR(?oberhaupt_titel_weiblich) = "Souveränin", wd:Q16511993, ?oberhaupt_titel_weiblich),
IF(?oberhaupt_titel = wd:Q2304859, wd:Q12097, ?oberhaupt_titel)) AS ?oberhaupt_bez
)
OPTIONAL { # Länderspezifische Titel
VALUES (?item ?oberhaupt_titel_ausnahme) {
(wd:Q794 "Religionsführer") # Iran
(wd:Q17 "[[Kaiser]]") # Japan
(wd:Q40 "Bundespräsident") # Österreich
(wd:Q183 "Bundespräsident") # Deutschland
(wd:Q32 "Großherzog") # Luxemburg
(wd:Q237 "[[Papst]]") # Vatikan
(wd:Q347 "Fürst") # Liechtenstein
(wd:Q683 "Häuptling") #Samoa
}
}
?item wdt:P41 ?flagge.
BIND(REPLACE(wikibase:decodeUri(STR(?flagge)), "http://commons.wikimedia.org/wiki/Special:FilePath/", "") AS ?flaggenDatei).
BIND(REPLACE(?flaggenDatei, " ", "_") AS ?safeFlaggenDatei)
?item wdt:P30 ?kontinent_alt.
OPTIONAL {
?item wdt:P361*/wdt:P706*/wdt:P361* wd:Q27611
BIND (wd:Q29876 AS ?mittelamerika)
}
BIND (COALESCE(?mittelamerika, ?kontinent_alt) AS ?kontinent)
OPTIONAL { # Lagekarte: Grünes Land auf dem Globus
?item p:P242 ?p_karte1.
?p_karte1 pq:P195 wd:Q21167586.
?p_karte1 ps:P242 ?karte1.
}
OPTIONAL { # Lagekarte: Rotes Land auf dem Globus
?item p:P242 ?p_karte2.
?p_karte2 pq:P195 wd:Q47008743.
?p_karte2 ps:P242 ?karte2.
}
# Nimm Globus, falls vorhanden, sonst 2:1-Ausschnitt
BIND(REPLACE(wikibase:decodeUri(STR(COALESCE(?karte1, ?karte2))), "http://commons.wikimedia.org/wiki/Special:FilePath/", "") AS ?kartenDatei).
BIND(REPLACE(?kartenDatei, " ", "_") AS ?safeKartenDatei)
SERVICE wikibase:label {
bd:serviceParam wikibase:language "[AUTO_LANGUAGE],de".
?item rdfs:label ?itemLabel.
?amtssprache rdfs:label ?amtssprachenLabel.
?hauptstadt rdfs:label ?hauptstadtLabel.
?oberhaupt_bez rdfs:label ?oberhaupt_bezLabel.
?oberhaupt rdfs:label ?oberhauptLabel.
?kontinent rdfs:label ?kontinentLabel.
}
}
GROUP BY ?item ?itemLabel ?safeFlaggenDatei ?safeKartenDatei ?titel_im_klexikon
ORDER BY ?itemLabel
Validierungen / Qualitätssicherung
Artikel mit Klammerfehlern
import pywikibot
opening = '{['
closing = '}]'
mapping = dict(('{}', '[]'))
pages_with_unmatched_brackets = []
site = pywikibot.Site()
for page in site.allpages(namespace = ""):
queue = []
if page.title() != 'ß': # Komische Sache! Die Seite gibt's, aber dann irgendwie doch nicht...
for letter in page.text:
if letter in opening:
queue.append(mapping[letter])
elif letter in closing:
if not queue or letter != queue.pop():
pages_with_unmatched_brackets.append(page.title())
if queue: pages_with_unmatched_brackets.append(page.title())
print ('[['+ ']], [['.join(list(dict.fromkeys(pages_with_unmatched_brackets))) + ']]')
Artikel mit Links in Dateinamen
import re
import pywikibot
pattern_1 = re.compile(r'atei\:[^\|]*\[\[')
pattern_2 = re.compile(r'allery[\s\S]+\n[^\|]*\[\[[\s\S]+allery')
pages_with_links_in_filename = []
site = pywikibot.Site()
for page in site.allpages(namespace = ""):
queue = []
if page.title() != 'ß': # Komische Sache! Die Seite gibt's, aber dann irgendwie doch nicht...
if str(pattern_1.search(page.text)) != 'None' or str(pattern_2.search(page.text)) != 'None':
pages_with_links_in_filename.append(page.title())
print ('[['+ ']], [['.join(list(dict.fromkeys(pages_with_links_in_filename))) + ']]')
Wörter mit Wikilink im zweiten Teil
import re
import pywikibot
pattern_1 = re.compile(r'\W(\w+\[\[[^\]]+\]\])')
matches = ''
site = pywikibot.Site()
for page in site.allpages(namespace = ""):
if page.title() != 'ß': # Komische Sache! Die Seite gibt's, aber dann irgendwie doch nicht...
match = pattern_1.search(page.text)
if match: matches += '* [[' + page.title() + ']]: "' + match.group(1) + '"\n'
print (matches)
Artikel mit 3 oder mehr Bildern in der Einleitung
import re
import pywikibot
pattern_5 = re.compile(r'^\[\[Datei\:.+\n?\[\[Datei\:.+\n?\[\[Datei\:.+\n?\[\[Datei\:.+\n?\[\[Datei\:')
pattern_4 = re.compile(r'^\[\[Datei\:.+\n?\[\[Datei\:.+\n?\[\[Datei\:.+\n?\[\[Datei\:')
pattern_3 = re.compile(r'^\[\[Datei\:.+\n?\[\[Datei\:.+\n?\[\[Datei\:')
matches = []
site = pywikibot.Site()
for page in site.allpages(namespace = ""):
if page.title() != 'ß':
if pattern_5.search(page.text):
matches.append("| [[" + page.title() + "]] || 5\n")
elif pattern_4.search(page.text):
matches.append("| [[" + page.title() + "]] || 4\n")
elif pattern_3.search(page.text):
matches.append("| [[" + page.title() + "]] || 3\n")
print ('{| class="wikitable sortable"\n! Artikel !! Bilder zu Beginn\n|-\n'+ '|-\n'.join(matches) + '|}')
Statistik
Anzahl neu erstellter Artikel
import pywikibot
new_pages = {}
target_user = pywikibot.User(pywikibot.Site(), "Thomas Karcher")
for page, oldid, ts, comment in target_user.contributions(total = 5000, showMinor = False, namespaces = [0]):
if page.oldest_revision.user == target_user.username:
new_pages[page.title()] = {'title': page.title(), 'timestamp': page.oldest_revision.timestamp}
print (target_user.username + ' hat ' + str(len(new_pages)) + ' Artikel erstellt:')
print ('{| class = "wikitable sortable"\n! Artikel !! Erstellt am')
for p in new_pages.values(): print ("|-\n| [[%s]] || %s"%(p['title'], p['timestamp']))
print ('|}')