Jump to content

Markennamen, Gerätebezeichnungen


Recommended Posts

Ich werde später noch einen eigenen Thread starten, aber hier mal ein Fortschrittsreport: Ich habe jetzt erfolgreich die Listen geparsed (wobei gerade die Konzernliste noch Liebe in der Organisation bräuchte).

 

Haltet euch gut fest: Es sind insgesamt 17.371 Einträge. Wenn ich zum Anlegen eines Eintrags 15 Sekunden bräuchte, müsste ich 72 Stunden durchgehend schreiben, um diese Liste anzulegen.

 

Ich habe eine relativ klare Vorstellung bezüglich der Darstellung, nur über den Zugriff (also die Suchfunktion) muss ich mir jetzt mal Gedanken machen.

Link to comment
Share on other sites

Die Konzerliste krankt sehr dran dass Word zwischen 2003 und 2010 die Formatfunktionen geändert hat. Das Format "wie gedacht" ist nur in der "Entwurf" Ansicht zu erkennen, alles andere ist ein alptraum aus Tabulatoren irgendwo. Ich verstehe ncihtw arum das dokument sich weigert, sich als Entwurf per default darstellen zu lassen, aber es wurde halt mal mit word 97 erstellt und schleppt sicher eine Tonne Legacy-Formatzeichen mit sich die alles total wirr werden lassen. Da ich Besitzverhältnisse mti je einem Einschub markiere, ist das da ein weit größeres Problem als anderswo (ähnliches habe ich nur bei der Mode, wo bekannte Designlinien von Mahjor Labels mit einem Einschub gekennzeichnet udn zugeordnet werden).

Link to comment
Share on other sites

Danke. Ich habe mal für die Fahrzeuge angefangen die Liste so zu modifizieren, wie ich sie mir für eine Shadowrun-Datenbank vorstelle.

 

Datei:Entwurf fahrzeuge.txt

 

Ansehen kann man sich das TSV-File zum Beispiel mit Excel oder Calc ggf. tab als Separator angeben. Ich habe die Beschreibungstexte erstmal rausgelassen, weil einige Beschreibungen Auszüge aus Quellen sind. Gruppen wie "Motorräder, Trikes, Quads" könnte man jetzt noch auflösen und atomare Werte angeben. In der letzten Spalte sind Seitenangaben, bisher also weitgehend leer. Die vorletzte Spalte enthält überwiegend Nummern aus der Quellentabelle, die ich mir schon angelegt habe und noch einige der ursprünglichen Quellenangaben aus der Liste. Die Idee ist eine eindeutige Ziffernfolge in allen Datenbanktabellen als ID zu haben, anstatt der gängigen Kürzel oder der Quellennamen. In dieser Version habe ich die ID wieder durch den Quellennamen ersetzt:

 

Datei:Entwurf fahrzeuge quellenname.txt

 

Die Liste ist auf jeden Fall schonmal gut, um die Produktübersichten in den Wikiartikeln zu Fahrzeugherstellern aufzufüllen.

Edited by Loki
Link to comment
Share on other sites

Cool, die Liste ist schonmal nicht schlecht, ein paar Anmerkungen hätte ich noch:

  • Encoding. Die Liste in deinem Link hat mein browser nicht als UTF-8 erkannt.
  • Mal sehen, ob ich dein Format richtig verstehe:

    Format:   Name----------->Kategorie-->Weitere Kategorien?------>Quelle--->(Seite)
    Beispiel: CE CoffeeBot--->Drohne----->Crawler, Bodenfahrzeug--->002534--->    

    Warum zweimal Kategorie? Warum redundante Informationen (alle Crawler sind Bodenfahrzeuge)? Warum die Quellen mit Nummer in seperater Tabelle, aber die Kategorien nicht? (gerade das würde parsen einfacher und schneller machen, weil man dann alle Kategorien im Vorraus kennen kann)
  • Hast du die Beschreibung aus Platzgründen oder aus Copyright Gründen rausgenommen? Zumindest drei Worte sollten da schon immer dabei stehen, damit man sich vorstellen kann, was das ist. Muss ja kein ganzer Wiki-Artikel oder der gesamte Absatz aus dem Quellenbuch sein.
  • Wie geht man mit zwei gleichnamigen Einträgen um? (Ich glaube es gibt einen Cocktail, der genauso heißt, wie eine Droge oder so)
  • Das geht zwar über meine Pläne hinaus, aber wenn Kategorien und Quellen in eigenen Tabellen mit IDs stehen, kann man die Datenbank sogar lokalisieren. Die Annahme ist, dass die Produktnamen fest sind, aber die Quellenbücher und Kategorien lokalisiert sind.
Link to comment
Share on other sites

Cool, die Liste ist schonmal nicht schlecht, ein paar Anmerkungen hätte ich noch:

  • Encoding. Die Liste in deinem Link hat mein browser nicht als UTF-8 erkannt.

Also für die Dateien vor Upload bekomme ich hier "text/plain; charset=utf-8". Ich sehe im Browser auch keinen Unterschied.

 

 

Mal sehen, ob ich dein Format richtig verstehe:

 

Format:   Name----------->Kategorie-->Weitere Kategorien?------>Quelle--->(Seite)

Beispiel: CE CoffeeBot--->Drohne----->Crawler, Bodenfahrzeug--->002534--->    

Warum zweimal Kategorie? Warum redundante Informationen (alle Crawler sind Bodenfahrzeuge)? Warum die Quellen mit Nummer in seperater Tabelle, aber die Kategorien nicht? (gerade das würde parsen einfacher und schneller machen, weil man dann alle Kategorien im Vorraus kennen kann)

Grundsätzlich stimmt es so.

 

Die beiden Kategorien gehen auf die Einteilung in Richters Liste zurück. Dort gibt es zum Beispiel "Flugzeug - militärisch" und "Flugzeug - zivil" deshalb, habe ich erstmal zwei Spalten gemacht, um Flugzeug, Drohne usw. zusammen zu fassen. Aber man kann das sicherlich auch anders aufgliedern, da man hier nicht an das Listenformat gebunden ist.

 

Bei letzterem bin ich mir nicht ganz sicher, was du meinst, aber alle Kategorien bekommst du auch, wenn du die entsprechende Spalte nimmst, sortierst und die Dopplungen rauswirfst. Die numerische ID der Quelle ist für die Datenbank gedacht, die noch mehr Tabellen unter anderem die anderen Listen von Richter enthalten soll, während man die Kategorien ja erstmal eigentlich nur in dieser einen Tabelle benötigt.

 

 

Hast du die Beschreibung aus Platzgründen oder aus Copyright Gründen rausgenommen? Zumindest drei Worte sollten da schon immer dabei stehen, damit man sich vorstellen kann, was das ist. Muss ja kein ganzer Wiki-Artikel oder der gesamte Absatz aus dem Quellenbuch sein.

Copyright. Platz sollte kein Problem sein, obwohl die Tabelle dann als reines Textfile nicht mehr gut zu lesen ist. Aber für die Datenbank ist das egal. Die englischen Texte müsste man vielleicht noch übersetzen, vieles scheint ja bereits eine Zusammenfassung von Richter zu sein und ein paar von den im Text enthaltenen Informationen (z.B. Hersteller) kann man auch noch in eine eigene Spalte verschieben, wenn sie oft genug auftauchen.

 

 

Wie geht man mit zwei gleichnamigen Einträgen um? (Ich glaube es gibt einen Cocktail, der genauso heißt, wie eine Droge oder so)

Bisher habe ich nur die Fahrzeugliste bearbeitet. Da ist mir nichts aufgefallen. Von der Datenbank her ist erstmal kein Problem. Integritätsbedingungen würde ich erst zum Schluss festlegen. Wenn du jetzt für die Darstellung meinst, von der du gesprochen hast, da sollten einfach alle Ergebnisse ausgegeben werden. Ich nehme an, die Suche soll auch bei einem Teilbegriff erfolgreich sein und nicht nur bei exakter Eingabe des Namens, da hat man dann ggf. ja auch mehrere Einträge.

 

 

Das geht zwar über meine Pläne hinaus, aber wenn Kategorien und Quellen in eigenen Tabellen mit IDs stehen, kann man die Datenbank sogar lokalisieren. Die Annahme ist, dass die Produktnamen fest sind, aber die Quellenbücher und Kategorien lokalisiert sind.

"lokalisieren"? Was genau meinst du damit.

Link to comment
Share on other sites

lokalisieren = Übersetzen.

Wenn die Tabelle für die Kategorien nur eine Sammlung von Nummern enthält und die Kategorien in einer seperaten Tabelle stehen, kann man die Tabelle mit einer in einer anderen Sprache austauschen.

 

Hier mal eine Tabelle, die aus meinem Parse gebastelt ist:

http://pastebin.com/raw.php?i=HwCkrXyr

Das Format ist:

ID---->Name---->Parent---->Quelle

Jeder Eintrag hat also einen Parent (wenn es keinen hat, ist der Parent 0), und die Kategorien sind auch in dieser Liste drin.

Das macht es schöner, die Firmen einzuspeichern, denn bei denen ist ein Eintrag auch meistens eine Kategorie.

Dadurch, dass jeder Eintrag nur einen Parent hat, kann man nicht so feingliedrige Kategorien machen, wie in deinem Format, es bildet (nur) genau die Information ab, die in der Liste enthalten ist.

Die Quellen wären auch hier in einer seperaten Datei.

 

Edit: Während ich so drüber nachdenke eignet sich diese Darstellung auch nicht unbedingt zum parsen. Man müsste ja zweimal drübergehen, um die Einträge zu jeder ID zu kennen und die parents zu setzen.

 

Tja, mehr und mehr spricht dafür, es einfach, wie vorher auch, direkt aus der Liste zu parsen :P

Edited by Scaatis
Link to comment
Share on other sites

Naja, es kommt darauf an, was man machen will. Mir geht es um eine Datenbank, in die die strukturierten Daten der Shadowhelix eingefügt werden sollen. Unter anderem um für die Fülle von Beitragsartikeln die Erstellung zu automatisieren. Für diese Produktübersichten würde ich zum Beispiel gerne Anfragen beantworten können wie: 'Gib mir alle Quellen in denen Flugzeuge vorhanden sind' oder 'Gib mir alle Hersteller von Drohnen, die auch mit Militärflugzeugen gelistet sind'.
Link to comment
Share on other sites

  • 5 months later...
  • 1 month later...
 Share

×
×
  • Create New...