30. července 2009

Offline wikipedia do mobilu

Offline wikipedia - znamená že si ji stáhneme do počítače abychom ji mohli používat když máme pomalé nebo žádné připojení k internetu.
Celou wikipedii můžete mít i v mobilu pokud v něm máte systém Windows Mobile. Používání ve škole místo taháku jen na vlastní nebezpečí :-)


Na kartu si můžete stáhnout anglickou Wikipedii (cca 800MB, 693 000 hesel) z LegalTorrents nebo si podle tohoto návodu stáhněte a zkonvertujte do formátu pro program MDict českou wikipedii (cca 200MB)

1) stažení české wikipedie (current.xml.bz2)
Poslední záloha české wikipedie je na adrese download.wikimedia.org/cswiki/latest konkrétně stáhněte cca 200MB soubor cswiki-latest-pages-meta-current.xml.bz2
Po stažení si jej přejmenujte na current.xml.bz2

2) Konverze xml na html (cs-wiki.txt)
Na konverzi použijeme utilitu wikiparser_0.1.zip
Jelikož Parser je napsán v javě, musíte mít nainstalované JRE
Rozbalte wikiparser_0.1.zip a z adresáře lib překopírujte všechny soubory *.jar do adresáře ext instalace javy (c:\Program Files\Java\jre1.6.0\lib\ext) Konverzi spustíte napsáním do příkazového řádku (Start - spustit - cmd)
java -jar WikiParser.jar current.xml.bz2 cs-wiki.txt


3) Vytvoření slovníku pro MDict (cs-wiki.mdx)
Pomocí utility MdxBuilder vytvoříme z cs-wiki.txt slovník cs-wiki.mdx
V programu nastavte "Compact HTML" a kodování "UTF8"

4) Instalace wikipedie do mobilu
Zkopíruj soubor cs-wiki.mdx na SD kartu nebo do vnitřní paměti mobilu,
spusť MDict a vyber Library - Search All - a přidej svoji wikipedii.

Co je to parser: Parser je program, který dokáže analyzovat kód a dokáže jej rozebrat na jednotlivé části (tagy a text).

9 komentářů:

Unknown řekl(a)...

Tak na to jsem už opravdu dlouho čekal, českou wikipedii pro offline prohlížení. Díky moc. Ale bohužel, vše jsem udělal dle návodu a konverze do txt proběhla bez problému, ale MdxBuilder v aktuální verzi 3.0 Beta hlásil Runtime error ve starší verzi 2.5 Beta pak byla hláška: Begining loading source file...
Content is longer then 524288 at position: 37952599 of the source file.Failed to load source file, process cancelled.
V čem by mohla být chyba? Návod jsem se snažil dodržet přesně. Prosím o radu nebo možnost stáhnout si českou Wiki už konvertovanou pro MDict. Ještě jednou děkuji, skvělý počin. Richard Wagner

Unknown řekl(a)...

Tak už se to rozeběhlo, ale proč to nechtělo pracovat jsem neodhalil. Používám MdxBuilder v aktuální verzi 3.0 Beta. Ale ještě jeden zádrhel se objevil. Problémy dělají české znaky jako č,š,ž.... Hesla počínající těmito znaky jsou řazena nakonec seznamu a nejsou vyhledávána, ani odkazy na ně nefungují. Je to možné nějak odstranit? Jinak ještě jednou děkuji za dobrou práci, to jsem potřeboval. Richard Wagner

LL řekl(a)...

Nejsem autorem wikiparseru, ale je možno jej spouštět i s parametry viz. README.TXT
--skiptables - přeskočí tabulky v obsahu
--noexternal - odstraní externí odkazy
--noredirects - přeskočí přesměrování
--simple - jednoduché formátování (bez bold, italic, code)
--maxlength - maximální délka článku před zkrácením
--maxlengthtrim - odkud se bude článek zkracovat
--minlength - kratčí články než minlength budou odstraněny

Jelikož chyba zněla "Content is longer then 524288" zkuste
java -jar WikiParser.jar --maxlength 500000 --maxlengthtrim=500000 --simple current.xml.bz2 cs-wiki.txt

Přestože MDict pracuje s kódováním UTF-8 má problém s tříděním a hledáním české diakritiky.
Zkuste kontaktovat autora MDict a MDXBuilder na http://www.octopus-studio.com se žádostí aby v příští verzi to napravil.

Unknown řekl(a)...

Prosím o možnost stáhnout si českou Wiki už konvertovanou pro MDict.Asi jsem lama,podařilo se mi je ůspěšně zvládnout bod 1.Konverze do txt skončila na hlášce "Unable to access jarfile WikiParser.jar" a dál se nehnu.

Filip SCHNECK Marek řekl(a)...

čau, už nějakej čas se snažím dostat wiki do ppc.. vždycky skončím u toho bodu s Javou.. jsem asi uplna lama.. ale prostě mi to nejde.. šlo by pro mojí maličkost popsat podrobnějc jak spustit java script atd? dik ;)

Filip SCHNECK Marek řekl(a)...

abych konkrétně ukázal co mi to píše:

http://img6.imageshack.us/img6/7910/clipboard01vt.jpg

jinak ten WikiPharser.jar mam jak v program files.. tak i v ty složce kde mám current.xml.bz2

fakt si nevím rady.. tuší někdo co s tím? Dík

LL řekl(a)...

v tento počítač >> Vlastnosti systému >> Upřesnit >> Proměnné prostředí

nastavit cesty ke spustitelným programům (PATH)
kořenový adresář instalace Javy (JAVA_HOME)
cesty ke třídám (CLASSPATH)

např.:
PATH = C:\Program Files\Java\jdk1.6.0_16\bin
JAVA_HOME = C:\Program Files\Java\jdk1.6.0_16

zkontroluješ např.:
v start - spustit - cmd: set nebo path

Unknown řekl(a)...

ahoj, nemate nekdo zkusenosi s novym parserem http://sh0dan.blogspot.com/2009/05/wikiparser-v11.html ? uz to neni tak jednoduche jako s verzi 0.1. musel jsem stahnout MySQL databazi, stahnout ovladac pro Javu, aby mela k MySQL pristup, vytvorit v MySQL databazi "wikindex", ale pak mi to stejne v cyklu vypisuje ze nemuze najit tabulku "wikindex.links". nevite nekdo co s tim? v teto verzi by uz mely byt opravene tabulky, coz je docela podstatna oprava, protoze ve verzi 0.1 jsou necitelne.
diky

LL řekl(a)...

Nemám, přešel jsem na Android a používám aplikaci s názvem wikidroyd, lze stáhnout už hotovou wikipedii s perfektně fungujícími hypertextovými odkazy, viz. http://www.wikidroyd.com/wiki-android-offline-wikipedias