Offline wikipedia - znamená že si ji stáhneme do počítače abychom ji mohli používat když máme pomalé nebo žádné připojení k internetu.
Celou wikipedii můžete mít i v mobilu pokud v něm máte systém Windows Mobile. Používání ve škole místo taháku jen na vlastní nebezpečí :-)
Na kartu si můžete stáhnout anglickou Wikipedii (cca 800MB, 693 000 hesel) z LegalTorrents nebo si podle tohoto návodu stáhněte a zkonvertujte do formátu pro program MDict českou wikipedii (cca 200MB)
1) stažení české wikipedie (current.xml.bz2)
Poslední záloha české wikipedie je na adrese download.wikimedia.org/cswiki/latest konkrétně stáhněte cca 200MB soubor cswiki-latest-pages-meta-current.xml.bz2
Po stažení si jej přejmenujte na current.xml.bz2
2) Konverze xml na html (cs-wiki.txt)
Na konverzi použijeme utilitu wikiparser_0.1.zip
Jelikož Parser je napsán v javě, musíte mít nainstalované JRE
Rozbalte wikiparser_0.1.zip a z adresáře lib překopírujte všechny soubory *.jar do adresáře ext instalace javy (c:\Program Files\Java\jre1.6.0\lib\ext) Konverzi spustíte napsáním do příkazového řádku (Start - spustit - cmd)
java -jar WikiParser.jar current.xml.bz2 cs-wiki.txt
3) Vytvoření slovníku pro MDict (cs-wiki.mdx)
Pomocí utility MdxBuilder vytvoříme z cs-wiki.txt slovník cs-wiki.mdx
V programu nastavte "Compact HTML" a kodování "UTF8"
4) Instalace wikipedie do mobilu
Zkopíruj soubor cs-wiki.mdx na SD kartu nebo do vnitřní paměti mobilu,
spusť MDict a vyber Library - Search All - a přidej svoji wikipedii.
Co je to parser: Parser je program, který dokáže analyzovat kód a dokáže jej rozebrat na jednotlivé části (tagy a text).
Přihlásit se k odběru:
Komentáře k příspěvku (Atom)
9 komentářů:
Tak na to jsem už opravdu dlouho čekal, českou wikipedii pro offline prohlížení. Díky moc. Ale bohužel, vše jsem udělal dle návodu a konverze do txt proběhla bez problému, ale MdxBuilder v aktuální verzi 3.0 Beta hlásil Runtime error ve starší verzi 2.5 Beta pak byla hláška: Begining loading source file...
Content is longer then 524288 at position: 37952599 of the source file.Failed to load source file, process cancelled.
V čem by mohla být chyba? Návod jsem se snažil dodržet přesně. Prosím o radu nebo možnost stáhnout si českou Wiki už konvertovanou pro MDict. Ještě jednou děkuji, skvělý počin. Richard Wagner
Tak už se to rozeběhlo, ale proč to nechtělo pracovat jsem neodhalil. Používám MdxBuilder v aktuální verzi 3.0 Beta. Ale ještě jeden zádrhel se objevil. Problémy dělají české znaky jako č,š,ž.... Hesla počínající těmito znaky jsou řazena nakonec seznamu a nejsou vyhledávána, ani odkazy na ně nefungují. Je to možné nějak odstranit? Jinak ještě jednou děkuji za dobrou práci, to jsem potřeboval. Richard Wagner
Nejsem autorem wikiparseru, ale je možno jej spouštět i s parametry viz. README.TXT
--skiptables - přeskočí tabulky v obsahu
--noexternal - odstraní externí odkazy
--noredirects - přeskočí přesměrování
--simple - jednoduché formátování (bez bold, italic, code)
--maxlength - maximální délka článku před zkrácením
--maxlengthtrim - odkud se bude článek zkracovat
--minlength - kratčí články než minlength budou odstraněny
Jelikož chyba zněla "Content is longer then 524288" zkuste
java -jar WikiParser.jar --maxlength 500000 --maxlengthtrim=500000 --simple current.xml.bz2 cs-wiki.txt
Přestože MDict pracuje s kódováním UTF-8 má problém s tříděním a hledáním české diakritiky.
Zkuste kontaktovat autora MDict a MDXBuilder na http://www.octopus-studio.com se žádostí aby v příští verzi to napravil.
Prosím o možnost stáhnout si českou Wiki už konvertovanou pro MDict.Asi jsem lama,podařilo se mi je ůspěšně zvládnout bod 1.Konverze do txt skončila na hlášce "Unable to access jarfile WikiParser.jar" a dál se nehnu.
čau, už nějakej čas se snažím dostat wiki do ppc.. vždycky skončím u toho bodu s Javou.. jsem asi uplna lama.. ale prostě mi to nejde.. šlo by pro mojí maličkost popsat podrobnějc jak spustit java script atd? dik ;)
abych konkrétně ukázal co mi to píše:
http://img6.imageshack.us/img6/7910/clipboard01vt.jpg
jinak ten WikiPharser.jar mam jak v program files.. tak i v ty složce kde mám current.xml.bz2
fakt si nevím rady.. tuší někdo co s tím? Dík
v tento počítač >> Vlastnosti systému >> Upřesnit >> Proměnné prostředí
nastavit cesty ke spustitelným programům (PATH)
kořenový adresář instalace Javy (JAVA_HOME)
cesty ke třídám (CLASSPATH)
např.:
PATH = C:\Program Files\Java\jdk1.6.0_16\bin
JAVA_HOME = C:\Program Files\Java\jdk1.6.0_16
zkontroluješ např.:
v start - spustit - cmd: set nebo path
ahoj, nemate nekdo zkusenosi s novym parserem http://sh0dan.blogspot.com/2009/05/wikiparser-v11.html ? uz to neni tak jednoduche jako s verzi 0.1. musel jsem stahnout MySQL databazi, stahnout ovladac pro Javu, aby mela k MySQL pristup, vytvorit v MySQL databazi "wikindex", ale pak mi to stejne v cyklu vypisuje ze nemuze najit tabulku "wikindex.links". nevite nekdo co s tim? v teto verzi by uz mely byt opravene tabulky, coz je docela podstatna oprava, protoze ve verzi 0.1 jsou necitelne.
diky
Nemám, přešel jsem na Android a používám aplikaci s názvem wikidroyd, lze stáhnout už hotovou wikipedii s perfektně fungujícími hypertextovými odkazy, viz. http://www.wikidroyd.com/wiki-android-offline-wikipedias
Okomentovat