#!/bin/bash
## Šis scenrijus atsisiunčia iš www.likit.lt svetainės
## Anglų-lietuvių terminų žodynėlio šaltinius ir
## konvertuoja į du žodynų formatus:
## Slovo (*.dwa) ir LISA: Term Base eXchange (*.tbx).
## Kad scenarijus veiktų, turite jį vykdyti Linux
## sistemoje. Jei reikalingas ir TBX formatas, 
## sistemoje turi būti įdiegtas programų rinkinys
## translate-toolkit.
## Scenarijų parašė (c) Donatas G. <dgvirtual@akl.lt>
## Scenarijus platinamas pagal GPL v3 licenciją.

## atsisiunčiame archyvą

function cleanup {
rm en-lt.zip
rm en-lt.csv
}

function error_csv2tbx {
echo "Konvertavimas nepavyko"
echo "Gal būt nesate įdiegę translate-toolkit programų"
echo "rinkinio?"
clenaup
exit 1
}

function error_wget {
echo "Šaltinių failo atsisiųsti iš www.likit.lt/en-lt/ nepavyko."
echo "Patikrinkite, ar turite interneto prieigą, bei, ar minėta"
echo "interneto svetainė yra prieinama, ir bandykite iš naujo."
exit 1
}

echo "Atsisiunčiame žodyną..."

wget http://www.likit.lt/en-lt/en-lt.zip || error_wget;
## išpakuojame
echo
echo "Išpakuojame..."
unzip en-lt.zip


echo "Keičiame failo koduotę iš cp1257 į utf8..."
## konvertuojame į utf8 koduotę
iconv -f cp1257 -t utf8  en-lt.txt -o en-lt_utf8.txt
rm en-lt.txt
mv en-lt_utf8.txt en-lt.txt
echo

echo "Konvertuojame į slovo formato žodyną (*.dwa)..."
## konvertuojame į dwa formato žodyną (naudojimui su 
## OpenDict programa
cat en-lt.txt | sed 's/|//g' | \
    sed 's/ – / = /' | sed '1,9d' > en-lt.dwa
echo
echo "Slovo formato failas en-lt.dwa parengtas. Jį galite"
echo "naudoti su programa OpenDict."
echo
echo "Jei ketinate žodyną platinti, turite perkelti į jį "
echo "originalaus failo preambulėje esančią informaciją "
echo "bei nurodyti, kad žodyno šaltinis yra atsisiųstas iš"
echo "žiniatinklio svetainės http://www.likit.lt"
echo "Visą tai galite surašyti pirmojoje failo eilutėje"
echo "atvėrę jį bet kokia teksto rengykle štai taip: "
echo ". = Anglų–lietuvių kalbų <...>"
echo

echo "Konvertuojame į programos Lokalize naudojamą *.tbx "
echo "formatą..."
echo

## parengiame csv formato failą, visi tikri kableliai keičiami
## išraiška #$#
cat en-lt.txt | sed 's/,/#$#/g' | sed 's/ – /,/' | \
	sed 's/^/,/' | sed 's/|//g' | sed '1,9d'  > en-lt.csv

csv2tbx en-lt.csv en-lt.tbx || error_csv2tbx;

## aptvarkome žodyną
sed 's/"xx"/"lt"/' -i en-lt.tbx
sed 's/Translate Toolkit - csv2tbx/Anglų–lietuvių kalbų kompiuterijos žodynėlis/' -i en-lt.tbx
sed 's/#$#/,/g' -i en-lt.tbx


echo
echo "Lokalize naudojamo formato failas en-lt.tbx parengtas."
echo
echo "Jei ketinate žodyną platinti, turite perkelti į jį "
echo "originalaus failo preambulėje esančią informaciją "
echo "bei nurodyti, kad žodyno šaltinis yra atsisiųstas iš"
echo "žiniatinklio svetainės http://www.likit.lt"
echo "Visą tai galite surašyti failo pradžioje greta apibūdinimo"
echo "„Anglų–lietuvių kalbų kompiuterijos žodynėlis“ "
echo "būtinai tarp ženklų „<p>“ ir „</p>“."

echo
echo "Sėkmės!"
echo

