Dane szeroko zamknięte

Z tego powodu skierowaliśmy do WSA w Warszawie skargę na decyzję ministerstwa. Mamy nadzieję, że sąd jest w stanie wyjaśnić sytuację, a w toku postępowania resort cyfryzacji dowiedzie, że realizacja naszego wniosku jest niemożliwa, bądź trudna ponad spodziewane korzyści. Zobaczymy.

O co chodzi z tym PLLuM?

Dalsza część opowieści ma już charakter gorzkiej refleksji.

Bez żadnego związku z opisaną wyżej sprawą, przyglądamy się od dłuższego czasu rozwojowi narzędzi AI i widzimy, że zdobywają coraz więcej zwolenników. Wobec tego, wydaje się, że każdy dostawca treści powinien przynajmniej trzymać rękę na pulsie tego zjawiska.

Chcieliśmy zacząć od prostej próby wytrenowania któregoś z modeli językowych na naszych własnych danych ‒ tekstach i innych zasobach TELKO.in ‒ aby samemu skorzystać z czatbota w pracy redakcyjnej, oraz aby udostępnić go czytelnikom serwisu, skoro dla przynajmniej niektórych tak jest wygodniej.

Nie kryję, że do sprawy przystąpiliśmy z doskoku i po łebkach ‒ w przerwach pomiędzy innymi zadaniami. Pobieżna kwerenda wykazała, że bez systemowej integracji z naszym serwerem nie da się wykorzystać bezpośrednio żadnego z dużych modeli, ale że jest inna droga. Na rynku bowiem jest już masa firm, która przewidziała potrzeby takich podmiotów jak TELKO.in i za odpowiednią opłatą udostępnia bezintegracyjny model korzystania z AI ‒ różnych wersji, różnych silników ‒ do wyboru; za odpowiednią opłatą: od stu kilkudziesięciu do kilku tysięcy złotych. Biznes się kręci, a globalne LLM pożerają kolejne zasoby danych. Na marginesie dodamy, że eksperyment na razie zawiódł nasze nadzieje, ale może niewłaściwe podeszliśmy do sprawy.

Wspieraj polskie AI – tylko jak?

Zanim jednak wybraliśmy platformę AI, przyszło nam do głowy: dlaczego mamy karmić (pieniędzmi i danymi) ChatGPT, Gemini, czy Claude’a oraz partnerów tych firm, skoro modele językowe opracowuje się także w Polsce. Akurat otwarcie modelu PLLuM ogłosił z dużym przytupem minister Gawkowski. Na pierwszy rzut oka nie wyglądało, aby model udostępniał potrzebne nam narzędzia, ale co szkodziło zapytać? Zapytaliśmy dwukrotnie w kwietniu i do dziś nie otrzymaliśmy żadnej odpowiedzi. Jest jeszcze Bielik i może tutaj się uda… choćby uzyskać odpowiedź.

Tutaj właśnie narodziła się gorzka refleksja: wystąpić na konferencji prasowej, aby ogłosić że Polska także „umie w AI” jest łatwo. Nadać projektowi realne życie oraz biznesowy impet jest znacznie trudniej. Udostępnić dane będące we własnym posiadaniu również. Tymczasem pozycja ChatGPT, Gemini, czy Claude’a wynika nie tylko z tego, że zainwestowane w nie potężne pieniądze, ale także z tego, że postarano się by te pieniądze można było zarabiać ‒ również w partnerstwie z innymi.

Uderzyło nas to, ponieważ w toku dyskusji z MC o dostęp do danych SI2PEM usłyszeliśmy, że „tak, niejeden chciałby od nas dane, żeby na nich zarobić”. I to bynajmniej nie był komplement. Jeżeli administracja publiczna traktuje dane pozostające w jej gestii jako „swoje” i będzie miała za złe, że ktoś chce je wtórnie przetwarzać i na tym zarobić, to zdecydowanie trudniej będzie budować cyfrową gospodarkę w Polsce.