Zastosowanie AI w nowych modułach systemu Expertus
Data opublikowania: 12 września 2024.
Referat omawia zastosowanie AI w następujących modułach:
- Expertus AISS - wyszukiwanie na podstawie podobieństwa wektorowego w dokumentach tekstowych
opierające się na zaawansowanych technikach przetwarzania języka naturalnego (NLP).
Każdy dokument jest przekształcany w wektor, który reprezentuje jego treść w przestrzeni wielowymiarowej.
Następnie, na podstawie zdefiniowanych miar podobieństwa, system porównuje wektory, aby znaleźć dokumenty
najbardziej zbliżone do zapytania nie tylko pod względem semantycznym, lecz także pojęciowym, wynikającym z zastosowanego modelu językowego LLM.
Taki system umożliwia bardziej trafne i intuicyjne wyszukiwanie,
bazujące na faktycznej treści dokumentów, a nie jedynie na dopasowaniach słów kluczowych.
Przeznaczenie: zapewnienie szybkiego wyszukiwania informacji w dużych zbiorach danych na podstawie modelu językowego np.
informacji o częstym występowaniu różnych pojęć we wzajemnych relacjach w tekście.
- Expertus MedKey - moduł oparty na modelu językowym BioBERT służący
do automatycznego nadawanie słów kluczowych
tytułom lub abstraktom publikacji z zakresu biomedycyny na zasadzie dopasowania terminów MeSH (Medical Subject Headings)
do analizowanej treści.
Dokumenty są przetwarzane automatycznie, słowa kluczowe wybierane są spośród najbardziej pasujących deskryptorów MeSH.
Celem jest ułatwienie kategoryzacji i przyspieszenie procesu analizy dokumentów w dużych zbiorach danych
indeksujących publikacje medyczne.
- Expertus ML (Machine Learning) - moduł oparty na modelu językowym BioBERT,
który został dodatkowo przeszkolony z
wykorzystaniem uczenia maszynowego na wskazanym zbiorze danych zawierającym
np. dokumenty z węższej, bardziej specjalistycznej dziedziny.
Moduł - podobnie jak przedstawiony w poprzednim punkcie Expertus MedKey
- służy do automatycznego nadawania słów kluczowych na podstawie
tytułów i abstraktów medycznych, ale dzięki dodatkowemu przetrenowanie modelu BioBERT na dodatkowym, własnym zbiorze danych
słowa kluczowe są nadawane w oparciu o zdefiniowany zbiór użyty podczas trenowania.
Dzięki temu model lepiej dopasowuje się do specyficznych terminów używanych w danym zbiorze danych,
co poprawia trafność generowanych słów kluczowych.
Może być również wykorzystywany w zastosowaniach specjalistycznych, gdzie po przetrenowaniu na mniejszym zbiorze danych
(a więc z mniejszym nakładem) zapewni precyzyjne dopasowanie słów kluczowych w dokumentach z danej, węższej dziedziny.
- Expertus RQuestAI (Querying the repository - RAG) umożliwia kierowanie zapytań w języku naturalnym
do lokalnie utworzonego zbioru danych, w tym także do bazy danych niepodłączonej do internetu.
Baza może składać z dowolnych dokumentów np. w formacie PDF lub formatach tekstowych.
Moduł wykorzystuje technologię RAG (Retrieval-Augmented Generation), która łączy mechanizmy wyszukiwania informacji
z generatywnym modelem językowym GPT (OpenAI). System wyszukuje istotne fragmenty dokumentów i generuje wyniki
przedstawiając je w języku naturalnym.
Szczegóły wkrótce w serwisie technicznym:
wejście.