Apache Tika
Apache Tika — набір бібліотек на мові Java для виявлення, аналізу, виділення мета-даних і структурованого контенту з різноманітних форматів файлів. Всього підтримується більше 1200 форматів, включаючи HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, різні формати зображень, мультимедіа, архівів і пакунків програм.
|
| |
| Тип | набір бібліотек |
|---|---|
| Розробник | Apache Software Foundation |
| Перший випуск | 2011 |
| Стабільний випуск | 1.7 (15 січня 2015) |
| Репозиторій | https://gitbox.apache.org/repos/asf?p=tika.git, https://gitbox.apache.org/repos/asf/tika.git |
| Платформа | JVM |
| Мова програмування | Java[1][2] |
| Доступні мови | Java |
| Ліцензія | Apache License |
| Вебсайт | tika.apache.org |
Спочатку Apache Tika був розроблений як частина пошукового рушія Apache Lucene, але пізніше переріс в самостійний проєкт.
Крім бібліотек, підготовлені консольна утиліта і GUI-застосунок для зручного вилучення даних з різних файлів. Крім мови Java, в рамках проєкту підготовлені обгортки для мов Python, .NET та C++.
Застосування
Технології Tika використані у фреймворку для побудови пошукових систем Nutch.
Apache Tika був використаний, зокрема, Міжнародним консорціумом журналістів-розслідувачів для дослідження інформації у так званих «панамських документах»[3].
Примітки
- The tika Open Source Project on Open Hub: Languages Page — 2006.
- https://projects.apache.org/json/projects/tika.json
- Mar Cabra, Erin Kissane (11 квітня 2016). The People and Tech Behind the Panama Papers. opennews.org. An OpenNews project. Процитовано 18 квітня 2016.