Dies ist eine HTML Version eines Anhanges der Informationsfreiheitsanfrage 'Documents and statistics on the EMM Open Source Intelligence Suite'.

EMM OSINT Suite Release I (Version 2.3.1) 
Description 
The EMM OSINT Suite is a desktop software package which consists of various tools based on the JRC’s 
research in open source text analysis and mining. 
The software consists of the following core modules: 
Data Acquisition 

Search – a component to extract search results from online search engines

Crawler – a HTTP crawler module to harvest data from targeted web sites (“crawling”)

Grabber – a HTTP client module to download text based or binary documents from web sites for further
processing
Data Processing 

Text Extraction – extracts texts from different text based and binary formats (XML, TXT, PDF, MS
Word, MS Excel, MS PowerPoint, Open Office) 

Entity Extraction – a set of modules to extract named entities from raw text. Entity types are people,
organisations, locations, address information, VAT numbers and user defined custom types 

Category Matching – categorises text according to key word based category definitions
Data Analysis 

Reporting – a component to create reports for end users of for further external processing of extraction
results 

Local Search – a local search index to provide full text search of downloaded artefacts

Entity Browser – an analysis component to aggregate found entity data and allows browsing through the
results.
The different tools are made available with a graphical user interface based on the Eclipse Rich Client Platform 
which is an open source toolkit for desktop applications. 

Release Notes  
The 2014 release contains the following improvements and bug fixes:  
Improvements 
  New Category Matching module 
  Find documents which match a specific keyword pattern 
  Pattern language editor to define custom patterns 
  Internal analysis data model 
  Complete revision with substantial performance improvements and much less memory 
consumption 
  Faster load up of data for larger document sets 
  Fixed issues:  
  #OSINT-23 Improve algorithm to calculate Entity-Entity relations in the analysis data 
model 
  Entity Browser 
  Filtering of entity types (#OSINT-52) 
  Show frequency of entities (how often an entity occurs across document set) 
  Show number of related documents 
  Sort alphabetic or by frequency 
  Workspace 
  #OSINT-97 Show active workspace path and (active name variant db in title bar) 
  The workspace path is shown in the status bar (bottom of window) if a project is selected 
  Entity Extraction 
  Added pattern to extract Croatian VAT Numbers 
  Revision of regular expression based patterns 
  Easier editing of regular expression by splitting into separate files for each custom entity type 
  System Basis 
  Faster start-up time 
  Latest Java Run Time 
 
Bug Fixes: 
  #OSINT-91 Deletion of Project does not clear graph view 
  #OSINT-93 Failure to load icons of search engines 
  #OSINT-93 EntityBrowser not refreshed correctly 
  Removed obsolete preference pages 
 
 
 


Screenshots 
 
Data Acquisition 
 
 
 


Analysis 
 
 
 
 


User Report