Data2Vis: Automatic Generation of Data Visualizations Using Sequence-to-Sequence Recurrent Neural Networks

Rapidly creating effective visualizations using expressive grammars is challenging for users who have limited time and limited skills in statistics and data visualization. Even high-level, dedicated visualization tools often require users to manually select among data attributes, decide which transf...

Full description

Saved in:

Bibliographic Details
Published in	IEEE computer graphics and applications Vol. 39; no. 5; pp. 33 - 46
Main Authors	Dibia, Victor, Demiralp, Cagatay
Format	Magazine Article
Language	English
Published	United States IEEE 01.09.2019 The Institute of Electrical and Electronics Engineers, Inc. (IEEE)
Subjects	Automated Visualization Automation Coders Data models Data visualization Deep Learning Encoding Grammar Grammars Language translation Machine Learning Recurrent neural networks Scientific visualization Specifications Syntactics Syntax Transformations Visualization
Online Access	Get full text
ISSN	0272-1716 1558-1756 1558-1756
DOI	10.1109/MCG.2019.2924636

Cover

More Information
Summary:	Rapidly creating effective visualizations using expressive grammars is challenging for users who have limited time and limited skills in statistics and data visualization. Even high-level, dedicated visualization tools often require users to manually select among data attributes, decide which transformations to apply, and specify mappings between visual encoding variables and raw or transformed attributes. In this paper we introduce Data2Vis, an end-to-end trainable neural translation model for automatically generating visualizations from given datasets. We formulate visualization generation as a language translation problem, where data specifications are mapped to visualization specifications in a declarative language (Vega-Lite). To this end, we train a multilayered attention-based encoder–decoder network with long short-term memory (LSTM) units on a corpus of visualization specifications. Qualitative results show that our model learns the vocabulary and syntax for a valid visualization specification, appropriate transformations (count, bins, mean), and how to use common data selection patterns that occur within data visualizations. We introduce two metrics for evaluating the task of automated visualization generation (language syntax validity, visualization grammar syntax validity) and demonstrate the efficacy of bidirectional models with attention mechanisms for this task. Data2Vis generates visualizations that are comparable to manually created visualizations in a fraction of the time, with potential to learn more complex visualization strategies at scale.
Bibliography:	ObjectType-Article-1 SourceType-Scholarly Journals-1 ObjectType-Feature-2 content type line 14 content type line 23
ISSN:	0272-1716 1558-1756 1558-1756
DOI:	10.1109/MCG.2019.2924636