Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error

I am new to Spark and trying to read a CSV file using Java maven project but getting ArrayIndexOutOfBoundsException error.

Dependencies:

 <dependencies>
 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
 <dependency>
 <groupId>org.apache.spark</groupId>
 <artifactId>spark-core_2.12</artifactId>
 <version>2.4.0</version>
 </dependency>

 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
 <dependency>
 <groupId>org.apache.spark</groupId>
 <artifactId>spark-sql_2.12</artifactId>
 <version>2.4.0</version>
 </dependency>
</dependencies>

Code:

SparkSession spark = SparkSession
 .builder()
 .appName("Java Spark SQL Example")
 .config("spark.master", "local")
 .getOrCreate();

 //Read file
 Dataset<Row> df = spark.read()
 .format("csv")
 .load("test.csv");

CSV File

name,code
A,1
B,3
C,5

Here is stacktrace

 Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
 18/11/12 11:16:25 INFO SparkContext: Running Spark version 2.4.0
 18/11/12 11:16:25 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
 18/11/12 11:16:25 INFO SparkContext: Submitted application: Java Spark SQL Example
 18/11/12 11:16:25 INFO SecurityManager: Changing view acls to: vkumar
 18/11/12 11:16:25 INFO SecurityManager: Changing modify acls to: vkumar
 18/11/12 11:16:25 INFO SecurityManager: Changing view acls groups to: 
 18/11/12 11:16:25 INFO SecurityManager: Changing modify acls groups to: 
 18/11/12 11:16:25 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(vkumar); groups with view permissions: Set(); users with modify permissions: Set(vkumar); groups with modify permissions: Set()
 18/11/12 11:16:26 INFO Utils: Successfully started service 'sparkDriver' on port 54382.
 18/11/12 11:16:26 INFO SparkEnv: Registering MapOutputTracker
 18/11/12 11:16:26 INFO SparkEnv: Registering BlockManagerMaster
 18/11/12 11:16:26 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information
 18/11/12 11:16:26 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up
 18/11/12 11:16:26 INFO DiskBlockManager: Created local directory at /private/var/folders/32/7klbv5_94wbddn9kgzvbwnkr0000gn/T/blockmgr-ddd2a79d-7fae-48e4-9658-1a8e2a8bb734
 18/11/12 11:16:26 INFO MemoryStore: MemoryStore started with capacity 4.1 GB
 18/11/12 11:16:26 INFO SparkEnv: Registering OutputCommitCoordinator
 18/11/12 11:16:26 INFO Utils: Successfully started service 'SparkUI' on port 4040.
 18/11/12 11:16:26 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://kirmac133.domain.com:4040
 18/11/12 11:16:26 INFO Executor: Starting executor ID driver on host localhost
 18/11/12 11:16:26 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 54383.
 18/11/12 11:16:26 INFO NettyBlockTransferService: Server created on kirmac133.domain.com:54383
 18/11/12 11:16:26 INFO BlockManager: Using org.apache.spark.storage.RandomBlockReplicationPolicy for block replication policy
 18/11/12 11:16:26 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO BlockManagerMasterEndpoint: Registering block manager kirmac133.domain.com:54383 with 4.1 GB RAM, BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO SharedState: Setting hive.metastore.warehouse.dir ('null') to the value of spark.sql.warehouse.dir ('file:/Users/vkumar/Documents/intellij/tmvalidator/spark-warehouse').
 18/11/12 11:16:26 INFO SharedState: Warehouse path is 'file:/Users/vkumar/Documents/intellij/tmvalidator/spark-warehouse'.
 18/11/12 11:16:27 INFO StateStoreCoordinatorRef: Registered StateStoreCoordinator endpoint
 18/11/12 11:16:28 INFO FileSourceStrategy: Pruning directories with: 
 18/11/12 11:16:28 INFO FileSourceStrategy: Post-Scan Filters: (length(trim(value#0, None)) > 0)
 18/11/12 11:16:28 INFO FileSourceStrategy: Output Data Schema: struct<value: string>
 18/11/12 11:16:28 INFO FileSourceScanExec: Pushed Filters: 
 18/11/12 11:16:29 INFO CodeGenerator: Code generated in 130.688148 ms
 Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 10582
 at com.thoughtworks.paranamer.BytecodeReadingParanamer$ClassReader.accept(BytecodeReadingParanamer.java:563)
 at com.thoughtworks.paranamer.BytecodeReadingParanamer$ClassReader.access$200(BytecodeReadingParanamer.java:338)
 at com.thoughtworks.paranamer.BytecodeReadingParanamer.lookupParameterNames(BytecodeReadingParanamer.java:103)
 at com.thoughtworks.paranamer.CachingParanamer.lookupParameterNames(CachingParanamer.java:90)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.getCtorParams(BeanIntrospector.scala:44)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$1(BeanIntrospector.scala:58)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$1$adapted(BeanIntrospector.scala:58)
 at scala.collection.TraversableLike.$anonfun$flatMap$1(TraversableLike.scala:240)
 at scala.collection.Iterator.foreach(Iterator.scala:937)
 at scala.collection.Iterator.foreach$(Iterator.scala:937)
 at scala.collection.AbstractIterator.foreach(Iterator.scala:1425)
 at scala.collection.IterableLike.foreach(IterableLike.scala:70)
 at scala.collection.IterableLike.foreach$(IterableLike.scala:69)
 at scala.collection.AbstractIterable.foreach(Iterable.scala:54)
 at scala.collection.TraversableLike.flatMap(TraversableLike.scala:240)
 at scala.collection.TraversableLike.flatMap$(TraversableLike.scala:237)
 at scala.collection.AbstractTraversable.flatMap(Traversable.scala:104)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.findConstructorParam$1(BeanIntrospector.scala:58)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$19(BeanIntrospector.scala:176)
 at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:233)
 at scala.collection.IndexedSeqOptimized.foreach(IndexedSeqOptimized.scala:32)
 at scala.collection.IndexedSeqOptimized.foreach$(IndexedSeqOptimized.scala:29)
 at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:194)
 at scala.collection.TraversableLike.map(TraversableLike.scala:233)
 at scala.collection.TraversableLike.map$(TraversableLike.scala:226)
 at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:194)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$14(BeanIntrospector.scala:170)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$14$adapted(BeanIntrospector.scala:169)
 at scala.collection.TraversableLike.$anonfun$flatMap$1(TraversableLike.scala:240)
 at scala.collection.immutable.List.foreach(List.scala:388)
 at scala.collection.TraversableLike.flatMap(TraversableLike.scala:240)
 at scala.collection.TraversableLike.flatMap$(TraversableLike.scala:237)
 at scala.collection.immutable.List.flatMap(List.scala:351)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.apply(BeanIntrospector.scala:169)
 at com.fasterxml.jackson.module.scala.introspect.ScalaAnnotationIntrospector$._descriptorFor(ScalaAnnotationIntrospectorModule.scala:22)
 at com.fasterxml.jackson.module.scala.introspect.ScalaAnnotationIntrospector$.fieldName(ScalaAnnotationIntrospectorModule.scala:30)
 at com.fasterxml.jackson.module.scala.introspect.ScalaAnnotationIntrospector$.findImplicitPropertyName(ScalaAnnotationIntrospectorModule.scala:78)
 at com.fasterxml.jackson.databind.introspect.AnnotationIntrospectorPair.findImplicitPropertyName(AnnotationIntrospectorPair.java:467)
 at com.fasterxml.jackson.databind.introspect.POJOPropertiesCollector._addFields(POJOPropertiesCollector.java:351)
 at com.fasterxml.jackson.databind.introspect.POJOPropertiesCollector.collectAll(POJOPropertiesCollector.java:283)
 at com.fasterxml.jackson.databind.introspect.POJOPropertiesCollector.getJsonValueMethod(POJOPropertiesCollector.java:169)
 at com.fasterxml.jackson.databind.introspect.BasicBeanDescription.findJsonValueMethod(BasicBeanDescription.java:223)
 at com.fasterxml.jackson.databind.ser.BasicSerializerFactory.findSerializerByAnnotations(BasicSerializerFactory.java:348)
 at com.fasterxml.jackson.databind.ser.BeanSerializerFactory._createSerializer2(BeanSerializerFactory.java:210)
 at com.fasterxml.jackson.databind.ser.BeanSerializerFactory.createSerializer(BeanSerializerFactory.java:153)
 at com.fasterxml.jackson.databind.SerializerProvider._createUntypedSerializer(SerializerProvider.java:1203)
 at com.fasterxml.jackson.databind.SerializerProvider._createAndCacheUntypedSerializer(SerializerProvider.java:1157)
 at com.fasterxml.jackson.databind.SerializerProvider.findValueSerializer(SerializerProvider.java:481)
 at com.fasterxml.jackson.databind.SerializerProvider.findTypedValueSerializer(SerializerProvider.java:679)
 at com.fasterxml.jackson.databind.ser.DefaultSerializerProvider.serializeValue(DefaultSerializerProvider.java:107)
 at com.fasterxml.jackson.databind.ObjectMapper._configAndWriteValue(ObjectMapper.java:3559)
 at com.fasterxml.jackson.databind.ObjectMapper.writeValueAsString(ObjectMapper.java:2927)
 at org.apache.spark.rdd.RDDOperationScope.toJson(RDDOperationScope.scala:52)
 at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:142)
 at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:152)
 at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:127)
 at org.apache.spark.sql.execution.SparkPlan.getByteArrayRdd(SparkPlan.scala:247)
 at org.apache.spark.sql.execution.SparkPlan.executeTake(SparkPlan.scala:339)
 at org.apache.spark.sql.execution.CollectLimitExec.executeCollect(limit.scala:38)
 at org.apache.spark.sql.Dataset.collectFromPlan(Dataset.scala:3384)
 at org.apache.spark.sql.Dataset.$anonfun$head$1(Dataset.scala:2545)
 at org.apache.spark.sql.Dataset.$anonfun$withAction$2(Dataset.scala:3365)
 at org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$1(SQLExecution.scala:78)
 at org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:125)
 at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:73)
 at org.apache.spark.sql.Dataset.withAction(Dataset.scala:3365)
 at org.apache.spark.sql.Dataset.head(Dataset.scala:2545)
 at org.apache.spark.sql.Dataset.take(Dataset.scala:2759)
 at org.apache.spark.sql.execution.datasources.csv.TextInputCSVDataSource$.infer(CSVDataSource.scala:232)
 at org.apache.spark.sql.execution.datasources.csv.CSVDataSource.inferSchema(CSVDataSource.scala:68)
 at org.apache.spark.sql.execution.datasources.csv.CSVFileFormat.inferSchema(CSVFileFormat.scala:63)
 at org.apache.spark.sql.execution.datasources.DataSource.$anonfun$getOrInferFileFormatSchema$12(DataSource.scala:183)
 at scala.Option.orElse(Option.scala:289)
 at org.apache.spark.sql.execution.datasources.DataSource.getOrInferFileFormatSchema(DataSource.scala:180)
 at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:373)
 at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223)
 at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
 at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
 at kir.com.tmvalidator.Validator.init(Validator.java:30)
 at kir.com.tmvalidator.Home.main(Home.java:7)
 18/11/12 11:16:29 INFO SparkContext: Invoking stop() from shutdown hook
 18/11/12 11:16:29 INFO SparkUI: Stopped Spark web UI at http://kirmac133.domain.com:4040
 18/11/12 11:16:29 INFO ContextCleaner: Cleaned accumulator 4
 18/11/12 11:16:29 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!
 18/11/12 11:16:29 INFO MemoryStore: MemoryStore cleared
 18/11/12 11:16:29 INFO BlockManager: BlockManager stopped
 18/11/12 11:16:29 INFO BlockManagerMaster: BlockManagerMaster stopped
 18/11/12 11:16:29 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!
 18/11/12 11:16:29 INFO SparkContext: Successfully stopped SparkContext
 18/11/12 11:16:29 INFO ShutdownHookManager: Shutdown hook called
 18/11/12 11:16:29 INFO ShutdownHookManager: Deleting directory /private/var/folders/32/7klbv5_94wbddn9kgzvbwnkr0000gn/T/spark-1bde2bb5-603d-4fae-9128-7d92f259077b

edited Nov 12 at 11:20

asked Nov 12 at 11:14

VK321

2,07121524

1

Can you include the stack trace?
– shriyog
Nov 12 at 11:16

@shriyog - Added
– VK321
Nov 12 at 11:21

Are you getting this error of above-mentioned input in csv?
– shriyog
Nov 12 at 11:28

@shriyog - Yes :(
– VK321
Nov 12 at 11:28

I tested the same for 2.3.0 versions, it works without issues. Checking with 2.4.0
– shriyog
Nov 12 at 11:32

|
show 3 more comments

I am new to Spark and trying to read a CSV file using Java maven project but getting ArrayIndexOutOfBoundsException error.

Dependencies:

 <dependencies>
 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
 <dependency>
 <groupId>org.apache.spark</groupId>
 <artifactId>spark-core_2.12</artifactId>
 <version>2.4.0</version>
 </dependency>

 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
 <dependency>
 <groupId>org.apache.spark</groupId>
 <artifactId>spark-sql_2.12</artifactId>
 <version>2.4.0</version>
 </dependency>
</dependencies>

Code:

SparkSession spark = SparkSession
 .builder()
 .appName("Java Spark SQL Example")
 .config("spark.master", "local")
 .getOrCreate();

 //Read file
 Dataset<Row> df = spark.read()
 .format("csv")
 .load("test.csv");

CSV File

name,code
A,1
B,3
C,5

Here is stacktrace

 Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
 18/11/12 11:16:25 INFO SparkContext: Running Spark version 2.4.0
 18/11/12 11:16:25 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
 18/11/12 11:16:25 INFO SparkContext: Submitted application: Java Spark SQL Example
 18/11/12 11:16:25 INFO SecurityManager: Changing view acls to: vkumar
 18/11/12 11:16:25 INFO SecurityManager: Changing modify acls to: vkumar
 18/11/12 11:16:25 INFO SecurityManager: Changing view acls groups to: 
 18/11/12 11:16:25 INFO SecurityManager: Changing modify acls groups to: 
 18/11/12 11:16:25 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(vkumar); groups with view permissions: Set(); users with modify permissions: Set(vkumar); groups with modify permissions: Set()
 18/11/12 11:16:26 INFO Utils: Successfully started service 'sparkDriver' on port 54382.
 18/11/12 11:16:26 INFO SparkEnv: Registering MapOutputTracker
 18/11/12 11:16:26 INFO SparkEnv: Registering BlockManagerMaster
 18/11/12 11:16:26 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information
 18/11/12 11:16:26 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up
 18/11/12 11:16:26 INFO DiskBlockManager: Created local directory at /private/var/folders/32/7klbv5_94wbddn9kgzvbwnkr0000gn/T/blockmgr-ddd2a79d-7fae-48e4-9658-1a8e2a8bb734
 18/11/12 11:16:26 INFO MemoryStore: MemoryStore started with capacity 4.1 GB
 18/11/12 11:16:26 INFO SparkEnv: Registering OutputCommitCoordinator
 18/11/12 11:16:26 INFO Utils: Successfully started service 'SparkUI' on port 4040.
 18/11/12 11:16:26 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://kirmac133.domain.com:4040
 18/11/12 11:16:26 INFO Executor: Starting executor ID driver on host localhost
 18/11/12 11:16:26 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 54383.
 18/11/12 11:16:26 INFO NettyBlockTransferService: Server created on kirmac133.domain.com:54383
 18/11/12 11:16:26 INFO BlockManager: Using org.apache.spark.storage.RandomBlockReplicationPolicy for block replication policy
 18/11/12 11:16:26 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO BlockManagerMasterEndpoint: Registering block manager kirmac133.domain.com:54383 with 4.1 GB RAM, BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO SharedState: Setting hive.metastore.warehouse.dir ('null') to the value of spark.sql.warehouse.dir ('file:/Users/vkumar/Documents/intellij/tmvalidator/spark-warehouse').
 18/11/12 11:16:26 INFO SharedState: Warehouse path is 'file:/Users/vkumar/Documents/intellij/tmvalidator/spark-warehouse'.
 18/11/12 11:16:27 INFO StateStoreCoordinatorRef: Registered StateStoreCoordinator endpoint
 18/11/12 11:16:28 INFO FileSourceStrategy: Pruning directories with: 
 18/11/12 11:16:28 INFO FileSourceStrategy: Post-Scan Filters: (length(trim(value#0, None)) > 0)
 18/11/12 11:16:28 INFO FileSourceStrategy: Output Data Schema: struct<value: string>
 18/11/12 11:16:28 INFO FileSourceScanExec: Pushed Filters: 
 18/11/12 11:16:29 INFO CodeGenerator: Code generated in 130.688148 ms
 Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 10582
 at com.thoughtworks.paranamer.BytecodeReadingParanamer$ClassReader.accept(BytecodeReadingParanamer.java:563)
 at com.thoughtworks.paranamer.BytecodeReadingParanamer$ClassReader.access$200(BytecodeReadingParanamer.java:338)
 at com.thoughtworks.paranamer.BytecodeReadingParanamer.lookupParameterNames(BytecodeReadingParanamer.java:103)
 at com.thoughtworks.paranamer.CachingParanamer.lookupParameterNames(CachingParanamer.java:90)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.getCtorParams(BeanIntrospector.scala:44)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$1(BeanIntrospector.scala:58)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$1$adapted(BeanIntrospector.scala:58)
 at scala.collection.TraversableLike.$anonfun$flatMap$1(TraversableLike.scala:240)
 at scala.collection.Iterator.foreach(Iterator.scala:937)
 at scala.collection.Iterator.foreach$(Iterator.scala:937)
 at scala.collection.AbstractIterator.foreach(Iterator.scala:1425)
 at scala.collection.IterableLike.foreach(IterableLike.scala:70)
 at scala.collection.IterableLike.foreach$(IterableLike.scala:69)
 at scala.collection.AbstractIterable.foreach(Iterable.scala:54)
 at scala.collection.TraversableLike.flatMap(TraversableLike.scala:240)
 at scala.collection.TraversableLike.flatMap$(TraversableLike.scala:237)
 at scala.collection.AbstractTraversable.flatMap(Traversable.scala:104)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.findConstructorParam$1(BeanIntrospector.scala:58)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$19(BeanIntrospector.scala:176)
 at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:233)
 at scala.collection.IndexedSeqOptimized.foreach(IndexedSeqOptimized.scala:32)
 at scala.collection.IndexedSeqOptimized.foreach$(IndexedSeqOptimized.scala:29)
 at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:194)
 at scala.collection.TraversableLike.map(TraversableLike.scala:233)
 at scala.collection.TraversableLike.map$(TraversableLike.scala:226)
 at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:194)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$14(BeanIntrospector.scala:170)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$14$adapted(BeanIntrospector.scala:169)
 at scala.collection.TraversableLike.$anonfun$flatMap$1(TraversableLike.scala:240)
 at scala.collection.immutable.List.foreach(List.scala:388)
 at scala.collection.TraversableLike.flatMap(TraversableLike.scala:240)
 at scala.collection.TraversableLike.flatMap$(TraversableLike.scala:237)
 at scala.collection.immutable.List.flatMap(List.scala:351)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.apply(BeanIntrospector.scala:169)
 at com.fasterxml.jackson.module.scala.introspect.ScalaAnnotationIntrospector$._descriptorFor(ScalaAnnotationIntrospectorModule.scala:22)
 at com.fasterxml.jackson.module.scala.introspect.ScalaAnnotationIntrospector$.fieldName(ScalaAnnotationIntrospectorModule.scala:30)
 at com.fasterxml.jackson.module.scala.introspect.ScalaAnnotationIntrospector$.findImplicitPropertyName(ScalaAnnotationIntrospectorModule.scala:78)
 at com.fasterxml.jackson.databind.introspect.AnnotationIntrospectorPair.findImplicitPropertyName(AnnotationIntrospectorPair.java:467)
 at com.fasterxml.jackson.databind.introspect.POJOPropertiesCollector._addFields(POJOPropertiesCollector.java:351)
 at com.fasterxml.jackson.databind.introspect.POJOPropertiesCollector.collectAll(POJOPropertiesCollector.java:283)
 at com.fasterxml.jackson.databind.introspect.POJOPropertiesCollector.getJsonValueMethod(POJOPropertiesCollector.java:169)
 at com.fasterxml.jackson.databind.introspect.BasicBeanDescription.findJsonValueMethod(BasicBeanDescription.java:223)
 at com.fasterxml.jackson.databind.ser.BasicSerializerFactory.findSerializerByAnnotations(BasicSerializerFactory.java:348)
 at com.fasterxml.jackson.databind.ser.BeanSerializerFactory._createSerializer2(BeanSerializerFactory.java:210)
 at com.fasterxml.jackson.databind.ser.BeanSerializerFactory.createSerializer(BeanSerializerFactory.java:153)
 at com.fasterxml.jackson.databind.SerializerProvider._createUntypedSerializer(SerializerProvider.java:1203)
 at com.fasterxml.jackson.databind.SerializerProvider._createAndCacheUntypedSerializer(SerializerProvider.java:1157)
 at com.fasterxml.jackson.databind.SerializerProvider.findValueSerializer(SerializerProvider.java:481)
 at com.fasterxml.jackson.databind.SerializerProvider.findTypedValueSerializer(SerializerProvider.java:679)
 at com.fasterxml.jackson.databind.ser.DefaultSerializerProvider.serializeValue(DefaultSerializerProvider.java:107)
 at com.fasterxml.jackson.databind.ObjectMapper._configAndWriteValue(ObjectMapper.java:3559)
 at com.fasterxml.jackson.databind.ObjectMapper.writeValueAsString(ObjectMapper.java:2927)
 at org.apache.spark.rdd.RDDOperationScope.toJson(RDDOperationScope.scala:52)
 at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:142)
 at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:152)
 at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:127)
 at org.apache.spark.sql.execution.SparkPlan.getByteArrayRdd(SparkPlan.scala:247)
 at org.apache.spark.sql.execution.SparkPlan.executeTake(SparkPlan.scala:339)
 at org.apache.spark.sql.execution.CollectLimitExec.executeCollect(limit.scala:38)
 at org.apache.spark.sql.Dataset.collectFromPlan(Dataset.scala:3384)
 at org.apache.spark.sql.Dataset.$anonfun$head$1(Dataset.scala:2545)
 at org.apache.spark.sql.Dataset.$anonfun$withAction$2(Dataset.scala:3365)
 at org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$1(SQLExecution.scala:78)
 at org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:125)
 at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:73)
 at org.apache.spark.sql.Dataset.withAction(Dataset.scala:3365)
 at org.apache.spark.sql.Dataset.head(Dataset.scala:2545)
 at org.apache.spark.sql.Dataset.take(Dataset.scala:2759)
 at org.apache.spark.sql.execution.datasources.csv.TextInputCSVDataSource$.infer(CSVDataSource.scala:232)
 at org.apache.spark.sql.execution.datasources.csv.CSVDataSource.inferSchema(CSVDataSource.scala:68)
 at org.apache.spark.sql.execution.datasources.csv.CSVFileFormat.inferSchema(CSVFileFormat.scala:63)
 at org.apache.spark.sql.execution.datasources.DataSource.$anonfun$getOrInferFileFormatSchema$12(DataSource.scala:183)
 at scala.Option.orElse(Option.scala:289)
 at org.apache.spark.sql.execution.datasources.DataSource.getOrInferFileFormatSchema(DataSource.scala:180)
 at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:373)
 at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223)
 at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
 at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
 at kir.com.tmvalidator.Validator.init(Validator.java:30)
 at kir.com.tmvalidator.Home.main(Home.java:7)
 18/11/12 11:16:29 INFO SparkContext: Invoking stop() from shutdown hook
 18/11/12 11:16:29 INFO SparkUI: Stopped Spark web UI at http://kirmac133.domain.com:4040
 18/11/12 11:16:29 INFO ContextCleaner: Cleaned accumulator 4
 18/11/12 11:16:29 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!
 18/11/12 11:16:29 INFO MemoryStore: MemoryStore cleared
 18/11/12 11:16:29 INFO BlockManager: BlockManager stopped
 18/11/12 11:16:29 INFO BlockManagerMaster: BlockManagerMaster stopped
 18/11/12 11:16:29 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!
 18/11/12 11:16:29 INFO SparkContext: Successfully stopped SparkContext
 18/11/12 11:16:29 INFO ShutdownHookManager: Shutdown hook called
 18/11/12 11:16:29 INFO ShutdownHookManager: Deleting directory /private/var/folders/32/7klbv5_94wbddn9kgzvbwnkr0000gn/T/spark-1bde2bb5-603d-4fae-9128-7d92f259077b

edited Nov 12 at 11:20

asked Nov 12 at 11:14

VK321

2,07121524

1

Can you include the stack trace?
– shriyog
Nov 12 at 11:16

@shriyog - Added
– VK321
Nov 12 at 11:21

Are you getting this error of above-mentioned input in csv?
– shriyog
Nov 12 at 11:28

@shriyog - Yes :(
– VK321
Nov 12 at 11:28

I tested the same for 2.3.0 versions, it works without issues. Checking with 2.4.0
– shriyog
Nov 12 at 11:32

|
show 3 more comments

I am new to Spark and trying to read a CSV file using Java maven project but getting ArrayIndexOutOfBoundsException error.

Dependencies:

 <dependencies>
 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
 <dependency>
 <groupId>org.apache.spark</groupId>
 <artifactId>spark-core_2.12</artifactId>
 <version>2.4.0</version>
 </dependency>

 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
 <dependency>
 <groupId>org.apache.spark</groupId>
 <artifactId>spark-sql_2.12</artifactId>
 <version>2.4.0</version>
 </dependency>
</dependencies>

Code:

SparkSession spark = SparkSession
 .builder()
 .appName("Java Spark SQL Example")
 .config("spark.master", "local")
 .getOrCreate();

 //Read file
 Dataset<Row> df = spark.read()
 .format("csv")
 .load("test.csv");

CSV File

name,code
A,1
B,3
C,5

Here is stacktrace

 Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
 18/11/12 11:16:25 INFO SparkContext: Running Spark version 2.4.0
 18/11/12 11:16:25 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
 18/11/12 11:16:25 INFO SparkContext: Submitted application: Java Spark SQL Example
 18/11/12 11:16:25 INFO SecurityManager: Changing view acls to: vkumar
 18/11/12 11:16:25 INFO SecurityManager: Changing modify acls to: vkumar
 18/11/12 11:16:25 INFO SecurityManager: Changing view acls groups to: 
 18/11/12 11:16:25 INFO SecurityManager: Changing modify acls groups to: 
 18/11/12 11:16:25 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(vkumar); groups with view permissions: Set(); users with modify permissions: Set(vkumar); groups with modify permissions: Set()
 18/11/12 11:16:26 INFO Utils: Successfully started service 'sparkDriver' on port 54382.
 18/11/12 11:16:26 INFO SparkEnv: Registering MapOutputTracker
 18/11/12 11:16:26 INFO SparkEnv: Registering BlockManagerMaster
 18/11/12 11:16:26 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information
 18/11/12 11:16:26 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up
 18/11/12 11:16:26 INFO DiskBlockManager: Created local directory at /private/var/folders/32/7klbv5_94wbddn9kgzvbwnkr0000gn/T/blockmgr-ddd2a79d-7fae-48e4-9658-1a8e2a8bb734
 18/11/12 11:16:26 INFO MemoryStore: MemoryStore started with capacity 4.1 GB
 18/11/12 11:16:26 INFO SparkEnv: Registering OutputCommitCoordinator
 18/11/12 11:16:26 INFO Utils: Successfully started service 'SparkUI' on port 4040.
 18/11/12 11:16:26 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://kirmac133.domain.com:4040
 18/11/12 11:16:26 INFO Executor: Starting executor ID driver on host localhost
 18/11/12 11:16:26 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 54383.
 18/11/12 11:16:26 INFO NettyBlockTransferService: Server created on kirmac133.domain.com:54383
 18/11/12 11:16:26 INFO BlockManager: Using org.apache.spark.storage.RandomBlockReplicationPolicy for block replication policy
 18/11/12 11:16:26 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO BlockManagerMasterEndpoint: Registering block manager kirmac133.domain.com:54383 with 4.1 GB RAM, BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO SharedState: Setting hive.metastore.warehouse.dir ('null') to the value of spark.sql.warehouse.dir ('file:/Users/vkumar/Documents/intellij/tmvalidator/spark-warehouse').
 18/11/12 11:16:26 INFO SharedState: Warehouse path is 'file:/Users/vkumar/Documents/intellij/tmvalidator/spark-warehouse'.
 18/11/12 11:16:27 INFO StateStoreCoordinatorRef: Registered StateStoreCoordinator endpoint
 18/11/12 11:16:28 INFO FileSourceStrategy: Pruning directories with: 
 18/11/12 11:16:28 INFO FileSourceStrategy: Post-Scan Filters: (length(trim(value#0, None)) > 0)
 18/11/12 11:16:28 INFO FileSourceStrategy: Output Data Schema: struct<value: string>
 18/11/12 11:16:28 INFO FileSourceScanExec: Pushed Filters: 
 18/11/12 11:16:29 INFO CodeGenerator: Code generated in 130.688148 ms
 Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 10582
 at com.thoughtworks.paranamer.BytecodeReadingParanamer$ClassReader.accept(BytecodeReadingParanamer.java:563)
 at com.thoughtworks.paranamer.BytecodeReadingParanamer$ClassReader.access$200(BytecodeReadingParanamer.java:338)
 at com.thoughtworks.paranamer.BytecodeReadingParanamer.lookupParameterNames(BytecodeReadingParanamer.java:103)
 at com.thoughtworks.paranamer.CachingParanamer.lookupParameterNames(CachingParanamer.java:90)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.getCtorParams(BeanIntrospector.scala:44)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$1(BeanIntrospector.scala:58)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$1$adapted(BeanIntrospector.scala:58)
 at scala.collection.TraversableLike.$anonfun$flatMap$1(TraversableLike.scala:240)
 at scala.collection.Iterator.foreach(Iterator.scala:937)
 at scala.collection.Iterator.foreach$(Iterator.scala:937)
 at scala.collection.AbstractIterator.foreach(Iterator.scala:1425)
 at scala.collection.IterableLike.foreach(IterableLike.scala:70)
 at scala.collection.IterableLike.foreach$(IterableLike.scala:69)
 at scala.collection.AbstractIterable.foreach(Iterable.scala:54)
 at scala.collection.TraversableLike.flatMap(TraversableLike.scala:240)
 at scala.collection.TraversableLike.flatMap$(TraversableLike.scala:237)
 at scala.collection.AbstractTraversable.flatMap(Traversable.scala:104)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.findConstructorParam$1(BeanIntrospector.scala:58)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$19(BeanIntrospector.scala:176)
 at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:233)
 at scala.collection.IndexedSeqOptimized.foreach(IndexedSeqOptimized.scala:32)
 at scala.collection.IndexedSeqOptimized.foreach$(IndexedSeqOptimized.scala:29)
 at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:194)
 at scala.collection.TraversableLike.map(TraversableLike.scala:233)
 at scala.collection.TraversableLike.map$(TraversableLike.scala:226)
 at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:194)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$14(BeanIntrospector.scala:170)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$14$adapted(BeanIntrospector.scala:169)
 at scala.collection.TraversableLike.$anonfun$flatMap$1(TraversableLike.scala:240)
 at scala.collection.immutable.List.foreach(List.scala:388)
 at scala.collection.TraversableLike.flatMap(TraversableLike.scala:240)
 at scala.collection.TraversableLike.flatMap$(TraversableLike.scala:237)
 at scala.collection.immutable.List.flatMap(List.scala:351)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.apply(BeanIntrospector.scala:169)
 at com.fasterxml.jackson.module.scala.introspect.ScalaAnnotationIntrospector$._descriptorFor(ScalaAnnotationIntrospectorModule.scala:22)
 at com.fasterxml.jackson.module.scala.introspect.ScalaAnnotationIntrospector$.fieldName(ScalaAnnotationIntrospectorModule.scala:30)
 at com.fasterxml.jackson.module.scala.introspect.ScalaAnnotationIntrospector$.findImplicitPropertyName(ScalaAnnotationIntrospectorModule.scala:78)
 at com.fasterxml.jackson.databind.introspect.AnnotationIntrospectorPair.findImplicitPropertyName(AnnotationIntrospectorPair.java:467)
 at com.fasterxml.jackson.databind.introspect.POJOPropertiesCollector._addFields(POJOPropertiesCollector.java:351)
 at com.fasterxml.jackson.databind.introspect.POJOPropertiesCollector.collectAll(POJOPropertiesCollector.java:283)
 at com.fasterxml.jackson.databind.introspect.POJOPropertiesCollector.getJsonValueMethod(POJOPropertiesCollector.java:169)
 at com.fasterxml.jackson.databind.introspect.BasicBeanDescription.findJsonValueMethod(BasicBeanDescription.java:223)
 at com.fasterxml.jackson.databind.ser.BasicSerializerFactory.findSerializerByAnnotations(BasicSerializerFactory.java:348)
 at com.fasterxml.jackson.databind.ser.BeanSerializerFactory._createSerializer2(BeanSerializerFactory.java:210)
 at com.fasterxml.jackson.databind.ser.BeanSerializerFactory.createSerializer(BeanSerializerFactory.java:153)
 at com.fasterxml.jackson.databind.SerializerProvider._createUntypedSerializer(SerializerProvider.java:1203)
 at com.fasterxml.jackson.databind.SerializerProvider._createAndCacheUntypedSerializer(SerializerProvider.java:1157)
 at com.fasterxml.jackson.databind.SerializerProvider.findValueSerializer(SerializerProvider.java:481)
 at com.fasterxml.jackson.databind.SerializerProvider.findTypedValueSerializer(SerializerProvider.java:679)
 at com.fasterxml.jackson.databind.ser.DefaultSerializerProvider.serializeValue(DefaultSerializerProvider.java:107)
 at com.fasterxml.jackson.databind.ObjectMapper._configAndWriteValue(ObjectMapper.java:3559)
 at com.fasterxml.jackson.databind.ObjectMapper.writeValueAsString(ObjectMapper.java:2927)
 at org.apache.spark.rdd.RDDOperationScope.toJson(RDDOperationScope.scala:52)
 at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:142)
 at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:152)
 at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:127)
 at org.apache.spark.sql.execution.SparkPlan.getByteArrayRdd(SparkPlan.scala:247)
 at org.apache.spark.sql.execution.SparkPlan.executeTake(SparkPlan.scala:339)
 at org.apache.spark.sql.execution.CollectLimitExec.executeCollect(limit.scala:38)
 at org.apache.spark.sql.Dataset.collectFromPlan(Dataset.scala:3384)
 at org.apache.spark.sql.Dataset.$anonfun$head$1(Dataset.scala:2545)
 at org.apache.spark.sql.Dataset.$anonfun$withAction$2(Dataset.scala:3365)
 at org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$1(SQLExecution.scala:78)
 at org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:125)
 at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:73)
 at org.apache.spark.sql.Dataset.withAction(Dataset.scala:3365)
 at org.apache.spark.sql.Dataset.head(Dataset.scala:2545)
 at org.apache.spark.sql.Dataset.take(Dataset.scala:2759)
 at org.apache.spark.sql.execution.datasources.csv.TextInputCSVDataSource$.infer(CSVDataSource.scala:232)
 at org.apache.spark.sql.execution.datasources.csv.CSVDataSource.inferSchema(CSVDataSource.scala:68)
 at org.apache.spark.sql.execution.datasources.csv.CSVFileFormat.inferSchema(CSVFileFormat.scala:63)
 at org.apache.spark.sql.execution.datasources.DataSource.$anonfun$getOrInferFileFormatSchema$12(DataSource.scala:183)
 at scala.Option.orElse(Option.scala:289)
 at org.apache.spark.sql.execution.datasources.DataSource.getOrInferFileFormatSchema(DataSource.scala:180)
 at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:373)
 at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223)
 at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
 at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
 at kir.com.tmvalidator.Validator.init(Validator.java:30)
 at kir.com.tmvalidator.Home.main(Home.java:7)
 18/11/12 11:16:29 INFO SparkContext: Invoking stop() from shutdown hook
 18/11/12 11:16:29 INFO SparkUI: Stopped Spark web UI at http://kirmac133.domain.com:4040
 18/11/12 11:16:29 INFO ContextCleaner: Cleaned accumulator 4
 18/11/12 11:16:29 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!
 18/11/12 11:16:29 INFO MemoryStore: MemoryStore cleared
 18/11/12 11:16:29 INFO BlockManager: BlockManager stopped
 18/11/12 11:16:29 INFO BlockManagerMaster: BlockManagerMaster stopped
 18/11/12 11:16:29 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!
 18/11/12 11:16:29 INFO SparkContext: Successfully stopped SparkContext
 18/11/12 11:16:29 INFO ShutdownHookManager: Shutdown hook called
 18/11/12 11:16:29 INFO ShutdownHookManager: Deleting directory /private/var/folders/32/7klbv5_94wbddn9kgzvbwnkr0000gn/T/spark-1bde2bb5-603d-4fae-9128-7d92f259077b

edited Nov 12 at 11:20

asked Nov 12 at 11:14

VK321

2,07121524

I am new to Spark and trying to read a CSV file using Java maven project but getting ArrayIndexOutOfBoundsException error.

Dependencies:

 <dependencies>
 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
 <dependency>
 <groupId>org.apache.spark</groupId>
 <artifactId>spark-core_2.12</artifactId>
 <version>2.4.0</version>
 </dependency>

 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
 <dependency>
 <groupId>org.apache.spark</groupId>
 <artifactId>spark-sql_2.12</artifactId>
 <version>2.4.0</version>
 </dependency>
</dependencies>

Code:

SparkSession spark = SparkSession
 .builder()
 .appName("Java Spark SQL Example")
 .config("spark.master", "local")
 .getOrCreate();

 //Read file
 Dataset<Row> df = spark.read()
 .format("csv")
 .load("test.csv");

CSV File

name,code
A,1
B,3
C,5

Here is stacktrace

 Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
 18/11/12 11:16:25 INFO SparkContext: Running Spark version 2.4.0
 18/11/12 11:16:25 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
 18/11/12 11:16:25 INFO SparkContext: Submitted application: Java Spark SQL Example
 18/11/12 11:16:25 INFO SecurityManager: Changing view acls to: vkumar
 18/11/12 11:16:25 INFO SecurityManager: Changing modify acls to: vkumar
 18/11/12 11:16:25 INFO SecurityManager: Changing view acls groups to: 
 18/11/12 11:16:25 INFO SecurityManager: Changing modify acls groups to: 
 18/11/12 11:16:25 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(vkumar); groups with view permissions: Set(); users with modify permissions: Set(vkumar); groups with modify permissions: Set()
 18/11/12 11:16:26 INFO Utils: Successfully started service 'sparkDriver' on port 54382.
 18/11/12 11:16:26 INFO SparkEnv: Registering MapOutputTracker
 18/11/12 11:16:26 INFO SparkEnv: Registering BlockManagerMaster
 18/11/12 11:16:26 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information
 18/11/12 11:16:26 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up
 18/11/12 11:16:26 INFO DiskBlockManager: Created local directory at /private/var/folders/32/7klbv5_94wbddn9kgzvbwnkr0000gn/T/blockmgr-ddd2a79d-7fae-48e4-9658-1a8e2a8bb734
 18/11/12 11:16:26 INFO MemoryStore: MemoryStore started with capacity 4.1 GB
 18/11/12 11:16:26 INFO SparkEnv: Registering OutputCommitCoordinator
 18/11/12 11:16:26 INFO Utils: Successfully started service 'SparkUI' on port 4040.
 18/11/12 11:16:26 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://kirmac133.domain.com:4040
 18/11/12 11:16:26 INFO Executor: Starting executor ID driver on host localhost
 18/11/12 11:16:26 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 54383.
 18/11/12 11:16:26 INFO NettyBlockTransferService: Server created on kirmac133.domain.com:54383
 18/11/12 11:16:26 INFO BlockManager: Using org.apache.spark.storage.RandomBlockReplicationPolicy for block replication policy
 18/11/12 11:16:26 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO BlockManagerMasterEndpoint: Registering block manager kirmac133.domain.com:54383 with 4.1 GB RAM, BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, kirmac133.domain.com, 54383, None)
 18/11/12 11:16:26 INFO SharedState: Setting hive.metastore.warehouse.dir ('null') to the value of spark.sql.warehouse.dir ('file:/Users/vkumar/Documents/intellij/tmvalidator/spark-warehouse').
 18/11/12 11:16:26 INFO SharedState: Warehouse path is 'file:/Users/vkumar/Documents/intellij/tmvalidator/spark-warehouse'.
 18/11/12 11:16:27 INFO StateStoreCoordinatorRef: Registered StateStoreCoordinator endpoint
 18/11/12 11:16:28 INFO FileSourceStrategy: Pruning directories with: 
 18/11/12 11:16:28 INFO FileSourceStrategy: Post-Scan Filters: (length(trim(value#0, None)) > 0)
 18/11/12 11:16:28 INFO FileSourceStrategy: Output Data Schema: struct<value: string>
 18/11/12 11:16:28 INFO FileSourceScanExec: Pushed Filters: 
 18/11/12 11:16:29 INFO CodeGenerator: Code generated in 130.688148 ms
 Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 10582
 at com.thoughtworks.paranamer.BytecodeReadingParanamer$ClassReader.accept(BytecodeReadingParanamer.java:563)
 at com.thoughtworks.paranamer.BytecodeReadingParanamer$ClassReader.access$200(BytecodeReadingParanamer.java:338)
 at com.thoughtworks.paranamer.BytecodeReadingParanamer.lookupParameterNames(BytecodeReadingParanamer.java:103)
 at com.thoughtworks.paranamer.CachingParanamer.lookupParameterNames(CachingParanamer.java:90)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.getCtorParams(BeanIntrospector.scala:44)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$1(BeanIntrospector.scala:58)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$1$adapted(BeanIntrospector.scala:58)
 at scala.collection.TraversableLike.$anonfun$flatMap$1(TraversableLike.scala:240)
 at scala.collection.Iterator.foreach(Iterator.scala:937)
 at scala.collection.Iterator.foreach$(Iterator.scala:937)
 at scala.collection.AbstractIterator.foreach(Iterator.scala:1425)
 at scala.collection.IterableLike.foreach(IterableLike.scala:70)
 at scala.collection.IterableLike.foreach$(IterableLike.scala:69)
 at scala.collection.AbstractIterable.foreach(Iterable.scala:54)
 at scala.collection.TraversableLike.flatMap(TraversableLike.scala:240)
 at scala.collection.TraversableLike.flatMap$(TraversableLike.scala:237)
 at scala.collection.AbstractTraversable.flatMap(Traversable.scala:104)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.findConstructorParam$1(BeanIntrospector.scala:58)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$19(BeanIntrospector.scala:176)
 at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:233)
 at scala.collection.IndexedSeqOptimized.foreach(IndexedSeqOptimized.scala:32)
 at scala.collection.IndexedSeqOptimized.foreach$(IndexedSeqOptimized.scala:29)
 at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:194)
 at scala.collection.TraversableLike.map(TraversableLike.scala:233)
 at scala.collection.TraversableLike.map$(TraversableLike.scala:226)
 at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:194)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$14(BeanIntrospector.scala:170)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.$anonfun$apply$14$adapted(BeanIntrospector.scala:169)
 at scala.collection.TraversableLike.$anonfun$flatMap$1(TraversableLike.scala:240)
 at scala.collection.immutable.List.foreach(List.scala:388)
 at scala.collection.TraversableLike.flatMap(TraversableLike.scala:240)
 at scala.collection.TraversableLike.flatMap$(TraversableLike.scala:237)
 at scala.collection.immutable.List.flatMap(List.scala:351)
 at com.fasterxml.jackson.module.scala.introspect.BeanIntrospector$.apply(BeanIntrospector.scala:169)
 at com.fasterxml.jackson.module.scala.introspect.ScalaAnnotationIntrospector$._descriptorFor(ScalaAnnotationIntrospectorModule.scala:22)
 at com.fasterxml.jackson.module.scala.introspect.ScalaAnnotationIntrospector$.fieldName(ScalaAnnotationIntrospectorModule.scala:30)
 at com.fasterxml.jackson.module.scala.introspect.ScalaAnnotationIntrospector$.findImplicitPropertyName(ScalaAnnotationIntrospectorModule.scala:78)
 at com.fasterxml.jackson.databind.introspect.AnnotationIntrospectorPair.findImplicitPropertyName(AnnotationIntrospectorPair.java:467)
 at com.fasterxml.jackson.databind.introspect.POJOPropertiesCollector._addFields(POJOPropertiesCollector.java:351)
 at com.fasterxml.jackson.databind.introspect.POJOPropertiesCollector.collectAll(POJOPropertiesCollector.java:283)
 at com.fasterxml.jackson.databind.introspect.POJOPropertiesCollector.getJsonValueMethod(POJOPropertiesCollector.java:169)
 at com.fasterxml.jackson.databind.introspect.BasicBeanDescription.findJsonValueMethod(BasicBeanDescription.java:223)
 at com.fasterxml.jackson.databind.ser.BasicSerializerFactory.findSerializerByAnnotations(BasicSerializerFactory.java:348)
 at com.fasterxml.jackson.databind.ser.BeanSerializerFactory._createSerializer2(BeanSerializerFactory.java:210)
 at com.fasterxml.jackson.databind.ser.BeanSerializerFactory.createSerializer(BeanSerializerFactory.java:153)
 at com.fasterxml.jackson.databind.SerializerProvider._createUntypedSerializer(SerializerProvider.java:1203)
 at com.fasterxml.jackson.databind.SerializerProvider._createAndCacheUntypedSerializer(SerializerProvider.java:1157)
 at com.fasterxml.jackson.databind.SerializerProvider.findValueSerializer(SerializerProvider.java:481)
 at com.fasterxml.jackson.databind.SerializerProvider.findTypedValueSerializer(SerializerProvider.java:679)
 at com.fasterxml.jackson.databind.ser.DefaultSerializerProvider.serializeValue(DefaultSerializerProvider.java:107)
 at com.fasterxml.jackson.databind.ObjectMapper._configAndWriteValue(ObjectMapper.java:3559)
 at com.fasterxml.jackson.databind.ObjectMapper.writeValueAsString(ObjectMapper.java:2927)
 at org.apache.spark.rdd.RDDOperationScope.toJson(RDDOperationScope.scala:52)
 at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:142)
 at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:152)
 at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:127)
 at org.apache.spark.sql.execution.SparkPlan.getByteArrayRdd(SparkPlan.scala:247)
 at org.apache.spark.sql.execution.SparkPlan.executeTake(SparkPlan.scala:339)
 at org.apache.spark.sql.execution.CollectLimitExec.executeCollect(limit.scala:38)
 at org.apache.spark.sql.Dataset.collectFromPlan(Dataset.scala:3384)
 at org.apache.spark.sql.Dataset.$anonfun$head$1(Dataset.scala:2545)
 at org.apache.spark.sql.Dataset.$anonfun$withAction$2(Dataset.scala:3365)
 at org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$1(SQLExecution.scala:78)
 at org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:125)
 at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:73)
 at org.apache.spark.sql.Dataset.withAction(Dataset.scala:3365)
 at org.apache.spark.sql.Dataset.head(Dataset.scala:2545)
 at org.apache.spark.sql.Dataset.take(Dataset.scala:2759)
 at org.apache.spark.sql.execution.datasources.csv.TextInputCSVDataSource$.infer(CSVDataSource.scala:232)
 at org.apache.spark.sql.execution.datasources.csv.CSVDataSource.inferSchema(CSVDataSource.scala:68)
 at org.apache.spark.sql.execution.datasources.csv.CSVFileFormat.inferSchema(CSVFileFormat.scala:63)
 at org.apache.spark.sql.execution.datasources.DataSource.$anonfun$getOrInferFileFormatSchema$12(DataSource.scala:183)
 at scala.Option.orElse(Option.scala:289)
 at org.apache.spark.sql.execution.datasources.DataSource.getOrInferFileFormatSchema(DataSource.scala:180)
 at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:373)
 at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223)
 at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
 at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
 at kir.com.tmvalidator.Validator.init(Validator.java:30)
 at kir.com.tmvalidator.Home.main(Home.java:7)
 18/11/12 11:16:29 INFO SparkContext: Invoking stop() from shutdown hook
 18/11/12 11:16:29 INFO SparkUI: Stopped Spark web UI at http://kirmac133.domain.com:4040
 18/11/12 11:16:29 INFO ContextCleaner: Cleaned accumulator 4
 18/11/12 11:16:29 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!
 18/11/12 11:16:29 INFO MemoryStore: MemoryStore cleared
 18/11/12 11:16:29 INFO BlockManager: BlockManager stopped
 18/11/12 11:16:29 INFO BlockManagerMaster: BlockManagerMaster stopped
 18/11/12 11:16:29 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!
 18/11/12 11:16:29 INFO SparkContext: Successfully stopped SparkContext
 18/11/12 11:16:29 INFO ShutdownHookManager: Shutdown hook called
 18/11/12 11:16:29 INFO ShutdownHookManager: Deleting directory /private/var/folders/32/7klbv5_94wbddn9kgzvbwnkr0000gn/T/spark-1bde2bb5-603d-4fae-9128-7d92f259077b

java apache-spark hive apache-spark-sql

edited Nov 12 at 11:20

asked Nov 12 at 11:14

VK321

2,07121524

edited Nov 12 at 11:20

asked Nov 12 at 11:14

VK321

2,07121524

edited Nov 12 at 11:20

asked Nov 12 at 11:14

VK321

2,07121524

asked Nov 12 at 11:14

VK321

2,07121524

asked Nov 12 at 11:14

VK321

2,07121524

1

Can you include the stack trace?
– shriyog
Nov 12 at 11:16

@shriyog - Added
– VK321
Nov 12 at 11:21

Are you getting this error of above-mentioned input in csv?
– shriyog
Nov 12 at 11:28

@shriyog - Yes :(
– VK321
Nov 12 at 11:28

I tested the same for 2.3.0 versions, it works without issues. Checking with 2.4.0
– shriyog
Nov 12 at 11:32

|
show 3 more comments

1

Can you include the stack trace?
– shriyog
Nov 12 at 11:16

@shriyog - Added
– VK321
Nov 12 at 11:21

Are you getting this error of above-mentioned input in csv?
– shriyog
Nov 12 at 11:28

@shriyog - Yes :(
– VK321
Nov 12 at 11:28

I tested the same for 2.3.0 versions, it works without issues. Checking with 2.4.0
– shriyog
Nov 12 at 11:32

Can you include the stack trace?
– shriyog
Nov 12 at 11:16

@shriyog - Added
– VK321
Nov 12 at 11:21

Are you getting this error of above-mentioned input in csv?
– shriyog
Nov 12 at 11:28

@shriyog - Yes :(
– VK321
Nov 12 at 11:28

I tested the same for 2.3.0 versions, it works without issues. Checking with 2.4.0
– shriyog
Nov 12 at 11:32

|
show 3 more comments

2 Answers
2

active

oldest

votes

The paranamer version referred in Spark 2.4.0 is 2.7 which is causing the issue. Adding following dependency before the spark-core/ spark-sql solved the issue for me.

<dependency>
 <groupId>com.thoughtworks.paranamer</groupId>
 <artifactId>paranamer</artifactId>
 <version>2.8</version>
</dependency>

answered Nov 20 at 4:24

Shasankar

18719

add a comment |

I meet the same problem, but when I tried scala, this problem solved!

val tp = StructType(Seq(StructField("name", DataTypes.StringType), StructField("code", DataTypes.IntegerType)))

val df = spark.read.format("csv").option("header", "true").schema(tp).load("test.csv")

answered Nov 13 at 6:14

LiJianing

373

yes for now its working for me on 2.3.0
– VK321
Nov 13 at 6:15

add a comment |

Your Answer

StackExchange.ifUsing("editor", function ()
StackExchange.using("externalEditor", function ()
StackExchange.using("snippets", function ()
StackExchange.snippets.init();
);
);
, "code-snippets");

StackExchange.ready(function()
var channelOptions =
tags: "".split(" "),
id: "1"
;
initTagRenderer("".split(" "), "".split(" "), channelOptions);

StackExchange.using("externalEditor", function()
// Have to fire editor after snippets, if snippets enabled
if (StackExchange.settings.snippets.snippetsEnabled)
StackExchange.using("snippets", function()
createEditor();
);

else
createEditor();

);

function createEditor()
StackExchange.prepareEditor(
heartbeatType: 'answer',
autoActivateHeartbeat: false,
convertImagesToLinks: true,
noModals: true,
showLowRepImageUploadWarning: true,
reputationToPostImages: 10,
bindNavPrevention: true,
postfix: "",
imageUploader:
brandingHtml: "Powered by u003ca class="icon-imgur-white" href="https://imgur.com/"u003eu003c/au003e",
contentPolicyHtml: "User contributions licensed under u003ca href="https://creativecommons.org/licenses/by-sa/3.0/"u003ecc by-sa 3.0 with attribution requiredu003c/au003e u003ca href="https://stackoverflow.com/legal/content-policy"u003e(content policy)u003c/au003e",
allowUrls: true
,
onDemand: true,
discardSelector: ".discard-answer"
,immediatelyShowMarkdownHelp:true
);

);

draft saved

draft discarded

StackExchange.ready(
function ()
StackExchange.openid.initPostLogin('.new-post-login', 'https%3a%2f%2fstackoverflow.com%2fquestions%2f53260980%2fjava-sparksql-2-4-0-arrayindexoutofboundsexception-error%23new-answer', 'question_page');

);

Post as a guest

Name

Required, but never shown

2 Answers
2

active

oldest

votes

2 Answers
2

active

oldest

votes

The paranamer version referred in Spark 2.4.0 is 2.7 which is causing the issue. Adding following dependency before the spark-core/ spark-sql solved the issue for me.

<dependency>
 <groupId>com.thoughtworks.paranamer</groupId>
 <artifactId>paranamer</artifactId>
 <version>2.8</version>
</dependency>

answered Nov 20 at 4:24

Shasankar

18719

add a comment |

The paranamer version referred in Spark 2.4.0 is 2.7 which is causing the issue. Adding following dependency before the spark-core/ spark-sql solved the issue for me.

<dependency>
 <groupId>com.thoughtworks.paranamer</groupId>
 <artifactId>paranamer</artifactId>
 <version>2.8</version>
</dependency>

answered Nov 20 at 4:24

Shasankar

18719

add a comment |

The paranamer version referred in Spark 2.4.0 is 2.7 which is causing the issue. Adding following dependency before the spark-core/ spark-sql solved the issue for me.

<dependency>
 <groupId>com.thoughtworks.paranamer</groupId>
 <artifactId>paranamer</artifactId>
 <version>2.8</version>
</dependency>

answered Nov 20 at 4:24

Shasankar

18719

The paranamer version referred in Spark 2.4.0 is 2.7 which is causing the issue. Adding following dependency before the spark-core/ spark-sql solved the issue for me.

<dependency>
 <groupId>com.thoughtworks.paranamer</groupId>
 <artifactId>paranamer</artifactId>
 <version>2.8</version>
</dependency>

answered Nov 20 at 4:24

Shasankar

18719

answered Nov 20 at 4:24

Shasankar

18719

answered Nov 20 at 4:24

Shasankar

18719

answered Nov 20 at 4:24

Shasankar

18719

add a comment |

I meet the same problem, but when I tried scala, this problem solved!

val tp = StructType(Seq(StructField("name", DataTypes.StringType), StructField("code", DataTypes.IntegerType)))

val df = spark.read.format("csv").option("header", "true").schema(tp).load("test.csv")

answered Nov 13 at 6:14

LiJianing

373

yes for now its working for me on 2.3.0
– VK321
Nov 13 at 6:15

add a comment |

I meet the same problem, but when I tried scala, this problem solved!

val tp = StructType(Seq(StructField("name", DataTypes.StringType), StructField("code", DataTypes.IntegerType)))

val df = spark.read.format("csv").option("header", "true").schema(tp).load("test.csv")

answered Nov 13 at 6:14

LiJianing

373

yes for now its working for me on 2.3.0
– VK321
Nov 13 at 6:15

add a comment |

I meet the same problem, but when I tried scala, this problem solved!

val tp = StructType(Seq(StructField("name", DataTypes.StringType), StructField("code", DataTypes.IntegerType)))

val df = spark.read.format("csv").option("header", "true").schema(tp).load("test.csv")

answered Nov 13 at 6:14

LiJianing

373

I meet the same problem, but when I tried scala, this problem solved!

val tp = StructType(Seq(StructField("name", DataTypes.StringType), StructField("code", DataTypes.IntegerType)))

val df = spark.read.format("csv").option("header", "true").schema(tp).load("test.csv")

answered Nov 13 at 6:14

LiJianing

373

answered Nov 13 at 6:14

LiJianing

373

answered Nov 13 at 6:14

LiJianing

373

answered Nov 13 at 6:14

LiJianing

373

yes for now its working for me on 2.3.0
– VK321
Nov 13 at 6:15

add a comment |

yes for now its working for me on 2.3.0
– VK321
Nov 13 at 6:15

yes for now its working for me on 2.3.0
– VK321
Nov 13 at 6:15

add a comment |

draft saved

draft discarded

Thanks for contributing an answer to Stack Overflow!

Please be sure to answer the question. Provide details and share your research!

But avoid …

Asking for help, clarification, or responding to other answers.

Making statements based on opinion; back them up with references or personal experience.

To learn more, see our tips on writing great answers.

Some of your past answers have not been well-received, and you're in danger of being blocked from answering.

Please pay close attention to the following guidance:

Please be sure to answer the question. Provide details and share your research!

But avoid …

Asking for help, clarification, or responding to other answers.

Making statements based on opinion; back them up with references or personal experience.

To learn more, see our tips on writing great answers.

draft saved

draft discarded

Post as a guest

Name

Required, but never shown

Name

Required, but never shown

Name

Required, but never shown

This page is only for reference, If you need detailed information, please check here

neAg,w4zV XQ AWQEym6WI,uOBJm7NCE,6Hi,sdnS4,7UCpOMCG,W irD dZ J8d,ZkCrIB8nSzzN6modCWe,PHSOQsd

搜尋此網誌

Odtnhj